Digitalisierung und Innovation / 13.08.2020 / Patrick Arnold

Setzt sich die Sprache als User Interface durch?

Apple hat Siri, Microsoft hat Cortana, Amazon Alexa und Google den Google Assistant. Sprachassistenten erleichtern unseren Alltag. Sprache als Interface gewinnt immer mehr an der Bedeutung bei der Steuerung von Apps und Online-Services. Allein in Europa liegt der Marktumsatz von Smart Speakern bereits bei 939 Millionen Euro, wie Zahlen von Statista bestätigen.

In allen Bereichen unseres alltäglichen Lebens sehen wir, wie uns die digitalen Assistenten Schritt für Schritt bei alltäglichen Situationen unterstützen. 

Smart Speaker ziehen in die Haushalte ein

„Alexa schalte das Licht im Wohnzimmer aus!“ – immer mehr Haushalte in Deutschland schaffen sich einen sog. Smart Speaker an und vernetzen diesen mit ihren unterschiedlichen Smart Home Geräten. Doch übernimmt der dahinter verknüpfte Assistent nicht nur die Steuerung für unterschiedlichen Hausbestandteile, er dient auch zum Auslesen unseres Kontostandes, bestellen von Lebensmitteln oder auch zum Einholen für Informationen.


Als Pionier am Markt hat sich hier Amazon mit seiner Amazon Echo Reihe durchgesetzt und als erster einen Markt geschaffen, der so vorher noch gar nicht existierte. Mittlerweile sind alle namhaften Unterhaltungselektronik-Marken einen Smart Speaker im Angebot, der dann mit unterschiedlichen Text-to-Speech Services und unterschiedlichen APIs verbunden ist.

Allein in Deutschland gab es im Jahr 2019 bereits 11,7 Millionen Smart-Speaker-Konsumenten, die über die Ökosysteme von Google, Amazon oder auch Microsoft erschlossen werden können. Dieser Markt bietet vollständig neue Möglichkeiten, seine Produkte anzubieten oder auch die Omnichannel Experience eines Kunden auf eine neue Ebene zu heben.

Was macht die Smart Speaker so „smart“?

An sich haben die Geräte meist gar nicht so viele „smarte“ Eigenschaften. Grundsätzlich sind es erstmal nur Lautsprecher mit einem Mikrofon und eventuell einer Ansteuerung über Bluetooth oder auch Wlan. Das eigentlich „Smarte“ spielt sich im Hintergrund ab, nämlich in der Cloud. Hier arbeitet die sog. Künstliche Intelligenz. Im Folgenden würde ich gerne betrachten, welche Schritte am Beispiel eines Alexa Skills ablaufen, damit der Aufrufer des Assistenten auch die richtige Antwort bekommt:

  1. Der Kunde fragt an „Alexa, ask Digital Bank for my balances“
  2. Alexa streamed die Spracheingabe an den Alexa Voice Service in der AWS Cloud
  3. Dort angekommen wird der Skillname identifiziert (Digital Bank) und versucht, die Anfrage zu erkennen und schlussendlich die Daten so zu strukturieren, dass der Alexa Skill aufgerufen werden kann
  4. Dann wird der passende Alexa Skill (AWS Lambda) aufgerufen, der dann wiederum eine passende Response erzeugt. Der Alexa Skill streamed diese an den Alexa Voice Service zurück
  5. Hier wird aus dem formulierten Text zu Sprache konvertiert und das Endgerät vom Kunden gestreamed

Zielgruppe der Smart Speaker und Sprachassistenten

Mit den Millennials und der Gen Z werden zeitnah zwei Generationen das globale Wirtschaftstreiben dominieren, die in einer vernetzten digitalen Welt aufgewachsen sind und die Vorteile einer solchen Welt bereits in jungen Jahren kennengelernt haben. Nachdem die Gen Z eine der Generationen mit der potenziell größten Kaufkraft ist, wird der Markt für Smart Speaker und Sprachassistenten immer interessanter. Jedoch ist erkennbar, dass z.B. Akquise-Use-Cases außerhalb von Amazon noch keine vergleichbare Akzeptanz im Markt finden. Man muss den Kunden Zeit geben, um sich an dieses neue Zeitalter zu gewöhnen. So wäre es z.B. möglich mit Hilfe von einem Sprachassistenten eine Omnichannel Integration aufzubauen. Der Kunde könnte dabei erstmal über den Sprachassistenten ein Produkt in den Warenkorb legen und sich dann weitere Details & Informationen über die App ansehen, bevor er einen Kauf abschließt. Diese Use Cases muss man spezifisch pro Branche aber auch Prozess betrachten und mit dem passenden Fingerspitzengefühl lösen.

Wie integriere ich einen Sprachassistenten in meine aktuelle IT-Landschaft?

Die ganzen Speech-to-Text oder Text-to-Speech Services schaffen schon eine gute Basis, aber wie kommt man eigentlich an die passenden Daten? Meist ist es so, dass man nicht seinen kompletten Datenbestand in die Cloud replizieren möchte. Hierfür muss also eine andere Lösung geschaffen werden. Eine sehr beliebte und häufig genutzte Möglichkeit ist die Etablierung einer API-Management-Komponente, um die APIs, die on Premise verwendet werden, für die entsprechenden neuen Services zur Verfügung zu stellen. Wie so etwas aussehen könnte, sehen sie in folgendem Diagramm:

Wichtig hierbei ist, dass es keine Rolle spielt, ob sich hinter der API-Managementplattform ein Backend-System, eine selbstgehostete KI-Komponente oder eine KI-Komponente von einem anderen Cloud-Provider befindet. Solange eine API veröffentlicht werden kann, kann sie auch angebunden und genutzt werden. Das bedeutet im Umkehrschluss: Man muss sich für seinen Use Case bei der Umsetzung nicht auf einen bestimmten Provider festlegen.

Fazit

Ob Sprachassistenten oder auch Smarte Speaker die Zukunft der Kundenkommunikation sind, ist schwer zu sagen und dies bezweifle ich auch. Denn selbst der beste Smart Speaker wird an der einen oder anderen Stelle nicht ein persönliches Gespräch ersetzen können. Jedoch kann er uns dabei unterstützen, alltägliche Aufgaben zu erledigen. Die technische Implementierung und Integration ist heute bereits sehr weit fortgeschritten und so sind hier kaum mehr Grenzen gesetzt. Es bleibt also spannend im Umfeld der Sprache!

Einblicke

Shaping the future with our clients