MBUX Voice Assistant: Versteht dich von selbst

Die Einführung unseres MBUX Voice Assistant in der neuen A-Klasse hat in diesem Jahr für ziemlich viel Aufsehen gesorgt. Zum ersten Mal können unsere Kunden etliche Funktionen vom Navigationssystem über das Radio bis hin zur Klimaanlage ganz einfach und intuitiv per Sprache steuern.

Gemeinsam mit meinen Kollegen und unseren Entwicklungspartnern war ich für die Serieneinführung der Sprachbedienung verantwortlich und bin ziemlich stolz darauf, was wir geschafft haben. Mit MBUX wird das Auto wortwörtlich zum smart car – wie wir euch Anfang Januar auf der CES in Las Vegas gezeigt haben:

In diesem Blog-Artikel will ich euch erzählen, wie wir MBUX entwickelt haben.

Linguatronic als erste Sprachbedienung

Mercedes-Benz gilt als Erfinder des Automobils. Wir waren aber ebenso die Vorreiter in der Sprachbedienung im Fahrzeug. Schon vor 50 Jahren begannen unsere Ulmer Kollegen mit der Entwicklung von Programmen zur Sprachverarbeitung. Inspiriert wurden viele von uns von Filmen wie „2001: A Space Odyssey“ oder K.I.T.T. in Knight Rider.

1996 war unsere Linguatronic die erste Sprachbedienung in einem Fahrzeug – in der S-Klasse. Eine Sprachbedienung macht im Fahrkontext natürlich besonders viel Sinn, weil die Hände am Lenkrad und die Augen auf der Straße sein sollten.

Die Hardware unserer ersten Sprachbedienung Linguatronic

Die Hardware unserer ersten Sprachbedienung Linguatronic

In den letzten 22 Jahren hat sich die Sprachtechnologie rasant entwickelt. Sprachassistenten sind überall auf der Welt populär. Die ständige Verfügbarkeit von Assistenten in Smartphones und zu Hause führt aber auch zu einer gewissen Erwartungshaltung. Das geht mir ganz genauso wie den Leuten, die Alexa und Siri bei sich haben und täglich erleben, was sprachlich alles möglich ist.

Ein Assistent fürs Auto

So etwas wird dann verständlicherweise auch im Auto erwartet – entwickelt für den Kontext im Fahrzeug, abgesichert für den extremen Temperaturbereich zwischen -40 und 70 Grad Celsius und mit möglichst geringer Ablenkung des Fahrers.

Für eine gut funktionierende Sprachbedienung im Fahrzeug mussten wir deshalb erstmal eine Reihe von Herausforderungen annehmen und lösen: Beispielsweise gibt es in jedem Fahrzeug Geräusche, die herausgefiltert werden müssen, wenn ich das System anspreche – das können Fahrgeräusche sein, der Wind, die Scheibenwischer. Oder aber auch Musik oder Gespräche zwischen den Mitfahrern.

Außerdem wollen wir unseren Kunden auch dann noch eine leistungsfähige Sprachbedienung anbieten, wenn man mal wieder irgendwo in der Internet-Einöde ohne Verbindung unterwegs ist, wie es vielerorts noch der Fall ist. Wer schon mal zuhause versucht hat, Siri oder Alexa ohne Netz zu bedienen, weiß, dass dann gar nichts mehr geht.

Mit MBUX könnt ihr euer Musikprogramm selbst bestimmen

Deshalb haben wir gemeinsam mit der Firma Nuance Communications eine sogenannte hybride Sprachbedienung entwickelt, die Sprache sowohl auf der Headunit im Fahrzeug als auch auf dem Server erkennt und versteht, und dann bestmöglich antwortet – völlig egal, ob das Auto gerade zwischen Häuserschluchten oder im Gebirge unterwegs ist oder in der Tiefgarage steht.

Noch besser ist unser Assistent natürlich mit Netz: Für die bestmögliche User Experience nutzen wir aktuelle Daten vom Server und liefern dem Nutzer zum Beispiel die lokale Suche nach guten Restaurants mit entsprechendem yelp-Rating, den Wetterbericht für einen bestimmten Ort und Online Music.

Bestens vernetzt

Dass wir derart viele Funktionen bei MBUX umsetzen konnten, lag vor allem an der sehr engen und vernetzten Zusammenarbeit mit vielen Abteilungen und Fachbereichen. Besonders intensiv war unsere Zusammenarbeit mit den Kollegen der Baureihen, zum Beispiel der neuen A-Klasse und dem GLE. So reifte speziell die A-Klasse zu einem Fahrzeug, das Techies begeistern wird. Danke dafür!

Drei Männer stehen vor einer neuen A-Klasse

Mein Team und ich posieren stolz vor der neuen A-Klasse mit dem MBUX Voice Assistenten

MBUX weiß, was du (sagen) willst

Ein ganz zentrales Kriterium für das Design unserer Sprachdialoge ist die intuitive Bedienung. Das bedeutet konkret: Unsere Kunden sollen mit MBUX so sprechen können, wie mit einem Mitfahrer. Und unser System soll genauso intelligent darauf reagieren und verständlich antworten.

Bei früheren Sprachassistenten haben Experten Annahmen getroffen, was die Benutzer zur Aktivierung bestimmter Funktionen sagen würden und entsprechende Grammatiken geschrieben. Die Nutzer mussten dann Kommandos lernen, denn die Experten konnten nicht alle Varianten abdecken, die die Sprache bietet. Für die lernwilligen Nutzer hat das gut funktioniert – wer sich nicht an das vorgeschrieben Kommando gehalten hat, war dagegen schnell frustriert.

Kaffee, Hunger oder doch müde? MBUX kennt auf (fast) alle Bedürfnisse eine Antwort

Kaffee, Hunger oder doch müde? MBUX kennt auf (fast) alle Bedürfnisse eine Antwort

Dieses starre Korsett haben wir aufgebrochen, indem wir Daten von möglichst vielen Nutzern sammeln und daraus statistische Modelle trainieren. Diese statistischen Modelle rechnen immer eine Wahrscheinlichkeit für das nächste Wort auf Basis der bereits gesagten Wörter aus. Damit können wir auch Sätze abdecken, die nie im Training gesagt wurden.

So können wir die Lernphase für unseren Sprachassistenten auf ein Minimum reduzieren. Das ist ein unglaublich großer Fortschritt auf dem Weg zur natürlichen Interaktion, bei der man einfach sprechen kann, wie einem der Schnabel gewachsen ist. Das gilt allerdings nur für Muttersprachler. Bei Leuten mit starkem Akzent machen wir Fortschritte, aber da gibt es noch einiges zu tun. Und obwohl wir uns in Baden-Württemberg selber mit Hochdeutsch schwer tun, stoßen wir auch bei der Spracherkennung von Dialekten noch an gewisse Grenzen…

Von der Spracherkennung zum Sprachverstehen

Früher spielte die Spracherkennung eine herausragende Rolle. Heute fokussieren wir auf das sogenannte Sprachverstehen. Die Spracherkennung wandelt das Sprachsignal in die entsprechende Wortfolge um. Das Sprachverstehen geht darüber hinaus und versteht die Bedeutung des Eingabesatzes. Um zum Beispiel nach Stuttgart in die Mercedesstraße zu kommen muss das System folgende Parameter richtig erkennen:

Action=Navigate. City=Stuttgart. Street=Mercedesstraße

Unser MBUX kann diese Parameter auch erkennen, wenn der Satz einfach nur heißt:

„Ich will nach Stuttgart in die Mercedesstraße.“

Fehlen dem System noch Informationen zur Ausführung der Aktion, zum Beispiel eine Hausnummer, kann der Fahrer diese noch nachreichen. MBUX wird aber auch ohne Hausnummer schon mal mit der Navigation beginnen. Hier setzen wir wie in den meisten Fällen auf sogenannte Oneshots, also direkte Ausführungen der Aktionen. Schnelligkeit in der Interaktion ist eines der wichtigen Kriterien für uns ist.

In Las Vegas sind die Möglichkeiten schier unbegrenzt. MBUX kennt sie alle - und bringt euch mit einem einfachen Kommando hin

In Las Vegas sind die Möglichkeiten schier unbegrenzt. MBUX kennt sie alle – und bringt euch mit einem einfachen Kommando hin

Noch kniffliger sind für Sprachassistenten indirekte Anfragen wie z.B. „Mir ist kalt.“, „Meine Hände sind kalt.“ oder „Brauche ich Gummistiefel auf Sylt?“ Hier haben wir MBUX so konfiguriert, dass das System Annahmen trifft. Bei „Mir ist kalt“ stellt es die Temperatur hoch, bei kalten Händen geht die Lenkrad-Heizung an und bei der Frage nach den Gummistiefeln checkt MBUX den Wetterbericht.

Zuhören und Verstehen ist dabei nur die eine Seite. Auch die Sprachausgabe, also die Antwort muss kurz und verständlich sein. Schließlich sollen unsere Kunden beim Autofahren nicht darüber nachdenken müssen, was das System gerade gesagt hat. Außerdem haben wir ein bisschen Abwechslung bei den Antworten eingebaut, damit man nicht immer die gleiche Formulierung anhören muss. Mich würde das ja auch irgendwann nerven.

Und wie sieht’s aus?

Klar, der MBUX Sprachassistent basiert in erster Linie auf Sprache. Es geht also um sprechen und hören. Wichtig war uns aber auch die grafische Darstellung. Sie sollte die Sprachausgabe unterstützen, ohne den Fahrer vom Verkehr abzulenken. Das System zeigt deshalb mit einer Welle an, ob es gerade bereit ist, Anweisungen aufzunehmen oder ob es gerade eine andere Anweisung verarbeitet. Aber natürlich soll es auch die User Experience unterstützen. Beim Wetterbericht zeigt der Bildschirm also auch leicht verständlich und attraktiv die aktuellen Wetterbedingungen an: Blitz, Regen oder Sonne. Und die Listen für Navigationsziele kommen mit yelp-Bewertungen und ihrer Position auf Karte.

Der Voice Assistant lässt sich genauso einfach bedienen wie jedes andere Touchpad

Der Voice Assistant lässt sich genauso einfach bedienen wie jedes andere Touchpad

Sowohl bei der Sprachbedienung als auch bei der Optik haben wir also darauf geachtet, dass der Assistent intuitiv zu bedienen ist und alle Animationen dank ordentlicher Rechenleistung flüssig laufen. Eine schöne Optik war uns auch deshalb wichtig, weil bei Mercedes-Benz sowohl Exterieur- als auch Interieurdesign eine herausragende Rolle spielen.

Warum antwortest du nicht?

Neben der intuitiven Bedienung haben wir bei MBUX einen Fokus auf schnelle Reaktionszeiten des Systems gelegt. Das gilt für die grafische Darstellung ebenso wie für den Sprachassistenten. Schnelligkeit ist ein Schlüssel zum Erfolg, speziell in unserer gefühlt immer schneller werdenden Zeit. Wir haben uns an der menschlichen Kommunikation orientiert. Hier werden Pausen ab 200 Millisekunden schon als bedeutungstragend wahrgenommen: Hat uns der Gesprächspartner jetzt nicht verstanden oder ist er womöglich sauer?

Geschwindigkeit in der Interaktion ist also wirklich wichtig. Da die Kommunikation im Fahrzeug eine sekundäre Aufgabe neben dem Fahren ist, darf die Reaktionszeit aber etwas langsamer als im normalen Gespräch sein: wir haben uns zwei Sekunden vorgenommen und dieses Ziel mit sehr viel Optimierungsaufwand für die meisten Anwendungsfälle erreicht.

MBUX lässt sich auch mit der Mercedes me App verbinden

Obwohl wir Ingenieure nicht unbedingt für unseren Humor bekannt sind, haben wir im Sprachassistenten an verschiedenen Stellen ein kleines Augenzwinkern versteckt, so genannte Easter Eggs. Das sind Antworten, die das System auf mehr oder weniger sinnvolle Fragen der Kunden gibt. Einige davon sind wirklich witzig. Meine Favoriten sind:

  • „Hey Mercedes, was hältst Du von BMW?“ – „Sehen ganz nett aus. Aber nur in meinem Rückspiegel.“
  • oder auf Englisch „Mercedes, what’s cooler than being cool?“ –„Ice cold!“
  • oder „Hey Mercedes, you look amazing!” – Darauf antwortet die Stimme dann „Oh, I’m blushing”

Solche Kleinigkeiten sind nicht nur amüsant, sie wecken auch den spielerischen Umgang mit dem Assistenten und erzeugen eine gewisse Begeisterung.

Hey Mercedes!

Um den Sprachassistent zu aktivieren, sagt man einfach „Hey Mercedes“. Ehrlich gesagt bin ich sehr froh, dass unser Unternehmen so einen wohlklingenden Markennamen hat, den Emil Jellinek in Anfangszeiten gegen Gottlieb Daimler durchgesetzt hat. Mercedes ist ein weiblicher Vorname, der lang genug ist, um gut erkannt zu werden. Wir haben als Keyword ein internationales „Hey Mercedes“ umgesetzt und zusätzlich eine jeweils lokale Variante erarbeitet. Im Deutschen kann man z.B. „Hallo Mercedes“ sagen, im Spanischen „Hola Mercedes“. Derzeit ist der Assistent in 23 Sprachen verfügbar – wir arbeiten an weiteren.

Auf den MBUX Voice Assitant bin ich zugegebenermaßen schon etwas stolz, wie man hier sieht

Auf den MBUX Voice Assitant bin ich zugegebenermaßen schon etwas stolz, wie man hier sieht

Ich persönlich würde mich sehr freuen, wenn wir in der deutschen Sprachversion auf das Förmliche Sie verzichten und zum Duzen übergehen. Denn nicht nur in der neuen A-Klasse würde ein Du sehr viel zeitgemäßer klingen. An Erweiterungen und Verbesserungen unseres Sprachassistenten arbeiten viele Kollegen sehr intensiv.

Etwa halbjährig wird es neue Softwareversionen für die Headunit und auf den Servern geben. Hier fokussieren wir auf die Erweiterung der Funktionen, verbessertes Sprachverstehen und Fehlerabstellung. In Kürze wird MBUX nach der A-Klasse in weiteren Baureihen eingeführt, wie z.B. in den GLE und EQC (Stromverbrauch kombiniert: 20,8 – 19,7 kWh/100 km; CO2-Emissionen kombiniert: 0 g/km)*.

Wir lernen weiter

Es ist toll zu sehen, welche Begeisterung der Sprachassistent hervorrufen kann: Schon bei der Präsentation unserer neuen A-Klasse in Amsterdam haben wir vom Publikum tolles Feedback bekommen. Die Presse spiegelt uns in Ihren Tests zurück, dass MBUX das führende Bediensystem im Fahrzeug ist. Doch die größte Bestätigung erfahren wir durch unsere Kunden, die den Sprachassistenten im Schnitt 50 Mal pro Monat nutzen. Das hätten wir nicht zu träumen gewagt.

Aus diesen Millionen von Sprachdaten gilt es jetzt sehr schnell zu lernen, um unser Produkt noch attraktiver zu gestalten, also neue Funktionen hinzuzufügen und Fehler zu beseitigen. Ebenso freuen wir uns über jede Rückmeldung von Euch zur Verbesserung unseres Sprachassistenten!


*Stromverbrauch und Reichweite wurden auf der Grundlage der VO 692/2008/EG ermittelt. Stromverbrauch und Reichweite sind abhängig von der Fahrzeugkonfiguration.


Auf folgenden Plattformen können Sie unsere Blogbeiträge auch anhören, abonnieren und gerne bewerten: Apple Podcasts | Spotify | Google Podcasts| Deezer | TuneIn Radio | RSS

André Berton leitet das Team MBUX Speech Technology. Nach dem Studium der Informatik arbeitete er als Doktorand bei der Daimler AG und promovierte im Bereich Sprachverarbeitung. Er bekleidete verschiedene Funktionen in den Bereichen Sprachbedienung und grafische Benutzeroberflächen von der Forschung bis hin zur Serienentwicklung. Zuletzt verantwortete er die Serieneinführung des MBUX Voice Assistants.