Eine Tastatur? Wie urig

Die Ära der Sprachsuche und sprachgesteuerter Software steht vor der Tür. Als Entwickler lebe und sterbe ich über die Tastatur, aber ich kann bereits die Zeichen erkennen: Wie viele Menschen zum Beispiel spreche ich mit meinem Android-Handy (zum Beispiel "Navigiere zu Lowes [oder Starbucks oder Harris Teeter]") zu Anweisungen bekommen.

Im Internet-Trendbericht 2016 von Mary Meeker berichtet sie, dass die Suchanfragen bei Google Voice seit 2010 um den Faktor sieben gestiegen sind. Ich habe auch festgestellt, dass mein 12-jähriger Sohn fast alle Suchanfragen über Sprache durchführt - und meine Freundin schreibt mir regelmäßig so. Das Unternehmen, für das ich arbeite, Lucidworks, hat kürzlich eine neue Partnerschaft mit IBM angekündigt, um Watson- und Text-to-Speech-Funktionen in unser Unternehmenssuchprodukt zu integrieren. 

Die Technologie funktioniert viel besser als früher und ist einfacher in Anwendungen zu integrieren. Wenn Sie für Android oder iOS entwickeln, können Sie sich einfach in die APIs für die Spracherkennung einbinden. Die Spracherkennung beginnt und endet jedoch nicht mit einfachen Sprach- / Text- und Sprachbefehlen.

Das Verständnis der Suchabsicht ist eine sehr kontextbezogene Aufgabe, insbesondere bei gesprochener Sprache. Darüber hinaus neigen Menschen dazu, mehr Wörter in natürlicher gesprochener Sprache zu verwenden, als wenn sie mit einer Suchleiste konfrontiert werden. In der gesprochenen Sprache gibt es mehr "Geräuschwörter" als in einer normalen Textsuche.

Dies sind bedeutende KI-Herausforderungen. Wenn wir jedoch das Kontextproblem überwinden, werden Entwickler lernen, dass mit Sprache mehr getan werden kann als mit Text. Der emotionale Kontext wird eine Rolle spielen. Wenn Sie nach einer Tankstelle suchen, möchten Sie die billigste oder die nächstgelegene? Der emotionale Inhalt Ihrer Stimme könnte dies implizieren. Sicher, Sie könnten klarstellen, aber Sie müssen möglicherweise nicht.

Ihre gesprächige Zukunft

In der sprachgesteuerten Epoche geht es nicht nur um die Suche. Dies wirkt sich auf die gesamte Art und Weise aus, wie wir mit Computern interagieren. In nicht allzu ferner Zukunft werden Tastaturen als "urig" angesehen, wie Scotty sie in "Star Trek IV" beschrieben hat.

Diese Verschiebung erfordert aber auch eine völlig neue Benutzeroberfläche. Hier ist ein altes Beispiel dafür, was ich meine: Als Windows 95 herauskam, hatte IBM Sprachbefehle in seine PCs integriert. Zu dieser Zeit arbeitete ich als Verkäufer bei Office Depot, und es wurde schnell klar, wie unpraktisch Sprachbefehle waren. Die Fensterschnittstelle bot sich überhaupt nicht für diese Form der Interaktion an.

Ich meine, wie zum Teufel schiebst du ein Fenster aus dem Weg eines anderen Fensters und veränderst beide so, dass sie mit Sprachbefehlen effizient auf den Bildschirm passen? Das tust du nicht. Sie lassen diese Fenster (und wahrscheinlich auch Windows) ganz fallen. Eine sprachgesteuerte Benutzeroberfläche verwendet nicht dieselben Motive. In "Star Trek" wird nie eine Fensteroberfläche angezeigt.

Apropos "Star Trek": Wenn Leute anfangen zu programmieren oder etwas Technisches zu tun, wechseln sie immer zu einer taktilen Oberfläche (OK, nicht gerade taktil - es sieht eher aus wie eine Mikrowellentastatur, die mit Jugendstil-Renderings einer Leiterplatte überlagert ist). Aber ist die Regression zum "Tippen" notwendig? Ich kann mir zwar nicht vorstellen, eine Sprachschnittstelle zum Codieren in Scala zu verwenden. Vielleicht werden neue Sprachen (im Gegensatz zu Scala - und meinen Artikeln ohne Klammern) entwickelt, die speziell für die Stimme geeignet sind.

Websites werden sicherlich nicht gleich aussehen und neue Navigationsparadigmen bieten. Sie werden sagen "Zeigen Sie mir Angebote für Schuhe", und was Sie zurückerhalten, ist wahrscheinlich besser organisiert und kontextsensitiver als Ihre durchschnittliche Website ("Angebote" && "Schuhe"). Außerdem möchte ich nicht viel scrollen oder "nächste Seite" sagen, daher müssen die Interaktionen personalisiert werden. Das System sollte bereits wissen, dass ich Herrenschuhe und aufgrund meiner Achillessehnenentzündung keine Schuhe mit harten Absätzen möchte. Vielleicht weiß es, dass ich dunkle Farben bevorzuge. Vielleicht habe ich es erzählt oder mein Verhalten analysiert.

Ist das überhaupt eine Website? Sicher, wenn ich Schuhe kaufe, möchte ich eine visuelle Darstellung, aber wenn ich spreche, spricht die Maschine vielleicht zurück. Vielleicht zeigt es mir Schuhe und fragt dann: "Suchen Sie einen bestimmten Schuhtyp? Wozu dienen diese Schuhe? Tragen Sie sie beim Wandern oder auf einer Party?"

Die Ära der Sprachsuche wird alles verändern, von der Interaktion mit Maschinen bis zur Codierung. Viele der Technologien, die wir benötigen, stehen uns bereits heute zur Verfügung, während andere erst noch erfunden werden müssen. Die Auswirkungen auf Benutzeroberflächen könnten schwerwiegender sein als der Wechsel von Lochkarten zu Tastaturen.

Diese tiefgreifende Veränderung wird nicht auf einmal kommen. Heute ist nicht der Tag, um Ihre Tastatur wegzuwerfen. Es könnte jedoch an der Zeit sein, über eine Neugestaltung Ihrer Website nachzudenken, die wirklich sprachgesteuert ist.