Projekt Oxford: Microsoft stellt APIs für intelligente Apps bereit

Microsoft hat im vergangenen Frühjahr Project Oxford angekündigt, eine Reihe von SDKs und APIs, mit denen Entwickler „intelligente“ Anwendungen erstellen können, ohne maschinelles Lernen lernen zu müssen. Mithilfe der Gesichts-, Sprach- und Bild-APIs von Oxford können Entwickler Anwendungen erstellen, die Gesichtsmerkmale erkennen, Bilder analysieren oder Sprach-zu-Text- oder Text-zu-Sprache-Übersetzungen durchführen.

In einem Interview mit dem Redakteur von Large Paul Krill sprach Ryan Galgon von Microsoft, Senior Program Manager, der für die Project Oxford-Plattform und -Technologien verantwortlich ist, über die Ziele hinter Oxford und betonte dessen Potenzial im Internet der Dinge.

: Wer erstellt Oxford-Anwendungen? Für wen ist Oxford?

Galgon: Wir haben viele Leute dazu gebracht, sich für die API-Services anzumelden. Auf die genauen Zahlen kann ich nicht eingehen, aber wir haben viele Azure-Konten erstellt und viele Anmeldungen über unseren Microsoft Azure-Marktplatz erhalten. Die Leute treten die Reifen für die Dienste und streben danach, die Dienste stärker zu nutzen. Derzeit werden sie alle monatlich als begrenzte kostenlose Stufe angeboten, und wir arbeiten daran, dies zu öffnen, da wir Feedback zu den Änderungen erhalten haben, die Entwickler an den APIs und Modellen vornehmen möchten.

Es ist alles plattformübergreifend, in dem Sinne, dass es sich um eine Reihe von Webdiensten handelt, auf die hauptsächlich über eine REST-API-Schnittstelle zugegriffen wird. Jeder, der eine Website kontaktieren kann, kann diese Back-End-Dienste aufrufen. Wir bieten eine Reihe von SDKs an, die diese REST-Aufrufe umschließen und die Verwendung auf Clients wie Android, Windows und iOS vereinfachen. Alles, was einen HTTP-Webanruf tätigen kann, kann die Dienste aufrufen.

: Sehen Sie vor, dass Oxford hauptsächlich auf Mobilgeräten oder Windows-Desktops verwendet wird?

Galgon:  Es wird in erster Linie eine Mischung aus wahrscheinlich mobilen und IoT-Geräten sein. In dem Sinne, dass, wenn Leute Desktops verwenden, die überwiegende Mehrheit der Anwendungen, die ich sehe, Sie dort sitzen, Sie die Tastatur und Maus und diese Art von Eingabe haben. Wenn Sie jedoch ein Mobiltelefon besitzen, erfassen Sie Fotos sowie Video und Audio. Es ist so viel einfacher und natürlicher, das mit einem winzigen Gerät zu erfassen. [Project Oxford-Technologie wird verwendet], bei dem der dominierende Eingabefall natürliche Daten sein werden, nicht nur Zahlen, sondern eine Art visueller oder akustischer Datentyp.

: Erzählen Sie uns mehr über diese APIs. Was können Entwickler tun?

Galgon: Weil wir so viele Entwickler wie möglich erreichen wollen, haben wir wirklich viel Arbeit darauf verwendet, sie sehr einfach zu bedienen, [für] Dinge wie Gesichtserkennung oder Computer Vision, Bildkategorisierung. Diese Dinge werden von Menschen mit jahrelanger Erfahrung in der Forschung an diesen Orten trainiert und modelliert, und wir möchten nicht, dass Entwickler Experten für Computer Vision werden müssen. Wir haben wirklich versucht zu sagen: "Schauen Sie, wir werden das beste Modell bauen, das wir bauen können, und es Ihnen zur Verfügung stellen und es innerhalb von drei Codezeilen für Sie zugänglich machen."

Ich kann nicht darüber sprechen, wie externe Partner die Oxford-APIs nutzen wollen, aber die wichtigsten, an denen Microsoft gearbeitet hat, die Sie vielleicht gesehen haben, war die How-old.net-Site zur Vorhersage des Alters und Geschlechter. Dann hatten wir TwinsorNot.net, und das wurden zwei Fotos gegeben, wie ähnlich sind diese Leute? Dies waren beide gute Beispiele für die Face-APIs. Das letzte, das die Gesichts-API und einige Sprach-APIs verwendete, war ein Windows 10 IoT-Projekt, in dem einige Blog-Beiträge darüber geschrieben wurden, wo Sie eine Tür mit Ihrem Gesicht entriegeln und sich mit der Tür - oder dem Schloss - unterhalten konnten. In diesem Fall. Ich denke, das sind drei Beispiele, an denen Microsoft gearbeitet hat, um Ihnen zu zeigen, dass es sich um eine Art Anwendung handelt, die erstellt und mit anderen Personen geteilt werden kann.

: Was bringt Oxford unter diesen REST-APIs zum Ticken?

Galgon: Der Kern sind maschinell erlernte Modelle, die wir für Dinge wie Sprache-zu-Text erstellt haben. Unabhängig davon, ob Sie über eine REST-API oder über Sprache-zu-Text darauf zugreifen, können Sie auch über eine Web-Socket-Verbindung darauf zugreifen dass es in ist und das in Textformat übersetzen. Das ist die Hauptsache, die Oxford als Ganzes zum Ticken bringt.

: Warum ist Project Oxford vom Azure Machine Learning-Projekt getrennt?

Galgon:  In Azure Machine Learning ist eine der Hauptkomponenten das Azure Machine Learning Studio, in dem Benutzer ihre Daten eingeben, ein Experiment erstellen, ihr eigenes Modell trainieren und dieses Modell dann hosten können. Mit Oxford ist dies ein vorgefertigtes Modell von Microsoft, ein Modell, das wir in Zukunft weiter verbessern werden, und wir lassen die Benutzer dieses Modell über diese REST-Schnittstellen verwenden.

: Welche Art von Unternehmensnutzung sehen Sie für Project Oxford? Was ist der Business Case für Oxford-Anwendungen?

Galgon:Es gibt derzeit keine spezifischen Partner, über die ich wirklich sprechen kann, aber ich denke, einer der Fälle, an denen wir großes Interesse gesehen haben und bei denen ich persönlich viele Anwendungsfälle sehe, ist das Internet der Dinge. verbundene Geräte. Wenn ich mir anschaue, wie die Leute IoT-Geräte bauen, haben Sie keine Tastatur und keine Maus und oft sogar einen echten Monitor, der mit all diesen Geräten verbunden ist, aber es ist einfach, dort ein Mikrofon anzubringen, und es ist ziemlich einfach dort auch eine Kamera anbringen. Wenn Sie so etwas wie die Sprach-APIs und LUIS (Language Understanding Intelligent Service) kombinieren, dann ein Gerät, das nur ein Mikrofon und keine andere Art der Eingabe hat, können Sie jetzt mit ihm sprechen, ihm sagen, was Sie tun möchten, und das übersetzen eine Reihe von strukturierten Aktionen, und nutzen Sie diese im Back-End.Ich denke, dort werden wir viele Anwendungsfälle für die Oxford-APIs sehen.

: Sie haben iOS und Android erwähnt. Was war die Akzeptanz auf diesen Plattformen?

Galgon: Indem wir die APIs REST-fähig gemacht und diese Wrapper für sie bereitgestellt haben, haben wir definitiv Leute gesehen, die diese Wrapper heruntergeladen und verwendet haben. Aber am Ende des Tages lautet es zufällig: "Hier ist ein Java-Sprach-Wrapper um einen Webanrufer." "Hier ist ein Objective-C-Wrapper um einen Webanruf." Wir haben nicht viel Einblick in das genaue Gerät, das den Anruf tätigt.

: Wird Oxford Open Source sein?

Galgon: Wir planen kein Open-Sourcing der Kernmodelle, und ich habe nichts darüber zu teilen, da wir die Modelle im Laufe der Zeit ständig aktualisieren. Die SDKs, die wir bereitstellen, da sie diese REST-Aufrufe umschließen, enthalten diesen Quellcode und können heute von der Website heruntergeladen werden. Aber auch dies ist ein versteckter Wrapper für Dinge, und wir haben tatsächlich Leute in MSDN-Foren gesehen, die Codefragmente in verschiedenen Sprachen bereitgestellt haben.

: Wie plant Microsoft, mit Oxford Geld zu verdienen?

Galgon: Die APIs auf dem Marktplatz sind heute alle kostenlos und können nur begrenzt verwendet werden. Sie erhalten also 5.000 API-Transaktionen pro Monat. Das ist der einzige Plan, den wir jetzt haben. In Zukunft werden wir kostenpflichtige Pläne basierend auf der Verwendung der APIs einführen.

: Was kommt als nächstes für Oxford?

Galgon: Wo wir von hier aus hingehen, sind wirklich drei Bereiche. Der erste Bereich befasst sich mit der Aktualisierung und Verbesserung der vorhandenen Modelle. Wir haben Feedback von Entwicklern erhalten, [wie] eine der APIs mit bestimmten Bildtypen möglicherweise nicht gut funktioniert. Wir werden dort das Kernmodell verbessern.

Eines der anderen Dinge, die wir tun werden, ist, die Anzahl der von den Modellen zurückgegebenen Funktionen weiter zu erhöhen. Heute gibt Ihnen die Gesichts-API das vorhergesagte Alter und das vorhergesagte Geschlecht an. Wir haben viele Anfragen gesehen, andere Inhalte in Bildern erkennen zu können.

Der dritte Bereich ist, dass wir unser Portfolio an APIs erweitern werden. Wir haben heute vier, aber wir sind definitiv noch nicht fertig. Wir glauben nicht, dass der gesamte Raum, den wir bereitstellen möchten, oder die Tools, die wir bereitstellen möchten, noch vollständig sind. Wir werden weiterhin neue APIs hinzufügen, die sich mit unterschiedlichen Datentypen befassen oder ganz andere Arten des Verständnisses natürlicher Daten bieten können als das, was wir heute geben.