Agents of Change

Raja Bala: Vision einer besseren Zukunft

Dank seiner Neugier darüber, wie die Dinge funktionieren, wurde Raja Bala schnell zu einem unserer produktivsten Erfinder.

Nutzen der Leistungsstärke von Computer Vision

Raja Bala ist Forschungsleiter für Computer Vision bei PARC, einem Unternehmen von Xerox. Dank seiner Neugier darüber, wie die Dinge funktionieren, wurde Bala schnell zu einem unserer produktivsten Erfinder. Aus dieser Neugier entstand auch die Idee, wie Computer Vision unseren Alltag verändern wird.

Was, wenn sich Krankheiten mit einem Selfie diagnostizieren ließen? Wenn man im Auto zur Arbeit und wieder zurück nach Hause fahren könnte, ohne das Lenkrad auch nur einmal zu berühren? Wenn man beim Einkaufen das Geschäft samt seiner Einkäufe verlassen könnte, ohne an der Kasse warten zu müssen – weil der Betrag automatisch vom Girokonto eingezogen wird?

Das ist keine Science Fiction. Es ist die Welt, an der Raja Bala und seine Kollegen arbeiten. Eine Welt, in der Computer die Dinge um sie herum sehen, interpretieren und analysieren können, und dann diese Informationen nutzen, um Echtzeit-Entscheidungen zu treffen und zur Lösung realer Probleme beizutragen. Hier möchten wir Ihnen die Person vorstellen, die hinter der Technologie steht.

Wie ist Ihr Interesse an Computer Vision entstanden?

In meiner Familie gab es einen großen Schwerpunkt auf Mathematik und Naturwissenschaften. Meine Mutter unterrichtete Naturwissenschaften. Mein Vater war Ingenieur. Aber obwohl ich immer eine besondere Liebe zur Mathematik hatte – und ein gewisses Talent dafür –, war ich nie jemand, bei dem nur die linke Gehirnhälfte ausgeprägt war. Ich bin Musiker. Ich liebe Kunst. Als es dann an die Berufswahl ging, wollte ich etwas finden, das all meinen Interessen gerecht werden konnte.

Computer Vision war nicht das, worauf ich mich ursprünglich eingelassen hatte. Als ich 1993 zu Xerox kam, war ich als Farbbildwissenschaftler tätig. Damals vollzog Xerox den Übergang vom Schwarzweiß- zum Farbdruck. Ich leitete mehrere spannende Projekte zur Entwicklung von Farbmanagementlösungen für Xerox-Drucker und -Scanner. Erst 2011, nach einer Firmenübernahme, sah ich die Chance und das Potenzial der Computer Vision. Ich bin auf diesen Bereich umgestiegen und der Rest ist Geschichte.

Können Sie uns erklären, was Computer Vision ist und welche Bedeutung sie in der Welt von heute hat?

Computer Vision ist die Wissenschaft, mit der Computer nützliche Informationen aus Bildern und Videos extrahieren, analysieren und interpretieren, um anhand dieser Informationen dann reale Probleme zu lösen. In unserer Arbeit versuchen mein Team ich, ein digitales Bild oder Video aufzunehmen, es in eine mathematische Darstellung zu verwandeln, die der Computer versteht, und dann dem Computer beizubringen, eine Aufgabe mit dieser Darstellung auszuführen – zum Beispiel zu erkennen, ob auf dem Bild ein Gesicht zu erkennen ist oder nicht.

Computer Vision gibt es zwar schon seit den 1960er Jahren, aber am Anfang war sie durch die mangelnde Verfügbarkeit digitaler Bilder noch sehr eingeschränkt. Bildanalyse kam in speziellen Bereichen zum Einsatz, zum Beispiel in der Medizin, kam aber lange nicht aus diesen Nischen heraus. Erst mit dem Aufkommen von Smartphones und Unternehmen wie Google und Facebook, die es einfacher denn je machen, auf Bilder in großen, durchsuchbaren Bilddatenbanken zuzugreifen, ist die Bedeutung und Verbreitung von Computer Vision auf dem Verbrauchermarkt explosionsartig angestiegen. Die Fülle an Bild- und Videodaten, die von Verbrauchern heute erzeugt werden, kombiniert mit den fortschrittlichen Algorithmen und der verfügbaren Computerhardware für deren Verarbeitung, verändert die Art und Weise, wie wir über das Feld denken.

Gibt es trotz dieser Fortschritte heute noch Herausforderungen in der Computer Vision?

Im Moment ist der Bereich Deep Learning und dessen Anwendung in der Computer Vision sehr spannend. Deep Learning ist eine wirklich effektive Möglichkeit, nützliche Muster aus Bildern zu extrahieren. Es funktioniert, indem viele Beispielbilder in ein neuronales Netzwerk eingespeist werden, zusammen mit einem zugehörigen Muster oder Informationen über die Bilder. Das Netzwerk lernt dann eine Reihe von Verbindungen und Gewichten kennen, anhand derer es die gleichen Arten von Mustern oder Informationen in neuen Bildern erkennen kann.

Wenn Sie über eine große Datenmenge verfügen, mit der Sie arbeiten können, kann Deep Learning ein entscheidender Faktor sein. Ein Deep-Learning-Netzwerk ist in der Lage, extrem komplexe Muster und Beziehungen in Bildern zu verstehen und ist sehr erfolgreich bei den Aufgaben, für die es ausgebildet ist. Ein grundlegendes Problem ist jedoch, dass Deep Learning auf der Verfügbarkeit von Datensätzen mit Millionen von Bildern und deren Ground-Truth-Daten beruht, um erfolgreich zu sein. Und viele Anwendungen haben keinen Zugriff auf so viele Bilder und Daten.

Im medizinischen Bereich zum Beispiel können Sie Deep Learning nutzen, um eine bestimmte Krankheit zu diagnostizieren. Dazu muss das tiefe Netzwerk zunächst mit Millionen von Bildern von Organen trainiert werden, die mit unterschiedlichen Schweregraden der Krankheit gekennzeichnet sind. Diese Menge an Daten gibt es einfach nicht. Und selbst wenn es sie gäbe, könnte man es sich nie leisten, dass sich eine Gruppe von klinischen Experten hinsetzt und all diese Bilder beschriftet.

Die Frage, die wir uns oft stellen müssen, ist also: Wie werden wir damit kreativ? Wie modifizieren wir Deep Learning, um intelligente Entscheidungen auf der Grundlage einer begrenzten Ausbildung zu treffen?

Wir haben uns einige der First-Principles-Modelle, mit denen wir vor der Ära des Deep Learning gearbeitet haben, noch einmal angesehen und damit unser Vorwissen und unser Know-how über die Aufgabe und Umgebung in einem tiefen Netzwerk aufgebaut. Um einem Netzwerk beizubringen, Blutgefäße in Netzhautbildern zu erkennen, geben wir dem Netzwerk Hinweise, dass es nach dünnen, kurvenreichen Strukturen suchen sollte, die sich wie ein Baum verzweigen. Mit diesen Hinweisen benötigt das Netzwerk nicht nur deutlich weniger Trainingsbilder, sondern übertrifft sogar die heutigen besten Methoden des Deep Learning.

Sie haben nicht immer für Xerox gearbeitet. Richtig?

Richtig. Nach 22 Jahren bei Xerox entschied ich mich, eine neue Umgebung auszuprobieren und arbeitete für die Samsung Smartphone Camera Imaging Group an der Entwicklung von computergestützten Bildgebungsverfahren für die Galaxy- und Note-Geräte.

Was haben Sie dabei gelernt?

Eine neue Wertschätzung des Einfachen. Die meisten Xerox-Produkte werden in Büroumgebungen eingesetzt, in denen man davon ausgehen kann, dass die Nutzer zumindest in einem bestimmten Maß mit Technologie vertraut sind. Aber ein Smartphone hat fast jeder auf der Welt. Wenn Sie an einem solchen Verbraucherprodukt arbeiten, müssen Sie jedes Niveau der technischen Erfahrung berücksichtigen. Ihr Produkt muss für Experten und Anfänger gleichermaßen einfach zu verwenden sein. Etwas so einfach zu machen, erfordert Tausende an Stunden. Es steckt unglaublich viel Arbeit darin, bis jeder Klick genau das tut, was er tun soll.

Zurück in einer Forschungsumgebung bei Xerox weiß ich, was nötig ist, um exzellente Wissenschaft in ein wirkungsvolles Produkt zu verwandeln. Es ist eine Sache, einen großartigen Artikel über Ihre Forschung veröffentlichen zu können. Aber wenn Sie wollen, dass Ihre Forschung zu einem Produkt führt, das ein Endkunde tatsächlich nutzen kann, muss es narrensicher, einfach und so intuitiv wie möglich sein. Dafür müssen Sie die Extra-Meile gehen.

Angenommen, Sie arbeiten an einer mobilen App für das intelligente Scannen von Dokumenten. Computer Vision benötigt traditionell viel Rechenleistung – etwas, das auf einem mobilen Gerät nicht im Überfluss verfügbar ist. Wenn die Lösung also mehr als nur eine akademische Übung sein soll, müssen Sie sich bemühen, das Produkt nicht nur genau, sondern auch schnell und energieeffizient zu gestalten. Andernfalls wird es niemand nutzen.

Welches Ihrer Projekte hatte den größten Einfluss auf die Welt?

Mein Team arbeitete gemeinsam mit Proctor and Gamble an der Computer-Vision- und Machine-Learning-Technologie für den „Olaz Skin Advisor“. Dabei handelt es sich um eine mobile Plattform, die ein Selfie der Nutzerin erfasst, ihr Gesicht analysiert und dann Empfehlungen für Hautpflegeprodukte liefert.

Im Idealfall können Sie immer mit einem Dermatologen über Probleme mit Ihrer Haut sprechen. Doch das ist teuer. Und weil die Hautpflege ein kontinuierlicher Prozess ist, können es sich die meisten Menschen nicht leisten, ständig einen Dermatologen zurate zu ziehen. Also tut man es selbst. Wenn Sie durch einen Drogeriemarkt laufen, sehen Sie, dass es eine enorme Auswahl an Hautpflegeprodukten gibt. Es ist frustrierend, verwirrend und schnell hat man die falsche Wahl getroffen. Weniger als zwei Drittel aller Frauen wissen, welche Produkte für ihren Hauttyp am besten geeignet sind.

P&G wollte dieses Problem mit einem kostengünstigen, personalisierten Hautanalyse-Tool lösen. Deshalb haben wir eine benutzerfreundliche mobile App entwickelt. Wir dachten uns, warum nicht die Vorteile der hochwertigen Kamera nutzen, die die Verbraucher ohnehin mit sich herumtragen?

Zunächst macht man dabei ein Selfie des eigenen Gesichts. Dieses Bild wird dann mit Hilfe von Computer Vision analysiert, um zu entscheiden, ob es gut genug ist, um eine Hautanalyse durchzuführen – Belichtung, Entfernung des Gesichts und Gesichtsausdruck müssen passen und es dürfen keine störenden Objekte im Bild sein. Wenn das Bild in Ordnung ist, analysiert die App die Haut der Nutzerin, informiert sie darüber, was vor sich geht, und schlägt Produkte und Behandlungen vor.

Wir haben über eine Million aktive Nutzerinnen und seit Start der App wurde die Website bereits mehr als fünf Millionen Mal aufgerufen.

Auf welchen Aspekt der weiteren Entwicklung von Computer Vision sind Sie am meisten gespannt?

Computer Vision und ganz allgemein künstliche Intelligenz sind aufregende Bereiche. Sie sind erst kürzlich reif genug geworden, um eine echte, sinnvolle und allgegenwärtige Wirkung auf die Welt zu entfalten, von Routineaufgaben wie der automatischen Scheckeinreichung mit der Smartphone-Kamera bis hin zu umfangreicheren Anwendungen wie autonomes Fahren und Krankheitsfrüherkennung. Es gibt viele Anwendungsbereiche und ständig kommen neue hinzu. Und es gibt zahlreiche ungelöste wissenschaftliche und technische Herausforderungen, um diese Anwendungen genau und zuverlässig zu machen.

Doch was mich persönlich am meisten begeistert, ist die Fortsetzung unserer Arbeit beim Aufbau von Computer-Vision-Methoden, die sowohl aus den Erfahrungswerten früherer Modelle als auch aus Datenbeispielen lernen. Die Bandbreite der Modelle reicht von der Arbeit mit retinalen Blutgefäßen bis hin zum Allgemeinwissen über Alltagsgegenstände, Menschen und Naturgesetze. Dank der inspirierenden Umgebung, die Xerox für Innovationen bietet, sind wir führend darin, diese Modelle der realen Welt in datengesteuerte maschinelle Lernmethoden zu integrieren, um eine Form des hybriden Lernens zu schaffen. Ich könnte mir keine aufregendere Aufgabe vorstellen.

Agents of change

Agents of Change

Wir alle haben die Welt verändert. Jeder einzelne von uns. Mit jedem Atemzug zieht unsere Existenz endlose Kreise.

Aber nur wenige von uns haben die Möglichkeit, das Leben von vielen zum Besseren zu verändern. Und noch weniger werden jeden Tag dazu herausgefordert, dies zu tun. Von dieser Herausforderung werden die Wissenschaftler bei Xerox tagtäglich angetrieben – zu versuchen, Verbesserungen herbeizuführen.

Und wir geben ihnen die Zeit und den Freiraum, um dies zu tun. Und die Ressourcen, um diese Ideen Wirklichkeit werden zu lassen – unabhängig davon, ob sie neue Materialien mit unglaublichen Funktionen entwickeln oder Augmented Reality nutzen, um das Erinnerungsvermögen von Alzheimer-Patienten zu stärken.

Xerox ist stolz auf seine „Agents of Change“ in seinen weltweiten Forschungszentren. Hier sind einige ihrer Geschichten.

Innovation bei Xerox

Erfahren Sie, wie einige der klügsten Köpfe der Welt in unseren weltweiten Forschungszentren zusammenkommen, um die Zukunft der Arbeit mitzugestalten. Weitere Informationen