People looking through a wall of digital images

Agents du changement

Raja Bala : Imaginer un avenir meilleur

Animé par une curiosité innée pour le fonctionnement des choses, Raja est devenu l’un de nos inventeurs les plus prolifiques.

Maîtriser le potentiel de la vision par ordinateur

Raja Bala est le responsable du projet de vision par ordinateur au PARC, une filiale de Xerox. Animé par une curiosité innée et intarissable pour le fonctionnement des choses, Raja est devenu l’un de nos inventeurs les plus prolifiques. Sa connaissance inégalée de ce domaine lui permet d’anticiper la manière dont la vision par ordinateur transformera notre façon de vivre.

Et s’il suffisait d’un selfie pour diagnostiquer une maladie ? Que diriez-vous d’aller au travail tous les jours en voiture sans même devoir toucher le volant ? Imaginez aller faire vos courses et ressortir du magasin sans passer en caisse : le montant de vos achats sera automatiquement prélevé sur votre compte en banque.

Ce n’est pas de la science-fiction. C’est le monde que Raja Bala s’efforce de bâtir. Un monde où les ordinateurs sont capables de voir, d’interpréter et d’analyser les choses qui les entourent, puis d’exploiter ces informations pour prendre des décisions en temps réel et résoudre des problèmes concrets. Nous avons le plaisir de vous présenter ici l’homme qui se cache derrière cette technologie.

Qu’est-ce qui vous a amené à vous intéresser à la vision par ordinateur ?

À l’époque où j’étais enfant, dans mon pays, l’accent était véritablement porté sur les maths et les sciences. Ma mère était professeur de sciences. Mon père était ingénieur. Et si j’ai toujours eu un énorme penchant - et un certain talent - pour les mathématiques, je n’ai pas le profil type de la prédominance hémisphérique gauche. Je joue de la musique. J’adore l’art sous toutes ses formes. Alors quand j’ai dû choisir la filière que j’allais suivre, j’ai voulu privilégier une voie qui regroupait tous mes centres d’intérêt.

La vision par ordinateur n’en faisait pas partie. Je suis entré chez Xerox en 1993 en tant que chercheur en imagerie couleur. À l’époque, Xerox était en pleine transition, passant de l’impression noir et blanc à la couleur. J’ai dirigé plusieurs projets passionnants dans le développement de solutions de gestion de la couleur pour imprimantes et scanners Xerox. Ce n’est qu’en 2011, suite à l’acquisition d’une entreprise, que j’ai découvert le potentiel de la vision par ordinateur. J’ai amorcé la transition, et la suite s’est faite tout naturellement.

Pouvez-vous nous expliquer ce qu’est la vision par ordinateur et la pertinence de cette technologie avec le monde d’aujourd’hui ?

La vision par ordinateur est la science qui permet aux machines d’analyser, d’interpréter et d’extraire des informations utiles des images et vidéos en vue de résoudre des problèmes issus du monde réel. Avec mon équipe, nous essayons de transformer une vidéo ou image numérique en représentation mathématique que l’ordinateur pourra comprendre. Nous apprenons ensuite à l’ordinateur à exécuter une tâche à partir de cette représentation, comme par exemple déterminer si un visage apparaît ou pas sur une image.

Si la vision par ordinateur existe depuis les années 60, elle était limitée les premières années par le manque de disponibilité et d’accès aux images numériques. L’analyse d’Images était réservée à des usages spécialisés, comme dans le domaine médical, et elle n’a jamais bénéficié d’une forte médiatisation. Mais avec l’avènement des smartphones, et les compagnies comme Google et Facebook qui ont plus que jamais simplifié l’accès aux images à travers des bases de données d’images consultables, la stature, la pertinence et la pénétration de la vision par ordinateur sur les marchés de la consommation de masse ont pris une toute autre dimension. L’abondance de données d’images et de vidéos générée par les consommateurs aujourd’hui, combinée aux algorithmes avancés et aux outils informatiques utilisés pour les traiter, a transformé le regard que nous portons sur ce domaine.

Avec ces avancées, reste-t-il encore des défis à relever pour maîtriser la vision par ordinateur ?

Actuellement, tous les regards sont tournés vers l’apprentissage approfondi et son application dans la vision par ordinateur. L’apprentissage approfondi est un moyen vraiment efficace d’extraire des schémas utiles des images. L’apprentissage approfondi fait appel à des réseaux neuronaux alimentés par de nombreux exemples d’images et par un modèle d’images. Le réseau intègre ensuite un ensemble de connexions et de repères qui lui permettent de déceler le modèle identique dans les nouvelles images.

Quand on dispose d’un vaste ensemble de données à exploiter, l’apprentissage approfondi est un véritable bonus. Un réseau solide est capable d’interpréter des modèles et des relations entre les images extrêmement complexes et s’acquitte très bien des tâches pour lesquelles il a été construit. Un problème fondamental, cependant, reste que pour être efficace, l’apprentissage approfondi dépend de la disponibilité de fichiers de données contenant des millions d’images et de leurs informations vérifiées sur le terrain. Et de nombreuses applications n’ont pas accès à cette quantité d’images et d’informations.

Dans le domaine médical, par exemple, il peut être intéressant d’exploiter l’apprentissage approfondi pour faciliter la pose du diagnostic d’une maladie spécifique. Cela impliquerait d’enrichir le réseau profond au moyen de millions d’images d’organes marquées avec différents niveaux de gravité de la maladie. Ce volume n’existe tout simplement pas. Et s’il existait, personne ne pourrait jamais s’offrir le luxe de nommer un groupe d’experts médicaux pour classer toutes ces images.

La question que nous sommes régulièrement amenés à nous poser est donc la suivante : quelle solution créative peut-on apporter pour contourner le problème ? Comment modifier l’apprentissage approfondi pour qu’il puisse prendre des décisions intelligentes à partir d’une formation limitée ?

Nous avons donc revisité certains des premiers modèles que nous avions exploités avant l’ère de l’apprentissage approfondi et les utilisons afin de compiler des connaissances et des données sur les tâches et les environnements pour ensuite les intégrer dans un réseau profond. Pour apprendre à un réseau profond à reconnaître les vaisseaux sanguins dans des images rétiniennes, par exemple, nous lui apprenons à chercher de fines structures courbées présentant des ramifications similaires à un arbre. Grâce à ces indications, le réseau non seulement nécessite moins d’images d’apprentissage, mais il permet des résultats dépassant largement ceux obtenus avec les meilleures méthodes d’apprentissage approfondi actuelles.

Vous n’avez pas toujours travaillé pour Xerox, n’est-ce pas ?

C’est vrai. Après 22 ans chez Xerox, j’ai décidé de sortir de ma zone de confort et de me mettre à l’épreuve dans un autre environnement. Je suis parti travailler avec l’équipe d’imagerie smartphones Samsung afin de développer des techniques d’imagerie computationnelle pour le Galaxy et le Note.

Qu’avez-vous retenu de cette expérience ?

Une nouvelle appréciation de la simplicité. La plupart des produits Xerox sont utilisés dans un environnement de bureau où les utilisateurs sont un tant soit peu familiers avec la technologie. Mais pour les smartphones, presque tout le monde sur Terre en possède un. Avec un produit de grande consommation comme celui-là, vous devez adapter la technologie à tous les niveaux d’expérience. Votre produit doit être facile à utiliser, que vous ayez affaire à un expert ou à un débutant. Ce niveau de simplicité nécessite des milliers d’heures de travail. Le temps passé à s’assurer que chaque clic déclenche l’action prévue est colossal.

De retour dans un environnement de recherche chez Xerox, je sais qu’il n’est pas simple de transformer une technologie d’excellence en un produit efficace. C’est une chose de publier un article sur les recherches que vous avez menées. Mais pour que vos recherches se concrétisent en un produit que les utilisateurs finaux sont capables d’utiliser, ce produit doit être fiable, convivial et aussi intuitif que possible. Il faut vraiment se donner du mal.

Imaginez que vous travailliez sur une application mobile de numérisation documentaire. La vision par ordinateur exige une grande puissance de traitement, ce dont les appareils mobiles ne disposent pas. Pour que votre solution soit plus qu’un simple exercice théorique, vous devez le concevoir intelligemment pour qu’il soit non seulement précis mais aussi rapide et peu énergivore. Sinon, personne ne l’utilisera.

Lequel de vos projets a eu le plus fort impact sur notre monde ?

Mon équipe a collaboré avec Procter and Gamble afin d’intégrer la technologie de vision par ordinateur et d’apprentissage machine dans son outil « Olay Skin Advisor ». Il s’agit d’une plateforme mobile qui capture le selfie envoyé par les consommatrices, analyse leur visage et les conseille sur le produit pour la peau le mieux adapté.

L’idéal, bien entendu, serait de consulter un dermatologue pour vos problèmes de peau. Mais ça représente un budget. Et parce que notre peau mérite des soins constants, rares sont les personnes qui peuvent se permettre des visites répétées chez les spécialistes. Ne peuvent-elles pas prendre soin de leur peau elles-mêmes, me demanderez-vous ? Promenez-vous dans les rayons des magasins de produits cosmétiques. Il a le choix entre des centaines de produits. C’est frustrant et déroutant, et il est facile de se tromper dans le choix d’un produit . Moins des deux tiers des femmes savent quels produits conviennent le mieux à leur type de peau.

P&G voulait répondre à ce besoin avec un navigateur de beauté personnalisé à bas coûts. Nous avons donc développé une application mobile très conviviale. Nous nous sommes dit : pourquoi ne pas profiter des caméras haute résolution que les consommatrices ont sur elles en permanence ?

Pour utiliser cette application, la consommatrice commence par prendre une photo de son visage. Cette image est ensuite analysée à travers la vision par ordinateur afin de déterminer si sa qualité permet de procéder à une analyse de peau : l’application vérifie la luminosité, la distance, l’expression faciale et l’absence d’obstructions. Si la photo passe les critères de qualité, l’application analyse alors la peau de la personne, détermine la nature du problème et suggère les produits à utiliser et les changements à apporter pour y remédier.

Nous comptons plus d’un million d’utilisatrices actives et nous avons enregistré cinq millions de visites depuis le lancement de l’application.

Quel aspect de la vision par ordinateur souhaiteriez-vous particulièrement approfondir ?

La vision par ordinateur et le domaine plus vaste de l’intelligence artificielle sont fascinants. Ce domaine affiche depuis peu la maturité suffisante pour commencer à avoir un impact notable sur nos vies, allant des opérations courantes exécutables avec nos smartphones aux applications lourdes comme la conduite autonome et le diagnostic médical. Il y a profusion d’applications et leur nombre ne cesse de croître. Il nous reste de nombreux défis scientifiques et techniques à surmonter pour rendre ces applications fiables et précises.

Mais ce qui me tient personnellement à cœur, c’est de poursuivre nos efforts sur des méthodes de vision par ordinateur capables à la fois d’exploiter les anciens modèles du monde et de s’enrichir à partir d’exemples de données. Les modèles sont très divers, qu’il s’agisse de vaisseaux sanguins rétiniens ou de connaissances théoriques générales relatives aux objets, aux gens et aux lois de la nature. Grâce à l’environnement riche et stimulant que Xerox met à notre disposition, nous sommes à la pointe du progrès et en passe de transférer ces modèles du monde réel vers des méthodes d’apprentissage machine basées sur les données afin de créer une forme d’apprentissage hybride. J’imagine difficilement un autre lieu aussi fascinant que celui-là.

Photo of a street with an arrow on it, overlaid with the words "Agents of Change"

Agents du changement

Nous participons tous au changement du monde qui nous entoure. Tous autant que nous sommes. À chacun de nos actes, notre présence a des retombées illimitées.

Mais rares sont ceux qui, parmi nous, ont la possibilité d'améliorer la vie de leurs concitoyens. Et encore plus rares sont ceux qui peuvent le faire au quotidien. C’est le défi lancé chaque jour aux scientifiques de Xerox : tenter de faire bouger les lignes.

En échange, nous leur donnons le temps et l’espace pour rêver. Et ainsi les ressources pour concrétiser leurs rêves, que ce soit pour inventer de nouvelles machines dotées de fonctionnalités innovantes ou exploiter la réalité augmentée pour stimuler la mémoire des patients atteints d’Alzheimer.

Nous sommes fiers de nos « Agents du changement » qui œuvrent sans relâche dans les centres de recherche Xerox du monde entier. Voici quelques-unes de leurs histoires.

Innovation Xerox

Découvrez comment les grands esprits de notre planète se réunissent dans nos centres de recherche mondiaux pour améliorer l'avenir du travail. En savoir plus