Agents de changement

Naila Murray : Comment apprendre aux machines à voir

« Si nous voulons inventer des machines intelligentes, il faudra les doter de la capacité de se former des opinions subjectives. »

Comment apprendre aux machines à voir

La vision par ordinateur est importante dans le domaine de l’intelligence artificielle. Les améliorations de la façon dont les machines observent et interprètent les environnements dans lesquels elles se situent pourraient donner lieu à des développements technologiques qui jusqu’à présent faisaient partie du domaine des films de science-fiction.

Mais les machines pourront-elles jamais être en mesure de voir ? Et que signifie « voir » dans ce cas ? Par ailleurs, les machines devraient-elles essayer de répliquer les processus neuronaux utilisés par les êtres humains pour la vision – ou est-il préférable de repartir de zéro ?

Que signifie « pouvoir voir » ?

On sait bien que la vision humaine est difficile à imiter. C’est la raison pour laquelle de nombreux experts en vision par ordinateur ont choisi d’ignorer complètement le système visuel humain. Après tout, les machines ne pourraient-elles pas être conçues pour voir le monde totalement différemment et de façon supérieure à l’œil humain ?

Mais Naila, qui a grandi à Trinidad et Tobago, sent bien que cette idée n’est plus aussi dominante dans la communauté de la vision par ordinateur. Au contraire, on a recommencé à “envisager le système de la vision humaine pour y trouver une inspiration”.

En fait, Naila et ses collègues essaient de doter les machines d’opinions « humaines » sur ce qu’elles observent – et essaient même de leur apprendre ce qui est considéré comme agréable sur le plan esthétique et ce qui ne l’est pas. Elle veut également aider les ordinateurs à apprendre ce qu’ils devraient privilégier quand ils regardent certaines scènes.

Ce travail est nouveau dans le domaine de la vision par ordinateur qui jusqu’à présent était axé sur les détails sémantiques ou sur des objectifs au sein d’un environnement. “Dans le passé, nous ne nous sommes pas beaucoup intéressés à ce que nous appelons les caractéristiques plus subjectives, notamment l’esthétique et l’importance visuelle – des éléments qui attirent l’attention sur les scènes visuelles,” explique Naila. “Ces types de caractéristiques vont au-delà de l’objectivité, et sont également très intéressantes. Si nous voulons vraiment concevoir des machines intelligentes, il faudra les doter de la capacité à se former des opinions subjectives.

Inspiration auprès des photographes

Pour faire avancer leur travail, Naila et ses collaborateurs se sont tournés vers une communauté de photographes en ligne dans laquelle les membres proposent des critiques sur le travail de chacun. Naila voulait utiliser les opinions et l’expertise disponibles sur ce site pour enseigner à une machine ou à un algorithme comment formuler des critiques sur des photos. Pour ceci, elle a fait appel à l’apprentissage automatique – une méthode de modélisation des données qui donne aux ordinateurs les moyens d’apprendre sans être expressément programmés. Ce domaine bénéficie des volumes énormes de données disponibles dans le monde moderne et des augmentations continues du pouvoir de traitement.

Naila explique : “Dans le passé, les chercheurs en vision par ordinateur auraient programmé des algorithmes avec des données approfondies sur les caractéristiques d’images agréables sur le plan esthétique. Puis, l’algorithme aurait essayé d’utiliser ces caractéristiques pour estimer si une image était agréable sur le plan esthétique.” Mais avec l’apprentissage machine, les ordinateurs peuvent apprendre les connaissances nécessaires indépendamment.

“Nous avons simplement fourni un algorithme d’apprentissage comportant des photos et les critiques qui les accompagnaient, puis nous avons demandé à l’ordinateur de reproduire ces critiques. Nous avons supposé que si 100 personnes étaient d’accord pour dire qu’une photo était belle, alors nous pouvions affirmer avec confiance qu’elle l’était.

“Vous pouvez imaginer que pour évaluer une photo format portrait, les types de jugement esthétiques qui seraient appliqués ne seraient pas les mêmes que pour une photo format paysage. S’il s’agissait d’une photo d’un paysage, la priorité serait accordée à des caractéristiques comme la complexité de la composition ou les lignes de fuite. Pour une photo format portrait, des règles différentes s’appliqueraient. Ce sont des éléments qu’une machine pourrait découvrir en triant de nombreux exemples.

“Mais bien sûr, les jugements esthétiques sont créés par les êtres humains en premier lieu. Alors nous nous sommes aperçus que de nombreuses caractéristiques intuitives ou issues de règles empiriques, sont vraies.”

Le rapport aux machines

L’intérêt que Naila porte à la vision par ordinateur remonte à son diplôme universitaire en ingénierie électrique à l’Université de Princeton. “Je m’intéressais aux machines autonomes, à savoir celles qui pourraient fonctionner de manière indépendante dans un environnement donné, et recherchais ce qu’il faudrait pour créer de telles machines. J’ai ensuite décidé de faire un Master en intelligence artificielle et vision par ordinateur.

“Pourquoi ? Parce que la vision par ordinateur fait beaucoup appel à l’intuition de la perception visuelle humaine mais en même temps elle présente quelques défis. La perception humaine nous permet d’accomplir des tâches comme la reconnaissance des objets d’une façon quasiment insignifiante, mais réussir à ce qu’une machine puisse atteindre le même niveau de reconnaissance s’est avéré bien plus difficile. Il est fascinant d’étudier les éléments qui réussissent à former les machines et ceux qui n’y parviennent pas.

“Par exemple, les êtres humains peuvent identifier correctement la couleur d’un objet dans différentes conditions d’éclairage. L’extérieur peut être lumineux. Ou il peut faire sombre. Il peut aussi y avoir du brouillard. Mais nous pouvons toujours dire de façon précise de quelles couleurs sont les objets qui nous entourent. Pour un ordinateur, cette variabilité est extrêmement difficile à traiter alors que notre système visuel permet de compenser automatiquement une grande partie de ces changements environnementaux.

Un apprentissage approfondi

Apprendre ce qui constitue le système visuel humain est devenu progressivement une énorme source d’inspiration pour Naila à mesure qu’elle créait des modèles de vision par ordinateur dans le cadre de son doctorat (PhD).

Passer à l’apprentissage approfondi, un sous-domaine de l’apprentissage automatique qui implique le traitement de plusieurs niveaux de signaux, est devenu un choix évident pour elle. Naila explique : “Certaines méthodes d’apprentissage approfondi font appel à des réseaux neuronaux artificiels qui s’inspirent du système visuel de notre cerveau. Les réseaux profonds utilisés dans la vision par ordinateur sont bien loin d’être des modèles biologiques, mais ils sont à la base de l’inspiration et de l’extraction hiérarchique des informations.

Naila se fie à l’apprentissage approfondi pour résoudre une autre partie du « casse-tête » visuel pour les ordinateurs. Elle souhaite aider les machines à choisir ce qu’elles devraient regarder dans leur champ de vision. L’importance de ce domaine de recherche dans la vision de la machine est évidente. Par exemple, les machines qui doivent naviguer dans des environnements en temps réel ont besoin d’algorithmes efficaces pour focaliser leur attention visuelle. Et tout comme les êtres humains priorisent la concentration visuelle sur ce qui est importante, les machines doivent être en mesure de reconnaître les stimuli visuels qui méritent le plus leur pouvoir de traitement.

Orienter le regard d’une machine

Naila explique : “Nos yeux explorent constamment notre champ de vision et les systèmes de vision par ordinateur en font de même. Imaginons une machine qui doit suivre un individu par le biais de la vidéo. Si la vidéo a été prise à l’extérieur, la machine pourra probablement et sans risque ne pas tenir compte du ciel et se focaliser sur la partie inférieure de l’image. Ce que mes collègues et moi faisons, c’est utiliser les techniques d’apprentissage approfondi pour reproduire les différents types de modèles d’attention nécessaires pour ce type de scénario.”

“Nous avons donc eu recours à une collection de données de suivi du regard que nous avons récoltée pendant que différentes personnes regardaient des images. Nous avons ajouté ces images et les données de suivi du regard à un algorithme d’apprentissage approfondi qui a formé un réseau neuronal convolutif pour reproduire les modèles d’attention. Cette expérience s’est avérée réussie et les cartes synthétisées d’attention reproduisent assez bien les données collectées.”

Naila a étudié ensuite la façon dont ce travail peut s’appliquer à des systèmes qui aident les autorités à contrôler les mécanismes de péage et de co-voiturage. Son équipe aide à déterminer combien de passagers voyagent dans une voiture en éliminant les informations de second plan sans pertinence afin d’améliorer la précision des systèmes.

L’équipe de Naila aide également à mettre au point une application de réalité augmentée qui serait particulièrement utile pour les gens qui conduisent des véhicules avec lesquels ils ne sont pas familiers. L’application mobile permet aux utilisateurs de scanner l’intérieur d’une voiture et elle fait apparaître en pop-up sur l’écran, la fonction de chaque élément du tableau de bord. “Si vous avez une idée de ce que les gens regardent quand ils sont dans une voiture, par exemple le système de divertissement ou le tableau de bord, alors le modèle d’attention peut être formé pour localiser ces zones et permettre à l’application de se focaliser rapidement les éléments suscitant l’intérêt.”

Tous les experts réunis

Naila pense que la vision par ordinateur va devenir de plus en plus dépendante de la collaboration inter-disciplinaire entre les différents domaines d’intelligence artificielle. Son groupe s’intéresse déjà aux interactions entre les images et le texte en collaboration avec des chercheurs qui étudient le traitement du langage naturel. Une récente innovation Facebook qui aide les utilisateurs malvoyants à “voir” des images en les décrivant d’une façon qui peut être lue par un lecteur d’écran, intéresse tout particulièrement Naila.

“Vous voyez là une interaction très évidente entre trois choses,” dit-elle. “Vous disposez de la vision par ordinateur pour comprendre ce qui est sur l’image, la génération de langage naturel pour décrire verbalement cette image puis la génération de parole pour l’exprimer oralement. Il est très logique que ces éléments aillent de concert.

Il y a beaucoup de travail effectué en linguistique sur la façon de représenter la parole, d’extraire la sémantique et de résumer. Il s’avère que de nombreuses façons de représenter le texte peuvent également être utilisées pour représenter des images convenablement.

“Le domaine de la vision par ordinateur a toujours été collaboratif. Je dirais que cela devient plus important parce que nous arrivons à un point de sophistication tel que nous pouvons commencer à aborder des problèmes plus complexes sous différents angles.’

Comment apprendre aux ordinateurs à penser

Fondamentalement, Naila et des centaines d’autres scientifiques et ingénieurs chez Xerox essaient de rendre les ordinateurs plus intelligents. Alors jusqu’où et à quelle vitesse Naila voit-elle cette intelligence progresser ?

Nous avons connu d’importants changements dans la vision par ordinateur au cours des quatre dernières années environ. Le changement peut être si rapide que je ne dirais jamais que dans 20 ans nous ne verrons pas quelque chose d’extrêmement prometteur arriver, bien que je ne m’attende pas à un changement notable de sitôt.“

Je n’aime pas faire de prédictions. Mais je m’intéresse toujours à ce qui peut arriver prochainement. Un projet n’est jamais terminé dans le domaine de la recherche, on se dit toujours : ‘comment puis-je améliorer ceci ?’ Ou bien ‘comment ceci se traduit-il dans cette situation ?’ C’est ce que je regarde quand j’envisage l’avenir.

“Une des raisons pour lesquelles je travaille pour Xerox est que la société s’engage à créer des solutions innovantes qui améliorent le quotidien des personnes de façon positive. C’est tout simplement mon travail de trouver des façons de réaliser cet objectif”

Photo of a street with an arrow on it, overlaid with the words "Agents of Change"

Nous avons tous fait quelque chose pour changer le monde. Chacun d’entre nous. Chaque fois que nous respirons, notre présence a des retombées illimitées.

Mais peu d’entre nous ont la possibilité d’améliorer de nombreuses vies. Et encore moins relèvent ce défi au quotidien. C’est le défi lancé aux scientifiques de Xerox tous les jours – pour essayer et réaliser des changements.

En retour, nous leur donnons le temps et l’espace pour rêver. Alors nous travaillons pour concrétiser les rêves – qu’il s’agisse d’inventer de nouvelles machines avec fonctionnalités révolutionnaires ou d’utiliser la réalité augmentée pour stimuler la mémoire des patients atteints de la maladie d’Alzheimer.

Nous sommes fiers de nos « Agents du Changement » dans les centres de recherche Xerox du monde entier.