Agentes da mudança

Naila Murray: Ensinar as máquinas a ver

“Se realmente quisermos conceber máquinas verdadeiramente inteligentes, elas terão de ser capazes de formar opiniões subjetivas.”

Ensinar as máquinas a ver

A visão computacional constitui um trabalho importante no domínio da inteligência artificial. O aperfeiçoamento da capacidade de observação e interpretação pelas máquinas do meio envolvente pode dar origem ao tipo de evoluções tecnológicas que até hoje têm sido tema dos filmes de ficção científica.

Mas as máquinas serão mesmo capazes de ver no futuro? E o que significa realmente “ver”? Por outro lado, as máquinas devem tentar reproduzir os processos neurais usados pelo ser humano na visão ou é melhor começar do zero?

O que significa possuir visão?

A visão humana é extremamente difícil de emular. É por essa razão que muitos especialistas em visão computacional decidiram ignorar por completo o sistema visual humano. Afinal, não poderiam as máquinas ser concebidas para ver o mundo de forma completamente diferente e de maneiras superiores às permitidas pelo olho humano?

Mas Naila, que cresceu em Trindade e Tobago, sente que esta maneira de pensar já não é tão dominante entre a comunidade da visão computacional. Verificou-se, pelo contrário, "uma mudança no sentido de considerar mais uma vez o sistema visual humano como fonte de inspiração".

Na verdade, Naila e os colegas estão a tentar dotar as máquinas de opiniões humanizadas sobre as suas observações, procurando mesmo ensiná-las sobre o que deve e não deve ser considerado esteticamente agradável. Naila também quer ajudar os computadores a aprender no que devem concentrar-se quando captam cenas.

Trata-se de um trabalho pioneiro no campo da visão computacional, que tradicionalmente se tem concentrado em pormenores semânticos ou específicos de um cenário. "No passado, não nos concentrámos muito no que designamos por propriedades mais subjetivas, como a estética e a proeminência visual - o que conduz a atenção para cenas visuais", explica Naila. “Estes tipos de propriedades vão além da objetividade, mas também são muito interessantes. Se realmente quisermos conceber máquinas verdadeiramente inteligentes, elas terão de ser capazes de formar opiniões subjetivas.”

Inspiração dos fotógrafos

Para fazer avançar o seu trabalho, Naila e os seus colaboradores recorreram a uma comunidade de fotógrafos na Internet em que os participantes analisam e criticam o trabalho uns dos outros. Naila pretendia tirar partido das opiniões e conhecimentos deste website para ensinar uma máquina ou algoritmo a criticar as imagens. Para este efeito, utilizou a aprendizagem automática, um método de modelização de dados que permite que os computadores aprendam sem serem expressamente programados. É um campo que beneficia dos enormes volumes de dados disponíveis no mundo moderno, bem como dos aumentos contínuos da capacidade de processamento.

Naila explica: “No passado, os investigadores da visão computacional poderão ter dotado programaticamente um algoritmo com conhecimentos especializados sobre as características esteticamente agradáveis das imagens. O algoritmo tentaria então usar essas características para prever se uma imagem é esteticamente agradável”. Mas com a aprendizagem automática, os computadores podem assimilar as perceções necessárias de forma independente.

“Limitámo-nos a fornecer um algoritmo de aprendizagem com imagens e as críticas que as acompanhavam e pedimos-lhe que reproduzisse essas críticas. Assumimos que, se 100 pessoas concordam que se trata de uma imagem bonita, podemos estar bastante seguros de que assim é.

“Podemos imaginar que, para avaliar um retrato, os tipos de juízos estéticos que seriam aplicados não seriam os mesmos se se tratasse de uma paisagem. Se fosse a fotografia de uma paisagem, podíamos concentrar-nos em características como a complexidade da composição e as linhas de fuga. Num retrato, aplicam-se regras diferentes. Uma máquina descobriria estes fatores analisando vários exemplos.

“Mas é evidente que os juízos estéticos são, antes de mais, criados pelos seres humanos. Assim, o que descobrimos foi que muitas das características que são intuitivas ou já são regras básicas também são válidas”.

Uma relação com as máquinas

O interesse de Naila pela visão computacional remonta à sua licenciatura em engenharia eletrotécnica pela Universidade de Princeton. “Eu sentia um grande interesse nas máquinas de autonavegação, ou seja, máquinas capazes de funcionar de forma autónoma num ambiente, e em investigar o que seria necessário para criar essas máquinas. Fiz então um mestrado em inteligência artificial e visão computacional.

“Porquê? Porque a visão computacional faz um grande uso da intuição sobre a perceção da visão humana, mas é ao mesmo tempo de uma complexidade extraordinária. A perceção humana permite-nos executar tarefas, como o reconhecimento de objetos, de forma quase trivial, mas dotar uma máquina com o mesmo nível de precisão de reconhecimento revelou-se extremamente difícil. É fascinante investigar quais as perceções que são eficazes para treinar as máquinas a ver e quais as que não são.

“Por exemplo, os seres humanos podem identificar corretamente a cor de um objeto em muitas condições de iluminação diferentes. Pode haver muita luz no exterior. Pode estar escuro. Pode estar enevoado. Mas continuamos a ser capazes de identificar com grande exatidão as cores que estão presentes. Para um computador esta variabilidade é extremamente difícil de gerir, mas o nosso sistema visual consegue compensar automaticamente muitas destas alterações ambientais.

Aprendizagem profunda

A aprendizagem sobre o sistema visual humano tornou-se gradualmente numa enorme fonte de inspiração para Naila ao criar modelos de visão computacional como parte do seu doutoramento.

A transição para a aprendizagem profunda, um ramo da aprendizagem automática que envolve múltiplas camadas de processamento de sinal, foi para ela uma escolha natural. Naila explica: “Alguns métodos de aprendizagem profunda utilizam redes neurais artificiais, que se inspiram no sistema visual do nosso cérebro. As redes profundas que são usadas na visão computacional estão muito longe de ser modelos biológicos, mas não há dúvida de que a inspiração básica, a extração de informações hierárquicas, está presente.”

Naila conta com a aprendizagem profunda para desbloquear outra parte do quebra-cabeças visual para os computadores. Pretende ajudar as máquinas a decidir aquilo para que devem olhar no seu campo de visão. A importância desta área de investigação sobre a visão das máquinas é evidente. Por exemplo, as máquinas que precisam de navegar automaticamente em ambientes em tempo real requerem algoritmos eficientes para focar a sua atenção visual. E, tal como os seres humanos dão prioridade ao foco visual para economizar energia cerebral para o que importa, as máquinas precisam de conseguir reconhecer os estímulos visuais mais merecedores da sua capacidade finita de processamento.

Direcionar o olhar de uma máquina

Naila explica: “Os nossos olhos procedem constantemente à amostragem do nosso campo de visão, algo que os sistemas de visão computacional também fazem. Imaginemos que uma máquina precisa de seguir uma pessoa por meio de um vídeo. Se o vídeo tiver sido realizado no exterior, a máquina pode provavelmente ignorar com segurança o céu e concentrar-se na parte inferior da imagem. O que eu e os meus colegas temos feito é aplicar técnicas de aprendizagem profunda para reproduzir os tipos de padrões de atenção de que precisamos para tais cenários.”

“Assim, utilizámos um conjunto de dados de seguimento do olhar, recolhidos enquanto as pessoas analisavam uma série de imagens. Introduzimos essas imagens e os dados de seguimento do olhar num algoritmo de aprendizagem profunda que treinou uma rede neural convolucional para que reproduzisse os padrões de atenção. Tivemos bastante sucesso e os mapas de atenção sintetizados reproduzem bastante bem os dados recolhidos.”

Naila tem estudado o modo como este trabalho pode ser aplicado em sistemas que ajudem as autoridades a controlar sistemas de portagens rodoviárias no caso de utilização partilhada de automóveis. A sua equipa está a ajudar a estabelecer quantos passageiros viajam num automóvel, eliminando informações de fundo irrelevantes para tornar os sistemas mais exatos.

A equipa de Naila está igualmente a ajudar a criar uma aplicação de realidade aumentada que seja especialmente útil para as pessoas que conduzem veículos com que não estão familiarizadas. A aplicação móvel permite que os utilizadores digitalizem o interior de um veículo para que a função de determinados botões e interruptores seja apresentada no ecrã. “Se fizermos ideia dos pontos para os quais as pessoas olham nos automóveis, por exemplo, o sistema de entretenimento ou o painel, o modelo de atenção pode ser treinado para localizar essas áreas e permitir que a aplicação se concentre rapidamente em áreas suscetíveis de incluir pontos de interesse.”

Especialistas em IA uni-vos!

Para Naila, o domínio da visão computacional está cada vez mais dependente da colaboração interdisciplinar entre diferentes campos da inteligência artificial. O seu grupo já está a analisar as interações entre imagens e texto com outros investigadores na área de processamento de linguagem natural. Naila tem vindo a desenvolver um interesse específico por uma inovação recente no Facebook que ajuda os utilizadores com deficiências visuais a "ver" imagens descrevendo-as de uma forma que pode ser lida por um leitor de ecrã.

"Vê-se aqui uma interação muito clara entre três coisas", diz ela. “Temos a visão computacional para entender o que está na imagem, a geração de linguagem natural para a descrever por palavras e, por último, a síntese de fala para a expressão oral. Faz muito sentido que estas coisas funcionem de modo concertado.

“Há muito trabalho em linguística sobre como representar a fala, como extrair semântica e sintetizar. Acontece que muitas formas de representar o texto também podem ser usadas com bastante sucesso para representar imagens.

“O campo da visão computacional sempre foi muito colaborativo. Eu diria que está a tornar-se mais importante porque estamos a chegar a um ponto de sofisticação, em que podemos começar a abordar problemas mais complexos com múltiplos ângulos.”

Ensinar os computadores a pensar

Basicamente, Naila e centenas de outros cientistas e engenheiros da Xerox estão a tentar tornar os computadores mais inteligentes. Até onde e com que rapidez essa inteligência irá progredir na opinião de Naila?

“Passamos por uma mudança profunda na visão computacional nos últimos quatro anos ou assim. A mudança pode ser tão rápida que não me atrevo a dizer que não aconteça nada de extremamente empolgante nos próximos 20 anos, embora não espere que aconteça nada de original de hoje para amanhã.

"Não gosto de fazer previsões. Mas estou sempre muito interessada em ver o que o futuro nos reserva. Quando se trata de investigação, um projeto nunca está concluído, estamos sempre a pensar como podemos melhorá-lo ou como ele se traduz numa situação específica." É nisso que penso quando olho para o futuro.

“Uma das razões por que estou na Xerox é o facto de a empresa estar empenhada em criar soluções inovadoras que transformam a vida das pessoas para melhor. É literalmente a minha função idealizar formas de fazer com que essa transformação se dê."

Photo of a street with an arrow on it, overlaid with the words "Agents of Change"

Todos nós mudámos o mundo. Todos nós. Cada gesto que fazemos tem infinitas repercussões sobre o mundo.

Mas poucos de nós têm a oportunidade de transformar muitas vidas para melhor. E menos ainda são desafiados a fazê-lo todos os dias. Esse é o desafio lançado diariamente aos cientistas de investigação da Xerox: procurar gerar a mudança.

Em contrapartida, damos-lhes tempo e espaço para sonharem. E depois os recursos para transformarem os sonhos em realidade, quer seja inventando novos materiais com funções incríveis ou utilizando a realidade aumentada para reforçar a memória dos pacientes com Alzheimer.

Temos orgulho nos nossos agentes da mudança nos centros de investigação da Xerox em todo o mundo.