Os próximos desafios da investigação em IA

tommorisse

Artigo de Tom Morisse, research manager na FABERNOVEL INNOVATE Paris

O machine learning suscita atualmente um momento de frenesim, gerado por uma série de resultados espetaculares obtidos por investigadores de IA. Apesar de parecem  promissores, os mais recentes modelos de machine learning ainda não representam uma solução milagrosa: nenhum programa pode resolver, por si só, uma infinidade de tarefas; treinar algoritmos requer uma grande quantidade de dados; as redes neurais funcionam bem, mas são verdadeiras caixas negras…

Como resultado, os vários esforços que estão em curso têm procurado melhorar as arquiteturas actuais, bem como sugerir novas direções para os paradigmas de investigação em torno da inteligência artificial geral.

Aperfeiçoar as arquiteturas existentes

1) A aprendizagem contínua

Tom Mitchell, professor de machine learning, explicou em 2006 que “até agora, a grande maioria do trabalho de machine learning envolve a execução de programas em determinados conjuntos de dados, e em seguida, colocar de lado o aprendiz e utilizar o resultado. Por outro lado, a aprendizagem em seres humanos e outros animais é um processo contínuo no qual o agente adquire muitas capacidades, muitas vezes por uma ordem específica.” O problema ainda é atualmente relevante e os investigadores esforçam-se para conceder aos algoritmos a capacidade de se ajustarem a longo prazo.

Exemplo: NELL (Never-Ending Language Learner) é um programa que tem sido executado 24h/7 desde 2010, a fim de aprender a “ler a web.” Começou com uma base de dados inicial de páginas da web e uma hierarquia de categorias (por exemplo, desportos). Ao ler 100.000 solicitações de pesquisas Google por dia, é capaz de aprender, por conta própria, novas categorias e sugerir “crenças”, tais como: NELL

2) A transferência de aprendizagem

Embora, em geral, as abordagens desenvolvidas pelos modelos de machine learning possam ser frequentemente aplicadas numa vasta gama de domínios, é geralmente difícil para os algoritmos generalizar a adaptação a novos problemas (mesmo os mais relacionados): A arquitetura dos modelos pode ser reutilizada, mas a aprendizagem deve começar a partir do zero. Por exemplo, num jogo de xadrez não poderia jogar um jogo tão simples como o do galo.

Associado à exploração de aprendizagem contínua, o foco na transferência de aprendizagem aponta para um futuro em que as máquinas poderão aprender a aprender.

Exemplo: No passado mês de Outubro, os investigadores da DeepMind apresentaram um modelo de machine learning capaz de “aprender tarefas como encontrar o caminho mais curto entre dois pontos específicos e deduzir as ligações ausentes em gráficos gerados aleatoriamente, e em seguida, generalizar essas tarefas através da aplicação de gráficos específicos, tais como as redes de transporte e as árvores genealógicas.” A chave foi adicionar memória externa à rede neural para melhor armazenar dados por longos períodos (uma característica com a qual as redes neurais geralmente têm mais dificuldade).

3) A geração autónoma de conjuntos de dados

Os modelos de machine learning dependem muito da disponibilidade de conjuntos de dados. Atualmente estão a considerar duas abordagens para superar este potencial obstáculo: a primeira destina-se a criar algoritmos “económicos”, mas eficazes, que utilizem menos dados durante o treino (o chamado “sparse data” na gíria de IA), e o segundo é criar modelos que possam gerar (pelo menos parcialmente) os seus próprios conjuntos de dados de treino.

Exemplos:

  • O programa AlphaGo não só tem aproveitado os registos de um servidor online durante o seu treino, como também jogou vários jogos contra si próprio, gerando um conjunto de dados de 30 milhões de posições de jogo.
  • Em Dezembro, os investigadores da Apple publicaram o primeiro artigo de machine learning da empresa. Aborda as limitações dos conjuntos de dados no campo da visão computacional: imagens sintéticas (geradas em 3D) cada vez mais utilizadas para formar conjuntos de treino, mas os algoritmos resultantes são geralmente menos precisos quando confrontados com imagens reais de um conjunto de testes. A solução dos investigadores da Apple foi desenvolver um modelo que pode combinar imagens sintéticas com características de imagens reais. Esta abordagem resultou em numerosos conjuntos de dados de imagens ainda mais realistas. Veja a ilustração abaixo retirada do artigo:

Apple-SR-1

4) Abrir a caixa negra dos algoritmos de machine learning

Os modelos de machine learning podem ser muito eficazes, mas ainda têm uma grande desvantagem em relação aos seus ancestrais com base em regras: por agora ainda é impossível entender exatamente como é que um algoritmo chega a uma conclusão particular.

A abertura dessas caixas negras serão essenciais para dar feedback aos utilizadores de aplicações de IA no futuro – pois poderá necessitar de  informação adicional se lhe for negado um empréstimo por um algoritmo de deep learning. E sobretudo, poderá ajudar a explicar (e, assim, a evitar) consequências intoleráveis, como a categorização pelo Google Photos de dois negros como “gorilas” em Julho de 2015.

Exemplos: No passado Agosto, a DARPA (agência de financiamento de I&D do American Department of Defense) lançou um programa chamado “IA Explicável” (XAI), que visa financiar projetos de modelos de machine learning que possam fornecer fundamentos para as suas escolhas (sem perder o alto nível de precisão dos seus resultados). A filosofia global resume-se com esta ilustração da DARPA:

XAI_Cartoon_C007

Transformar os paradigmas de IA

5) Combinar deep learning e neurociências

O primeiro trabalho em redes neurais artificiais surgiu nos anos 1940 e 1950 com o progresso das neurociências. O primeiro neurónio artificial (sabendo que o termo “artificial” significa aqui um programa, não um objeto físico) em 1943 foi, por exemplo, o fruto de uma colaboração entre um neurofisiologista e um lógico.

No entanto, como explica um recente livro de deep learning, as duas disciplinas têm crescido de formas separadas: “A principal razão para o decréscimo do papel da neurociência na atual pesquisa de deep learning é que simplesmente não temos informações suficientes sobre o cérebro para utilizá-las como um guia.”

No entanto, há cada vez mais cientistas de ambas as áreas que exigem um reforço na integração entre deep learning, neurociência e, por vezes, ciência cognitiva também. Os recentes avanços no deep learning, mesmo que nem sempre tenham sido inspirados pela neurociência, podem levar a novos caminhos para a pesquisa da neurociência, e, inversamente, uma melhor compreensão do sistema de learning, por mais evoluído e complexo que seja – o cérebro – poderia sugerir novas arquiteturas ou arquiteturas refinadas, para investigadores de IA.

Exemplos:

  • Em Julho de 2015, três investigadores de diferentes origens sugeriram uma abordagem convergente chamada “racionalidade computacional” para compreender melhor a inteligência “dos cérebros, das mentes e das máquinas.”
  • Demis Hassabis CEO da DeepMind, é doutorado em neurociências cognitivas.

6) Preencher o gap entre as duas principais abordagens de IA

Se já tiver lido o nosso artigo sobre o vocabulário da IA, sabe, que houve duas abordagens principais tomadas ao longo dos anos neste campo: programação simbólica (de cima para baixo, muito popular nos primeiros dias da IA) e machine learning (de baixo para cima, ainda mais popular aos dias de hoje).

Embora fosse difícil programar algoritmos complexos com regras rígidas (por exemplo, no processamento de linguagem natural, quando escrever muitas regras e demasiadas exceções de uma determinada gramática era demorado e envolve-las para determinar o significado de uma frase era demasiado complexo), acrescentando um pouco de lógica simbólica aos modelos de machine learning poderia ajudar a melhorar alguns desses processos (por exemplo, grandes conjuntos de dados nem sempre estão disponíveis em todas as áreas).

Exemplo: A Geometric Intelligence, adquirida pela Uber, em Dezembro, para formar a base a base dos seus laboratórios de IA, está a comprar esta abordagem, a fim de desenvolver modelos que necessitam de menos dados do que o habitual.

7) Computação neuromórfica, a próxima arquitetura de hardware?

A computação neuromórfica consiste em imitar o funcionamento cerebral utilizando circuitos eletrónicos. Esta ideia existe desde o final de 1980, mas uma recente série de importantes iniciativas de investigação sobre o cérebro (por exemplo, o projecto Human Brain, lançado pela UE em 2013 com um orçamento de mil milhões de euros a mais de 10 anos) incluiu uma exploração do conceito através de sistemas de computação dedicados.

Se amanhã as redes neurais artificiais não existirem apenas em código, mas também na forma de circuitos eletrónicos especializados, o progresso na inteligência artificial, provavelmente, acelerará repentinamente. No entanto, ainda temos de medir o interesse de chips neuromorficos comparando com o dos chips mais genéricos como os CPUs (Unidade Central de Processamento)  e GPUs (Unidade de Processamento Gráfico), em termos de desempenho e custo. Finalmente, o caminho para uma verdadeira réplica do cérebro ainda é longo já que a bioquímica desempenha um grande papel na transmissão de informação. O próximo passo: a convergência entre a eletrónica e a biologia?

Exemplo: A IBM anunciou o seu chip neuromórfico TrueNorth em 2014. Incluía 1 milhão de neurónios – contra 100 mil milhões num cérebro humano – e 256 milhões de sinapses programáveis. A conquista mais impressionante foi a sua eficiência energética, comparável a um cérebro real, e 1000 vezes maior do que uma CPU convencional.

TrueNorth-architecture-1 

A arquitetura TrueNorth integra a computação (neurónios) e a memória (sinapses), enquanto a estrutura canónica dos computadores, até agora, sempre separou estas duas componentes.

Para além do progresso científico per se (e esperamos que, por agora, já se tenha tornado tão apaixonado pelo campo da inteligência artificial como nós), a contínua observação das atuais investigações em curso é a chave para uma previsão mais precisa sobre o futuro da IA como um factor económico.

Estes são os sinais fracos porque o seu sucesso ou fracasso terá uma influência direta sobre a extensão e profundidade de aplicações de negócio que podem ser preconizadas – quer automatizando novas tarefas, novos postos de trabalho ou mesmo de novas indústrias, ou, pelo contrário, deitando por terra as esperanças de uma inteligência artificial geral.