Resolver a dinâmica do cérebro dá origem a modelos flexíveis de aprendizado de máquina

Estudar o cérebro de pequenas espécies recentemente ajudou os pesquisadores do MIT a modelar melhor a interação entre neurônios e sinapses – os blocos de construção de redes neurais naturais e artificiais – em uma classe de modelos de aprendizado de máquina flexíveis e eficientes. mudar. condições. Crédito: Ramin Hasani/Stable Diffusion

No ano passado, pesquisadores do MIT anunciaram que haviam construído redes neurais “líquidas”, inspiradas nos cérebros de pequenas espécies: uma classe de modelos de aprendizado de máquina flexíveis e robustos que aprendem no trabalho e podem se adaptar a condições mutáveis, na realidade. segurança mundial. – tarefas críticas, como dirigir e voar. A flexibilidade dessas redes neurais “líquidas” significou fortalecer a linhagem de nosso mundo conectado, permitindo uma melhor tomada de decisão para muitas tarefas que envolvem dados de séries temporais, como monitoramento cerebral e cardíaco, previsão do tempo e preço das ações.

Mas esses modelos se tornam computacionalmente caros à medida que seu número de neurônios e sinapses aumenta e exigem programas de computador desajeitados para resolver seus complexos cálculos subjacentes. E todo esse cálculo, semelhante a muitos fenômenos físicostorna-se mais difícil de resolver com tamanho, o que significa que muitos pequenos passos devem ser calculados para chegar a uma solução.

Agora, a mesma equipe de cientistas descobriu uma maneira de mitigar esse pescoço resolvendo a equação diferencial por trás da interação de dois neurônios nas sinapses para desbloquear um novo tipo de algoritmos de inteligência artificial rápidos e eficientes. Esses modos têm as mesmas características das redes neurais líquidas – flexíveis, causais, robustas e explicáveis ​​– mas são ordens de magnitude mais rápidas e escaláveis. Esse tipo de rede neural pode, portanto, ser usado para qualquer tarefa que envolva obter informações sobre os dados ao longo do tempo, pois são compactas e adaptáveis ​​mesmo após o treinamento, enquanto muitos modelos tradicionais são fixos.

Os padrões, apelidados de “Closed Form Continuous Time” (CfC) rede neural, superou seus equivalentes de última geração em uma infinidade de tarefas, com velocidades e desempenho significativamente maiores no reconhecimento de atividades humanas a partir de sensores de movimento, modelagem da dinâmica física de um robô ambulante simulado e processamento de sequência de imagens baseada em eventos. Em uma tarefa de previsão médica, por exemplo, os novos modelos tiveram desempenho 220 vezes mais rápido em uma amostra de 8.000 pacientes.

Um novo artigo sobre o trabalho é publicado hoje em Inteligência de máquinas naturais.

“Os novos modelos de aprendizado de máquina que chamamos de ‘CfC’ substituem a equação diferencial que define a computação do neurônio por uma aproximação de forma fechada, preservando as belas propriedades das redes líquidas sem exigir integração numérica”, diz a professora Daniela Rus, diretora do MIT. do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e principal autor do novo artigo. “Os modelos CfC são causais, compactos, explicáveis ​​e eficientes no treinamento e na previsão. Eles abrem caminho para o aprendizado de máquina confiável para aplicações críticas de segurança.”

manter as coisas líquidas

As equações diferenciais nos permitem calcular o estado do mundo ou um fenômeno conforme ele evolui, mas não ao longo do tempo, apenas passo a passo. Para modelar fenômenos naturais ao longo do tempo e entender comportamentos passados ​​e futuros, como reconhecer a atividade humana ou a trajetória de um robô, por exemplo, a equipe recorreu a uma série de truques matemáticos para encontrar apenas o bilhete: uma solução de “forma fechada” que modela a descrição completa de um sistema inteiro, em uma única etapa de cálculo.

Com seus modelos, pode-se calcular essa equação a qualquer momento no futuro e a qualquer momento no passado. Além disso, a velocidade de cálculo é muito mais rápida porque você não precisa resolver a equação diferencial passo a passo.

Imagine uma rede neural de ponta a ponta que recebe entrada de direção de uma câmera montada em um carro. A rede é treinada para gerar saídas, como o ângulo de direção do carro. Em 2020, a equipe resolveu esse problema usando redes neurais líquidas de 19 nós, de modo que 19 neurônios mais um pequeno módulo de percepção pudessem dirigir um carro. Uma equação diferencial descreve cada nó desse sistema. Com a solução de forma fechada, se você substituí-la dentro dessa rede, ela daria o comportamento exato, pois é uma boa aproximação da dinâmica real do sistema. Eles podem, assim, resolver o problema com um número ainda menor de neurônios, o que significa que seria mais rápido e menos dispendioso computacionalmente.

Esses modelos podem receber entradas na forma de séries temporais (eventos que ocorreram ao longo do tempo), que podem ser usados ​​para classificação, controle de um carro, movimentação de um robô humanóide ou previsão de eventos financeiros e médicos. Com todos esses modos diferentes, ele também pode aumentar a precisão, robustez e desempenho e, mais importante, a velocidade de computação, que às vezes é uma compensação.

Resolver essa equação tem implicações de longo alcance para o avanço da pesquisa em sistemas de inteligência natural e artificial. “Quando temos uma descrição de forma fechada da comunicação de neurônios e sinapses, podemos construir modelos computacionais de cérebros com bilhões de células, uma capacidade que não é possível hoje devido à grande complexidade computacional dos modelos de neurociência. A equação de forma fechada pode facilitar tais simulações em grande escala e, portanto, abre novos caminhos de pesquisa para entendermos a inteligência”, diz o afiliado de pesquisa do MIT CSAIL, Ramin Hasani, primeiro autor do novo artigo.

Aprendizagem portátil

Além disso, há evidências iniciais de modelos CfC líquidos em tarefas de aprendizado em um ambiente a partir de entradas visuais e na transferência de suas habilidades aprendidas para um ambiente totalmente novo sem treinamento adicional. Isso é chamado de generalização fora da distribuição, que é um dos desafios abertos mais fundamentais na pesquisa de inteligência artificial.

“Sistemas de redes neurais baseados em Equações diferenciais são difíceis de resolver e escalar para, digamos, milhões e bilhões de parâmetros. Obter essa descrição de como os neurônios interagem uns com os outros, não apenas limiar, mas resolver a dinâmica física entre as células nos permite construir redes neurais de maior escala”, diz Hasani. “Essa estrutura pode ajudar a resolver tarefas de aprendizado de máquina mais complexas – permitindo um melhor aprendizado de representação – e deve ser a base de qualquer futuro sistema de inteligência incorporado”.

“Arquiteturas de redes neurais recentes, como ODEs neurais e redes neurais líquidas, têm camadas ocultas compostas por sistemas dinâmicos específicos que representam estados latentes infinitos em vez de pilhas explícitas de camadas”, diz Sildomar Monteiro, líder do grupo. AI e Machine Learning na Aurora Flight Sciences , uma Boeing Company, que não esteve envolvida neste artigo.

“Esses modelos definidos implicitamente mostraram desempenho de ponta, exigindo muito menos parâmetros do que as arquiteturas convencionais. No entanto, sua adoção prática foi limitada devido ao alto custo computacional necessário para treinamento e inferência.” Ele acrescenta que este artigo “mostra uma melhoria significativa na eficiência computacional para esta classe de redes neurais… [and] tem o potencial de permitir uma gama mais ampla de aplicações práticas relevantes para sistemas críticos de segurança comercial e de defesa.”

Mais Informações:
Ramin Hasani et al, Redes neurais contínuas de forma fechada, Inteligência de máquinas naturais (2022). DOI: 10.1038/s42256-022-00556-7

Esta história foi republicada com a gentil permissão do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e educação no MIT.

Citar: Resolver a dinâmica do cérebro dá origem a modelos flexíveis de aprendizado de máquina (15 de novembro de 2022) recuperados em 16 de novembro de 2022 de

Este documento está sujeito a direitos autorais. Exceto para uso justo para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para informação.