AI que vê com som, aprende a andar e prevê a física dos terremotos – TechCrunch

A pesquisa na área de aprendizado de máquina e IA, agora uma tecnologia-chave em praticamente todos os setores e negócios, é volumosa demais para que qualquer um leia tudo. Esta coluna, Perceptronvisa reunir algumas das descobertas e artigos recentes mais relevantes – particularmente, mas não limitado a, inteligência artificial – e explicar por que eles são importantes.

Este mês, os engenheiros da Meta detalharam duas inovações recentes das profundezas dos laboratórios de pesquisa da empresa: um sistema de IA que compacta arquivos de áudio e um algoritmo que pode acelerar o desempenho da proteína dobrável AI.60x. Em outros lugares, os cientistas do MIT revelaram que estão usando informações acústicas espaciais para ajudar as máquinas a imaginar melhor seus arredores, simulando como um ouvinte ouviria o som de qualquer ponto de uma sala.

O trabalho de compactação do Meta não está exatamente atingindo um território desconhecido. No ano passado, o Google anunciou Lira, um codec de áudio neural treinado para comprimir a fala de baixa taxa de bits. Mas a Meta diz que seu sistema é o primeiro a trabalhar com som estéreo com qualidade de CD, tornando-o útil para aplicações comerciais, como chamadas de voz.

Um desenho arquitetônico do modelo de compressão de áudio AI da Meta. Créditos da imagem: Meta

Usando AI, o sistema de compressão do Meta, chamado Codificador, pode compactar e descompactar áudio em tempo real em um único núcleo de CPU a taxas de aproximadamente 1,5 kbps a 12 kbps. Comparado ao MP3, o Encodec pode atingir uma taxa de compactação de cerca de 10x a 64 kbps sem perda perceptível de qualidade.

Os pesquisadores por trás do Encodec dizem que os avaliadores humanos preferiram a qualidade do áudio processado pelo Encodec sobre o áudio processado pelo Lyra, sugerindo que o Encodec poderia ser usado para fornecer áudio de maior qualidade em situações em que a largura de banda é limitada ou premium.

Quanto ao trabalho de dobramento de proteínas da Meta, tem menos potencial comercial imediato. Mas poderia lançar as bases para importantes pesquisas científicas no campo da biologia.

Dobramento de meta-proteínas

Estruturas de proteínas previstas pelo sistema Meta. Créditos da imagem: Meta

Meta diz que seu sistema de IA, ESMFold, previu as estruturas de aproximadamente 600 milhões de proteínas de bactérias, vírus e outros micróbios que ainda não foram caracterizados. Isso é mais do que o triplo das 220 milhões de estruturas que o DeepMind, apoiado pela Alphabet, previu com sucesso no início deste ano, que cobria quase todas as proteínas de organismos conhecidos em bancos de dados de DNA.

O sistema da Meta não é tão preciso quanto o da DeepMind. Das cerca de 600 milhões de proteínas geradas, apenas um terço era de ‘alta qualidade’. Mas é 60 vezes mais rápido na previsão de estruturas, permitindo dimensionar a previsão de estrutura para bancos de dados de proteínas muito maiores.

Para não dar atenção excessiva à Meta, a divisão de IA da empresa também este mês detalhado um sistema projetado para raciocinar matematicamente. Os pesquisadores da empresa dizem que seu “solucionador de problemas neurais” aprendeu com um conjunto de dados de provas matemáticas bem-sucedidas para generalizar para novos e diferentes tipos de problemas.

A Meta não é a primeira a construir tal sistema. A OpenAI desenvolveu o seu próprio, chamado Lean, que anúncio em fevereiro. Além disso, a DeepMind experimentou sistemas capazes de resolver problemas matemáticos complexos no estudo de simetrias e nós. Mas a Meta diz que seu solucionador de problemas neurais foi capaz de resolver cinco vezes mais Olimpíadas Internacionais de Matemática do que qualquer sistema de IA anterior e superou outros sistemas em benchmarks matemáticos amplamente utilizados.

Meta observa que a IA para resolver matemática pode beneficiar os campos de verificação de software, criptografia e até aeroespacial.

Voltando nossa atenção para o trabalho do MIT, os pesquisadores científicos de lá desenvolvido um modelo de aprendizado de máquina capaz de capturar como os sons em uma sala se propagam pelo espaço. Ao modelar a acústica, o sistema pode aprender a geometria da sala a partir de gravações de som, que podem ser usadas para criar renderizações visuais de uma sala.

Os pesquisadores dizem que a tecnologia pode ser aplicada a softwares de realidade virtual e aumentada ou robôs que precisam navegar em ambientes complexos. No futuro, eles planejam melhorar o sistema para que ele possa generalizar para cenas novas e maiores, como prédios inteiros ou até cidades inteiras.

No departamento de robótica de Berkeley, duas equipes separadas acelerar a taxa na qual um robô quadrúpede pode aprender a andar e realizar outros truques. Uma equipe procurou combinar o melhor trabalho de muitos outros avanços no aprendizado por reforço para permitir que um robô passasse da lousa em branco para uma caminhada robusta por terrenos incertos em apenas 20 minutos em tempo real.

“Talvez surpreendentemente, descobrimos que, com várias decisões de design cuidadosas em termos de configuração de tarefas e implementação de algoritmos, é possível que um robô quadrúpede aprenda a andar do zero. com RL profundo em menos de 20 minutos, em uma variedade de ambientes diferentes e tipos de superfície. Importante, não requer novos componentes algorítmicos ou qualquer outra inovação inesperada”, escrevem os pesquisadores.

Em vez disso, eles selecionam e combinam abordagens de ponta e alcançam resultados surpreendentes. Você pode ler o jornal aqui.

Demonstração de cachorro-robô do laboratório EECS do professor Pieter Abbeel em Berkeley, CA em 2022. (Foto cortesia de Philipp Wu/Berkeley Engineering)

Outro projeto de aprendizado de locomoção, do laboratório do (amigo do TechCrunch) Pieter Abbeel, foi descrito como “treinar uma imaginação”. Eles configuraram o robô com a capacidade de tentar prever como suas ações se desenrolarão e, embora comece bastante indefeso, rapidamente ganha mais conhecimento sobre o mundo e como ele funciona. Isso leva a um melhor processo de previsão, que leva a um melhor conhecimento, e assim por diante, até que funcione em menos de uma hora. Ele aprende com a mesma rapidez a se recuperar de ser empurrado ou “expurgado”, como diz o jargão. Seu trabalho é documentado aqui.

Trabalhar com uma aplicação potencialmente mais imediata veio no início deste mês do Laboratório Nacional de Los Alamos, onde pesquisadores desenvolveram uma técnica de aprendizado de máquina para prever o atrito que ocorre durante terremotos, fornecendo uma maneira de prever terremotos. Usando um modelo de linguagem, a equipe diz que foi capaz de analisar as características estatísticas dos sinais sísmicos emitidos por uma falha em uma máquina sísmica de laboratório para projetar o tempo de um próximo terremoto.

“O modelo não é limitado pela física, mas prevê a física, o comportamento real do sistema”, disse Chris Johnson, um dos líderes de pesquisa do projeto. “Agora fazemos uma previsão futura a partir de dados passados, que vão além da descrição do estado instantâneo do sistema.”

A hora dos sonhos

Créditos da imagem: A hora dos sonhos

É difícil aplicar a técnica no mundo real, dizem os pesquisadores, porque não está claro se existem dados suficientes para treinar o sistema de previsão. Mas ainda assim, eles estão otimistas sobre as aplicações, que podem incluir a previsão de danos em pontes e outras estruturas.

A última desta semana é um aviso de pesquisadores do MITque alertam que as redes neurais usadas para simular redes neurais reais devem ser cuidadosamente examinadas quanto a qualquer viés de treinamento.

As redes neurais são, obviamente, baseadas em como nosso próprio cérebro processa e sinaliza informações, fortalecendo certas conexões e combinações de nós. Mas isso não significa que os sintéticos e os reais funcionem da mesma maneira. De fato, a equipe do MIT descobriu que simulações baseadas em redes neurais de células de grade (parte do sistema nervoso) produziram atividade semelhante apenas quando cuidadosamente restritas a fazê-lo por seus criadores. Se lhes fosse permitido governar a si mesmos, como fazem as células reais, não produziriam o comportamento desejado.

Isso não significa que os modelos de aprendizado profundo sejam inúteis nessa área – longe disso, eles são muito valiosos. Mas, como disse a professora Ila Fiete no post da escola: “eles podem ser uma ferramenta poderosa, mas é preciso ter muito cuidado ao interpretá-los e determinar se eles realmente fazem previsões de novo, ou mesmo esclarecem o que é que o cérebro otimiza.