Um novo estudo do MIT revela que os Modelos de Linguagem de Grande Escala (LLMs) processam dados de diferentes tipos de forma semelhante ao cérebro humano, utilizando uma "central semântica" para integrar informações de múltiplas modalidades. Essa descoberta pode ajudar no desenvolvimento de LLMs mais eficientes e versáteis.
Publicado em: 24, fevereiro 2025
Assim como o cérebro humano, os Modelos de Linguagem de Grande Escala (LLMs) são capazes de processar e integrar informações de diferentes tipos de dados, como textos, imagens, áudios e até mesmo códigos de computador. Um novo estudo realizado por pesquisadores do MIT (Instituto de Tecnologia de Massachusetts) revela que esses modelos utilizam uma "central semântica" para processar dados de forma generalizada, semelhante ao que ocorre no cérebro humano.
Os LLMs modernos, como o GPT-4, evoluíram muito desde os primeiros modelos de linguagem, que só conseguiam processar textos. Hoje, eles são capazes de realizar tarefas complexas, como gerar códigos de programação, resolver problemas matemáticos e até responder a perguntas sobre imagens e áudios. Mas como esses modelos conseguem lidar com dados tão diversos?
Os pesquisadores do MIT investigaram os mecanismos internos dos LLMs e descobriram que eles funcionam de maneira semelhante ao cérebro humano. No cérebro, o lobo temporal anterior atua como um "hub semântico", integrando informações de diferentes modalidades, como dados visuais e táteis. Da mesma forma, os LLMs possuem uma estrutura central que processa dados de forma abstrata, independentemente do tipo de informação.
O estudo mostrou que os LLMs processam dados em suas camadas iniciais de forma específica para cada modalidade (como textos em diferentes idiomas ou imagens). No entanto, à medida que os dados avançam pelas camadas internas do modelo, eles são convertidos em representações agnósticas à modalidade, ou seja, o modelo passa a processar as informações de forma generalizada, focando no significado subjacente.
Por exemplo, um LLM que tem o inglês como idioma dominante pode processar um texto em chinês ou resolver um problema matemático utilizando o inglês como "meio central" de raciocínio. Isso significa que, mesmo quando o modelo está lidando com dados em outros idiomas ou modalidades, ele ainda depende do inglês para realizar o processamento interno.
Os pesquisadores também descobriram que é possível intervir no "hub semântico" do modelo utilizando textos no idioma dominante (inglês) para alterar suas saídas, mesmo quando o modelo está processando dados em outros idiomas ou modalidades. Essa descoberta pode ser útil para melhorar a eficiência dos LLMs, permitindo que eles compartilhem informações entre diferentes tipos de dados de forma mais eficaz.
Esses achados podem ajudar os cientistas a treinar LLMs futuros que sejam mais capazes de lidar com dados diversos. Além disso, entender como os LLMs processam informações pode ajudar a evitar interferências entre idiomas, um problema comum em modelos multilíngues, onde o aprendizado de um novo idioma pode reduzir a precisão do modelo no idioma original.
Zhaofeng Wu, estudante de pós-graduação em Engenharia Elétrica e Ciência da Computação (EECS) do MIT e principal autor do estudo, afirma: "Os LLMs são grandes caixas pretas. Eles alcançaram um desempenho impressionante, mas sabemos muito pouco sobre seus mecanismos internos. Espero que este seja um passo inicial para entender melhor como eles funcionam, para que possamos melhorá-los e controlá-los quando necessário."
O estudo do MIT abre novas portas para a compreensão dos LLMs, mostrando que eles processam dados de forma semelhante ao cérebro humano. Essa descoberta não só melhora nossa compreensão desses modelos, mas também oferece insights valiosos para o desenvolvimento de sistemas de IA mais eficientes e versáteis.
A pesquisa será apresentada na International Conference on Learning Representations e foi financiada, em parte, pelo MIT-IBM Watson AI Lab.