A OpenAI, empresa por trás do ChatGPT, lançou recentemente seus novos modelos de inteligência artificial o3 e o4-mini, que representam o estado da arte em muitos aspectos.
No entanto, esses modelos enfrentam um problema surpreendente: eles alucinam (ou seja, inventam informações) com mais frequência que seus antecessores, revelando um paradoxo intrigante na evolução dos sistemas de IA.
O impacto no Brasil: uso crescente de IA generativa
No Brasil, o uso de ferramentas de IA generativa como o ChatGPT tem crescido exponencialmente nos últimos anos. Segundo dados da Associação Brasileira de
Inteligência Artificial (ABIA), mais de 15 milhões de brasileiros já utilizam regularmente alguma ferramenta de IA generativa, seja para trabalho, estudo ou entretenimento.
As empresas brasileiras também têm adotado rapidamente essas tecnologias. Uma pesquisa recente da Fundação Getúlio Vargas (FGV) indicou que 47% das médias e grandes empresas no país já implementaram alguma solução baseada em IA generativa, principalmente para atendimento ao cliente, criação de conteúdo e análise de dados.
Nesse contexto, o aumento das alucinações em modelos mais avançados representa um desafio significativo para usuários brasileiros, especialmente em setores como saúde, direito e educação, onde a precisão das informações é crucial.
O problema crescente das alucinações
As alucinações têm se mostrado um dos maiores e mais difíceis problemas a serem resolvidos na inteligência artificial, afetando até mesmo os sistemas com melhor desempenho atualmente. Historicamente, cada novo modelo melhorava ligeiramente nesse aspecto, alucinando menos que seu antecessor. Mas isso não parece ser o caso para o o3 e o4-mini.
De acordo com testes internos da OpenAI, o o3 e o4-mini, que são chamados de modelos de raciocínio, alucinam com mais frequência que os modelos de raciocínioanteriores da empresa — o1, o1-mini e o3-mini — bem como os modelos “não-raciocínio” tradicionais da OpenAI, como o GPT-4o.
O mais preocupante é que a própria OpenAI não sabe exatamente por que isso está acontecendo.
Números alarmantes
Em seu relatório técnico para o o3 e o4-mini, a OpenAI escreve que “mais pesquisas são necessárias” para entender por que as alucinações estão piorando à medida que a empresa escala seus modelos de raciocínio.
O o3 e o4-mini têm melhor desempenho em algumas áreas, incluindo tarefas relacionadas a programação e matemática. Mas como eles “fazem mais afirmações no geral”, acabam fazendo “mais afirmações precisas, bem como mais afirmações imprecisas/alucinadas”, segundo o relatório.
A OpenAI descobriu que o o3 alucinou em resposta a 33% das perguntas no PersonQA, o benchmark interno da empresa para medir a precisão do conhecimento de um modelo sobre pessoas. Isso é aproximadamente o dobro da taxa de alucinação dos modelos de raciocínio anteriores da OpenAI, o1 e o3-mini, que pontuaram 16% e 14,8%, respectivamente. O o4-mini teve desempenho ainda pior no PersonQA — alucinando 48% das vezes.
Perspectivas para usuários brasileiros
Para nós brasileiros, o problema das alucinações pode ser ainda mais complexo devido a questões linguísticas e culturais. Embora os modelos da OpenAI tenham melhorado significativamente no processamento do português brasileiro, pesquisadores da USP e da UNICAMP têm demonstrado que a taxa de alucinações tende a ser maior quando os modelos respondem em português do que em inglês.
O professor Paulo Silva, do Departamento de Ciência da Computação da USP, explica: “Modelos treinados predominantemente com dados em inglês tendem a apresentar mais inconsistências quando processam e geram conteúdo em outros idiomas.
No caso do português brasileiro, observamos taxas de alucinação até 15% maiores em comparação com as mesmas consultas em inglês.”
Essa disparidade representa um desafio adicional para empresas brasileiras que dependem dessas tecnologias para aplicações críticas, como sistemas de atendimento ao cliente ou ferramentas de suporte à decisão.
Evidências de terceiros
Testes independentes realizados pela Transluce, um laboratório de pesquisa de IA sem fins lucrativos, também encontraram evidências de que o o3 tem tendência a inventar ações que supostamente realizou no processo de chegar a respostas.
Em um exemplo, a Transluce observou o o3 afirmando que executou código em um MacBook Pro 2021 “fora do ChatGPT” e depois copiou os números para sua resposta. Embora o o3 tenha acesso a algumas ferramentas, ele não pode fazer isso.
“Nossa hipótese é que o tipo de aprendizado por reforço usado para os modelos da série-o pode amplificar problemas que geralmente são mitigados (mas não totalmente eliminados) pelos pipelines de pós-treinamento padrão”, disse Neil Chowdhury, pesquisador da Transluce e ex-funcionário da OpenAI, em um e-mail ao TechCrunch.
Sarah Schwettmann, cofundadora da Transluce, acrescentou que a taxa de alucinação do o3 pode torná-lo menos útil do que seria de outra forma.
Impactos práticos e regulatórios no Brasil
Kian Katanforoosh, professor adjunto de Stanford e CEO da startup de capacitação Workera, disse ao TechCrunch que sua equipe já está testando o o3 em seus fluxos de trabalho de programação e descobriu que ele está um passo à frente da concorrência.
No entanto, Katanforoosh diz que o o3 tende a alucinar links de sites quebrados. O modelo fornece um link que, quando clicado, não funciona.
No Brasil, onde a discussão sobre regulação de IA está avançando com o Projeto de Lei 2338/2023 (conhecido como Marco Legal da IA), o problema das alucinações ganha relevância adicional. O projeto, atualmente em tramitação no Congresso Nacional, prevê responsabilização para empresas cujos sistemas de IA causem danos por informações incorretas ou enganosas.
Renato Leite, advogado especializado em direito digital e novas tecnologias, comenta: “O aumento das alucinações em modelos mais avançados pode ter implicações jurídicas significativas no Brasil, especialmente quando o Marco Legal da IA for aprovado.
Empresas que utilizam esses sistemas precisarão implementar verificações adicionais para mitigar riscos legais.”
Possíveis soluções
Uma abordagem promissora para aumentar a precisão dos modelos é dar a eles capacidades de pesquisa na web. O GPT-4o da OpenAI com pesquisa na web alcança 90% de precisão no SimpleQA, outro dos benchmarks de precisão da OpenAI.
Potencialmente, a pesquisa poderia melhorar as taxas de alucinação dos modelos de raciocínio também — pelo menos nos casos em que os usuários estão dispostos a expor prompts a um provedor de pesquisa terceirizado.
Se escalar modelos de raciocínio realmente continuar a piorar as alucinações, isso tornará a busca por uma solução ainda mais urgente.
Abordar alucinações em todos os nossos modelos é uma área de pesquisa contínua, e estamos trabalhando continuamente para melhorar sua precisão e confiabilidade”, disse o porta-voz da OpenAI, Niko Felix, em um e-mail ao TechCrunch.
O dilema da indústria de IA
No último ano, a indústria de IA mais ampla mudou seu foco para modelos de raciocínio depois que técnicas para melhorar os modelos de IA tradicionais começaram a mostrar retornos decrescentes.
O raciocínio melhora o desempenho do modelo em uma variedade de tarefas sem exigir quantidades massivas de computação e dados durante o treinamento. No entanto, parece que o raciocínio também pode levar a mais alucinações — apresentando um desafio significativo.
Este paradoxo levanta questões importantes sobre o futuro do desenvolvimento de IA. À medida que os modelos se tornam mais capazes em certas áreas, eles podem simultaneamente se tornar menos confiáveis em outras? Como os pesquisadores podem equilibrar a capacidade de raciocínio avançado com a necessidade de precisão factual?
Para usuários e empresas brasileiras que dependem cada vez mais desses sistemas, a mensagem é clara; mesmo os modelos de IA mais avançados ainda exigem verificação humana cuidadosa, especialmente quando usados para tarefas onde a precisão é crucial.
Essa realidade reforça a importância de uma abordagem híbrida, combinando a eficiência da IA com a supervisão humana, particularmente em contextos culturais e linguísticos específicos como o brasileiro.
Com informações de TechCrunch