Alerta na OpenAI: os novos modelos o3 e o4-mini do ChatGPT 'alucinam' mais que seus antecessores

Novos modelos de raciocínio da OpenAI apresentam preocupante aumento na taxa de alucinações, comprometendo a precisão das respostas. A empresa destaca que está investigando as causas e buscando soluções para melhorar a confiabilidade do sistema.

Testes internos do PersonQA, sistema da OpenAI, revelam que os novos modelos o3 e o4-mini do ChatGPT geram mais 'alucinações' do que modelos anteriores.

O termo 'alucinações' refere-se a informações incorretas ou distorcidas que a IA apresenta de forma convincente. As taxas de alucinações desses modelos são quase duas vezes superiores ao modelo o1.

A nova "família" de modelos, focada em raciocínio, inclui habilidades como programar, navegar na web e gerar imagens. No entanto, os problemas de alucinações persistem, o que é comum em alguns modelos de IA.

Os modelos o3 e o4-mini alucinam mais frequentemente do que os modelos anteriores, como o1 e o3-mini. Essa conclusão foi baseada em testes do PersonQA, que avalia a precisão das respostas.

Embora o o4-mini tenha se saído pior do que os modelos o1 e o3, a OpenAI indicou que esse comportamento era esperado para modelos menores.

Os resultados do PersonQA mostram:

o3: 33% de alucinações — quase o dobro do o1.
o4-mini: 48% de alucinações.

A OpenAI continua a investigar as causas dessas alucinações e como combatê-las. Niko Felix, porta-voz da OpenAI, afirma que melhorar a precisão e confiabilidade é uma área de pesquisa em andamento.