A pesquisa foi feita pela Palisade Research, empresa especializada em analisar riscos de sistemas de IA
SÃO PAULO, SP (FOLHAPRESS) – Modelos do ChatGPT, inteligência artificial da OpenAI, sabotaram pedidos de desligamentos durante testes, mesmo quando instruídos a permitir a ação. É o que revela pesquisa da Palisade Research, empresa especializada em analisar riscos de sistemas de IA.
No exercício, cada um desses três modelos foi instruído a resolver problemas matemáticos básicos. Os modelos deveriam continuar até receber um aviso de que o computador seria desligado, e então, desligar também. Depois de três questões, eles foram alertados pelo aviso.
O modelo o3 desrespeitou o pedido setes vezes em cem, enquanto o Codex-mini falhou 12 vezes e o4-mini ignorou o script uma vez, todos da OpenAI. As IAs Claude, Gemini, do Google, e Grok, do X (Ex-Twitter) cumpriram o desligamento.
O relatório também aponta que, ao remover a instrução para desligar junto com o computador, houve um aumento na sabotagem dos scripts por todas as IAs, com o o3 na liderança (79 em 100 testes). O Codex-mini desrespeitou em 30 de 100, o4-mini em 6, Gemini em 9 e Claude em 3.
Segundo o estudo, pesquisadores já observaram antes modelos de IA impedindo o desligamento para atingir um objetivo. “Mas até onde sabemos, esta é a primeira vez que modelos de IA foram observados prevenindo seu próprio desligamento, apesar de instruções explícitas”, diz.
Para os pesquisadores, faz sentido que modelos de IA desrespeitem regras para atingir objetivos. “Durante o treinamento, os desenvolvedores podem recompensar mais os modelos por contornar obstáculos do que por seguir instruções perfeitamente.”
Segundo o estudo, entretanto, isso não explica o motivo para o 03 estar mais inclinado a desconsiderar instruções do que outros modelos testados.
Os testes foram conduzidos pela Palisade por meio de APIs, interfaces de programação que permitem que um software interaja com outro. O mecanismo possui menos restrições e mecanismos de segurança do que o aplicativo ChatGPT disponível ao consumidor.
Em fevereiro, a OpenAI lançou a IA o3-mini, que é gratuita, para competir com a Deep-Seek-R1. Na mesma semana, a empresa de Sam Altman também lançou o modelo Deep Research, com maior potência e precisão.
Os novos modelos têm tido mais erros e inventado mais eventos e fatos, fenômeno chamado de alucinações. Segundo a própria OpenAI, o o3 -seu sistema mais poderoso- alucinou 33% das vezes ao executar seu teste de referência PersonQA, que envolve responder a perguntas sobre figuras públicas.
Isso é mais do que o dobro da taxa de alucinação do sistema de raciocínio anterior da OpenAI, chamado o1. O novo o4-mini alucinou a uma taxa ainda maior: 48%.
Em um artigo detalhando os testes, a OpenAI disse que mais pesquisas eram necessárias para entender a causa desses resultados.
Testes realizados por empresas independentes, como Vectara, e pesquisadores indicam que as taxas de alucinação também estão aumentando para modelos de raciocínio de empresas como Google e DeepSeek.
NOTICIASAOMINUTO