Investigadores enganam os avaliadores universitários com exames gerados por IA

O projeto da Universidade de Reading põe em causa a integridade dos trabalhos de curso e dos trabalhos de casa dos alunos

Os autores do estudo dizem que a sua experiência prova definitivamente que o ‘teste de Turing’ foi ultrapassado. Fotografia: Michael Dwyer/AP

Ler na fonte | Autor: Richard Adams

Investigadores da Universidade de Reading enganaram os seus próprios professores enviando secretamente respostas de exames geradas por IA que não foram detetadas e obtiveram melhores notas do que as de alunos reais.

O projeto criou identidades falsas de estudantes para apresentarem respostas não editadas geradas pelo ChatGPT-4 em avaliações on-line de trabalhos feitos em casa para cursos de licenciatura.

Os marcadores da universidade – que não foram informados do projeto – assinalaram apenas uma das 33 entradas, tendo as respostas da IA restantes recebido notas superiores à média da dos alunos.

Segundo os autores do estudo, as suas conclusões mostram que os processadores de IA, como o ChatGPT, estão agora a passar no “teste de Turing” – nome dado em homenagem ao pioneiro da computação Alan Turing -, que consiste em passar despercebido pela análise de juízes experientes.

Considerado “o maior e mais robusto estudo cego do seu género” para investigar se os educadores humanos poderiam detetar respostas geradas por IA, os autores alertaram para o facto de ter implicações importantes na forma como as universidades avaliam os estudantes.

“A nossa investigação mostra que é de importância internacional compreender como a IA afectará a integridade das avaliações educativas”, afirmou o Dr. Peter Scarfe, um dos autores e professor associado da escola de psicologia e ciências clínicas da linguagem de Reading.

“Não voltaremos necessariamente aos exames escritos à mão, mas o sector da educação global terá de evoluir face à IA”.

O estudo concluiu: “Com base nas tendências atuais, a capacidade da IA de exibir um raciocínio mais abstrato vai aumentar e sua detetabilidade diminuir, o que significa que o problema da integridade académica vai piorar.”

Os especialistas que analisaram o estudo disseram que era uma sentença de morte para exames em casa ou cursos não supervisionados.

Karen Yeung, especialista em direito, ética e informática da Universidade de Birmingham, afirmou: “A publicação deste teste de garantia de qualidade do mundo real demonstra muito claramente que as ferramentas de IA generativas disponíveis livremente e abertamente permitem aos estudantes fazer batota nos exames feitos em casa sem dificuldade para obter melhores notas, mas essa batota é virtualmente indetetável.”

O estudo sugere que as universidades poderiam incorporar material de IA gerado pelos estudantes nas avaliações. Etienne Roesch, outro autor do estudo, afirmou: “Enquanto sector, temos de chegar a acordo sobre a forma como esperamos que os estudantes utilizem e reconheçam o papel da IA no seu trabalho. O mesmo se aplica à utilização mais alargada da IA noutras áreas da vida, para evitar uma crise de confiança em toda a sociedade”.

A professora Elizabeth McCrum, pró-vice-reitora de educação de Reading, disse que a universidade estava “a afastar-se” do uso de exames online para levar para casa e estava desenvolvendo alternativas que incluiriam a aplicação de conhecimento em ambientes “da vida real, muitas vezes relacionados ao local de trabalho”.

McCrum disse: “Algumas avaliações ajudarão os alunos a utilizar a IA. Ensinando-os a utilizá-la de forma crítica e ética, desenvolvendo a sua literacia em IA e dotando-os das competências necessárias para o local de trabalho moderno. Outras avaliações serão concluídas sem o uso de IA.

Mas Yeung disse que permitir o uso de IA em exames nas escolas e universidades poderia criar os seus próprios problemas de “desqualificação” dos alunos.

“Tal como muitos de nós já não conseguem orientar-se em locais desconhecidos sem a ajuda do Google Maps, existe um perigo real de que a próxima geração acabe efetivamente ligada a estas máquinas, incapaz de pensar, analisar ou escrever com seriedade sem a sua ajuda”, afirmou Yeung.

Nas notas finais do estudo, os autores sugerem que podem ter utilizado a IA para preparar e escrever a investigação, afirmando: Consideraria isso “batota”? Se considerasse ‘batota’, mas negássemos ter usado GPT-4 (ou qualquer outra IA), como tentaria provar que estávamos a mentir?”

Um porta-voz da Reading confirmou que o estudo foi “definitivamente efectuado por humanos”.

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.