Escrita Assistida por IA: Implicações para a Pontuação Automatizada

O rápido avanço da IA generativa mudou a forma como as pessoas escrevem. A IA está agora integrada em muitas ferramentas de escrita do dia a dia, ajudando os utilizadores a gerar ideias, redigir conteúdo, rever frases e melhorar a sua escrita. Como resultado, a escrita está a tornar-se cada vez mais um processo colaborativo entre humanos e IA. Para estudantes, educadores e organizações de avaliação, isto levanta uma questão fundamental: Quando a IA se torna parte do processo de escrita, que competências essenciais devemos valorizar e como devemos medi-las?

Esta mudança também desafia os sistemas de pontuação automatizados existentes, que foram desenvolvidos sobretudo com base na suposição de que os ensaios eram escritos de forma independente por humanos. Funcionalidades como gramática, uso, mecânica e organização têm sido há muito tempo usadas como indicadores da qualidade da escrita e são uma parte fundamental de muitos modelos automatizados de pontuação. Mas quando a IA consegue melhorar estes aspetos da escrita com esforço mínimo, o seu papel na pontuação automatizada precisa de ser repensado. Este desafio é mais relevante para trabalhos de escrita não supervisionados, onde o uso da IA é difícil de controlar, em vez de testes formais de escrita supervisionados, onde o acesso a tais ferramentas pode ser restringido.

Um artigo recente, "Ensaios Gerados por IA: Características e Implicações para a Pontuação Automatizada e Integridade Académica", publicado na Educational Measurement: Issues and Practice (EM:IP), explora esta questão através da perspetiva da Avaliação de Escrita Analítica do GRE. O estudo, que evoluiu a partir de um projeto de estágio de verão da ETS, comparou ensaios gerados por IA com ensaios escritos por humanos e avaliou-os utilizando avaliadores humanos treinados e o motor automático de pontuação da ETS. Os resultados revelam diferenças importantes entre ensaios gerados por IA e escritos por humanos e oferecem insights úteis para a próxima geração de sistemas automatizados de pontuação.

A pontuação automatizada enfrenta um novo desafio

A pontuação automatizada desempenha um papel importante na avaliação de escrita em grande escala. Estes sistemas dependem frequentemente de características da linguagem como gramática, uso, mecânica, estilo, organização e escolha de palavras, pois podem ser calculados de forma eficiente com técnicas de PLN. Embora estas características façam parte do conceito em muitos testes linguísticos, em tarefas mais focadas na argumentação e no raciocínio, servem frequentemente como indicadores indiretos de uma qualidade de escrita mais profunda do que como evidência direta da qualidade das ideias, evidências ou raciocínio.

Por exemplo, um aluno que escreve com gramática precisa, organização clara e parágrafos bem desenvolvidos frequentemente demonstra também competências de raciocínio e comunicação mais fortes.

A IA generativa altera essa relação. Os ensaios gerados por IA podem obter boas pontuações em características relacionadas com a língua, pois a tecnologia pode produzir uma escrita polida e bem estruturada. No entanto, as características linguísticas fortes dos ensaios gerados por IA nem sempre vêm acompanhadas de raciocínio forte, análise significativa ou pensamento original.

Como resultado, algumas das funcionalidades que tradicionalmente eram bons indicadores da qualidade da escrita tornam-se menos fiáveis quando os ensaios são gerados ou fortemente apoiados por IA.

O que o estudo concluiu

O estudo revelou dois achados importantes.

Em primeiro lugar, os ensaios gerados por IA superaram consistentemente os ensaios escritos por humanos sobre características relacionadas com a linguagem, mesmo quando as ideias ou argumentos subjacentes eram relativamente limitados. Em segundo lugar, o e-rater® atribuiu pontuações mais altas aos ensaios gerados por IA do que os avaliadores humanos.

Esta diferença reflete como os sistemas de pontuação automatizados têm sido tradicionalmente desenvolvidos. O E-Rater® foi treinado usando ensaios escritos por humanos, onde o uso forte da linguagem está tipicamente associado a uma escrita global mais forte. Como resultado, estas características desempenham um papel importante no processo de pontuação.

Os ensaios gerados por IA podem ter um desempenho excelente nestas características relacionadas com a linguagem, embora ainda careçam de raciocínio analítico forte, uso de evidências e profundidade do argumento. Quando o avaliador® eletrónico atribui os mesmos pesos a estas características ao avaliar ensaios gerados por IA, isso inflaciona as pontuações.

Os avaliadores humanos, por outro lado, avaliam não só a qualidade da linguagem, mas também a qualidade do raciocínio, o uso da evidência e o desenvolvimento das ideias, conforme orientado pela rubrica de pontuação. Isto explica porque é que os avaliadores humanos não avaliaram os ensaios gerados por IA tão bem como o sistema automatizado.

Importa referir que estes resultados não sugerem que o e-rater® seja falho. Em vez disso, destacam como a IA generativa alterou algumas das suposições sobre as quais os sistemas de pontuação automatizada existentes foram construídos.

O que a pontuação automatizada precisa a seguir

Os sistemas automáticos de pontuação fazem mais do que atribuir pontuações. Antes de começar a pontuação, normalmente verificam se uma resposta é adequada para a pontuação. Tradicionalmente, esta etapa focava-se em sinalizar ensaios fora do tema, incomumente curtos ou longos, repetitivos, memorizados ou que não fossem apropriados para pontuação.

À medida que a escrita assistida por IA se torna mais comum, este processo inicial de triagem precisa de se expandir para identificar respostas geradas ou fortemente assistidas por IA quando o uso da IA não é permitido. De facto, os resultados do artigo EM:IP mostram que ensaios gerados por vários modelos de IA generativa podem ser detetados com elevada precisão. No entanto, os métodos de deteção terão de ser continuamente atualizados à medida que surgem novos modelos de IA.

Ao mesmo tempo, os sistemas automáticos de pontuação precisam de reconsiderar a importância que dão a diferentes aspetos da escrita. As funcionalidades superficiais da linguagem podem ser indicadores menos úteis do raciocínio mais profundo da escrita, quando a IA pode melhorá-las com esforço mínimo.

Os sistemas futuros devem dar maior ênfase a qualidades mais profundas da escrita, como o uso eficaz das evidências, a qualidade do raciocínio, a profundidade da análise e a força do argumento.

O futuro da avaliação escrita

A escrita assistida por IA veio para ficar. À medida que estas ferramentas se tornam parte da escrita quotidiana, a questão central deixa de ser como detetar ou impedir o seu uso, mas sim como redefinir o que esperamos medir a partir da escrita neste novo ambiente.

Responder a essa questão exigirá concordância em várias questões importantes, incluindo qual o nível de capacidade de escrita independente esperado, que tipos de assistência de IA são apropriados e que evidências devem ser usadas para avaliar a qualidade da escrita. Os sistemas automáticos de pontuação devem evoluir juntamente com esta conversa mais ampla, para que continuem a apoiar julgamentos válidos e significativos sobre a escrita na era da IA.

{"teaserCardGridModuleHeader":"O Insight Impulsiona o Progresso","teaserCardGridModuleDescription":"Descubra a investigação, histórias e ideias que impulsionam a educação, o trabalho e o potencial humano.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"Descubra IA na ETS","teaserCardDescription":"Saiba mais sobre a nossa visão, princípios e soluções de IA – e como estamos a capacitar a nossa força de trabalho com competências reais em IA.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"Imagem 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"Relatório de Progresso Humano","teaserCardDescription":"Veja como a missão da ETS ganha vida através das pessoas e do impacto. Estas são histórias de transformação, oportunidade e progresso em ação.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"Imagem 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}