INVESTIGAÇÃO NO TOEFL

Construir uma Medida Razoável de Competências de Escrita em Inglês: Uma Conversa com Larry Davis

30 de março de 2026

Desenvolver uma medida razoável de competências de escrita em inglês

Construir uma Medida Justa de Competências de Escrita em Inglês: Uma Entrevista com Larry Davis

Segue-se uma conversa entre o Diretor de Investigação da ETS, Larry Davis, que tem desempenhado um papel de liderança na investigação do TOEFL® há mais de uma década, e John Clark, Diretor de Iniciativas Estratégicas. Pode ler mais da investigação de Larry aqui.

Larry, queria começar com uma pergunta sobre o teu percurso académico. É verdade que primeiro obteve uma licenciatura em ciências das pescas?

Sim, tive uma licenciatura em ciências animais com ênfase em aquacultura e depois fiz um mestrado em ciências das pescas.

Selvagem! Pode ser uma pergunta injusta, mas há alguma ligação entre estas áreas e a avaliação linguística, a carreira que escolheu?

São áreas de estudo muito diferentes, sem dúvida. Mas há algumas semelhanças. E isso tem a ver com a necessidade de perceber como medir as coisas e depois analisar o que se mede.

No meu trabalho nas pescas, estudámos a fisiologia e o comportamento migratório dos salmões. E nem sempre havia formas estabelecidas de medir fenómenos relacionados com estas coisas.

Por isso, uma grande parte desse trabalho é descobrir, antes de mais, como medir algo que nos possa dizer algo de interesse? E depois de ter esses dados, como os avalia ou analisa para informar a tomada de decisões?

Nos testes de linguagem, o problema é o mesmo. Que tipo de provas recolhemos da capacidade de alguém comunicar em inglês? Como recolhemos estes dados? E como a avaliamos de forma a ser útil para informar a tomada de decisões?

Portanto, são áreas muito diferentes, mas ambas enfrentam um tipo semelhante de problema.

Essa é uma comparação muito útil. A propósito, já estive nas escadas de salmão no rio Willamette, no Oregon, onde construíram estruturas que permitem aos salmões nadar em redor de barragens para desovar rio acima. Esse é o meu conhecimento sobre salmão.

Já estive profundamente em locais assim, incluindo dentro de grandes barragens hidroelétricas onde provavelmente já nem se pode aceder por questões de segurança.

Ah! Parece que escolheste um campo menos perigoso. Mas já preparaste o terreno para o tema que queria discutir.

Um dos desafios mais difíceis na avaliação em inglês é perceber como recolher indicadores significativos da capacidade de escrita em inglês de um aluno. Como pensa sobre os desafios inerentes a testar as competências de escrita num exame padronizado?

Penso que um desafio fundamental é que, tal como sugeriste, só podemos recolher uma amostra muito breve do que alguém pode fazer por escrito.

E depois, com base nessa amostra – seja dez minutos, uma hora ou até algumas horas – isso é apenas uma pequena parte de toda a escrita que alguém pode fazer, tanto em termos do número de palavras que escreve ao longo da sua carreira académica, como dos diferentes tipos de escrita que alguém pode fazer no seu estudo académico.

Portanto, o jogo é realmente sobre previsão. Estamos a recolher uma amostra do que eles podem fazer. E com base nessa amostra, estamos a fazer algumas extrapolações do que achamos que esta pessoa provavelmente conseguiria fazer no mundo real. Esse é o desafio fundamental.

Existem diferentes abordagens razoáveis para enfrentar esse desafio. Por um lado, pode-se pegar numa amostra relativamente breve e combiná-la com outros dados para perceber a capacidade geral de alguém. E esta é a abordagem típica dos testes de proficiência linguística.

No outro extremo do espectro, podes pedir a alguém para tarefas muito específicas para uma dada situação, e isso pode informar inferências mais diretas sobre o que alguém pode fazer nessa situação.

Este tipo de teste de 'propósitos específicos' pode ser algo como um exame da ordem, que provavelmente é um pouco mais próximo da escrita que um advogado teria de fazer, em comparação com o tipo de escrita muito geral que tendemos a avaliar nos testes de proficiência linguística.

Especificamente para o TOEFL, você e o nosso colega, John Norris, lideraram os nossos esforços para investigar o impacto de um novo tipo de pergunta chamado Escrever para uma Discussão Académica. Porque é que a ETS considerou adequado revisitar a forma como testamos a escrita no TOEFL?

Bem, há várias razões que motivaram o desenvolvimento dessa tarefa. Uma delas é que, desde o desenvolvimento original do TOEFL IBT, a partir de meados da década de 1990 e início dos anos 2000, a escrita que ocorre nos ambientes universitários tem, provavelmente, mudado.

Mas o teste não mudou. Por isso, sentimos que, neste caso, havia alguma justificação para considerar tipos de escrita recentemente desenvolvidos. E estes géneros tendem a ser mais curtos. Também tendem a ser mais conversacionais.

Queríamos desenvolver uma tarefa que captasse parte disto. Essa foi uma das motivações. Outro benefício adicional é que idealmente ajudaria a reduzir o tempo de teste. Na versão anterior do teste, a secção de escrita do TOEFL IBT basicamente durava uma hora e tinha dois itens.

Do ponto de vista psicométrico, isso não te dá muita informação sobre o tempo que as pessoas passam nessa parte do teste. Assim, essa economia em tempo de teste foi outra vantagem adicional no desenho da tarefa.

Para além de tornar esta secção mais eficiente em termos de tempo, quais foram outras motivações por detrás do desenvolvimento da tarefa Escrever para uma Discussão Académica ?

Outro objetivo era fornecer contexto adicional para a escrita. A tarefa que Escrever para uma Discussão Académica substituiu foi uma tarefa de ensaio muito tradicional. Recebes uma pergunta de opinião, sabes – qual preferes, cães ou gatos? E é tudo o que recebes.

Este é um tipo de item de teste muito tradicional e usado há muito tempo. Mas não fornece contexto. E não te diz quem é o público. Também não te diz nada sobre a situação mais ampla. Esta falta de contexto tem sido criticada na comunidade de escritores, mas também, na prática, cria dificuldades na decisão sobre se uma resposta é ou não apropriada.

Por exemplo, pode haver um aluno que escreve num estilo académico e outro que escreve num estilo coloquial. Os avaliadores tendem a querer dar uma pontuação mais alta ao aluno com o estilo mais académico, mas não há realmente nenhuma razão de princípio para privilegiar esse tipo de escrita em detrimento da gíria porque não lhes dissemos quem é o público.

Portanto, essa é outra questão importante também. Definir claramente o propósito e o público ajuda-nos a avaliar estas respostas de uma forma mais racional.

Para quem não fez recentemente o TOEFL, a tarefa Escrever para uma Discussão Académica tem um enunciado de um professor, bem como duas respostas de estudantes. E espera-se que o candidato se envolva com esses temas tal como faria num fórum académico moderno.

Sim, está correto.

Como podemos ganhar confiança de que um tipo de tarefa como este é adequado para o exame?

Essa é uma ótima pergunta. E a validade dos testes – que é o que esta questão aborda – é algo que os estudantes de pós-graduação em avaliação linguística passam muito tempo a estudar. Esta é uma questão a que a área tem dado muita atenção ao longo de muitas décadas. E, como resultado, temos alguns procedimentos muito bem estabelecidos para pensar em como justificar uma tarefa de teste.

Isto normalmente assume a forma do que se chama um argumento de validade que deve considerar certos tipos de provas. Este tipo de evidência pode ser a relação entre a tarefa e as tarefas do mundo real. Então, quão próximo é ou o que nos diz sobre o que alguém pode fazer no mundo real?

Também incluiria evidências sobre como a tarefa é pontuada e se essa pontuação é consistente e justa. E será que a pontuação capta realmente as partes importantes do que as pessoas precisam de fazer nessa tarefa?

Envolveria também recolher evidências sobre como esta medida se relaciona com outras medidas semelhantes do mesmo tipo de capacidade. Por exemplo, se tivermos uma tarefa de escrita, ela deverá ter alguma relação positiva com outras avaliações da escrita.

Finalmente, há a questão de como o teste se relaciona com o desempenho no mundo real. Então, se as pessoas tiverem uma pontuação alta no teste, isso significa que vão ter um bom desempenho em situações reais, como nos trabalhos de escrita? E finalmente, qual é o efeito de reação?

E por recuar, quero dizer que, se as pessoas vão preparar-se para esta tarefa, isso beneficia realmente a sua capacidade linguística? Essa preparação realmente os ajuda a melhorar as suas competências? Ou estão apenas a aprender a ultrapassar obstáculos? E as pessoas vão preparar-se, se for um teste de alto risco.

Portanto, há toda uma estrutura e cadeia de raciocínio que justifica estas tarefas. E esta estrutura fornece uma base para pensar em como decidimos se uma tarefa de teste ou de teste é adequada para uso.

No artigo onde comparou a tarefa Escrever para uma Discussão Académica com o ensaio independente, encontrou "semelhanças na qualidade do texto produzido pelos candidatos em termos da complexidade sintática, precisão gramatical, variedade lexical, discurso, coesão e elaboração, e fluência da sua escrita."

E estes termos são importantes porque fazem parte da forma como avaliamos o desempenho dos alunos. Mas o que quer dizer quando diz "complexidade sintática"?

A complexidade sintática tem a ver com as estruturas gramaticais usadas na escrita. Alguns ouvintes podem ter frases diagramadas nos tempos de escola e saberão do que estou a falar, mas uma frase mais sintaticamente complexa terá um diagrama mais longo e complexo. E tende a incluir várias coisas, como múltiplas cláusulas.

Para usar uma metáfora: se uma frase simples é como um pau de bambu que sobe em linha reta, uma frase complexa é mais como uma árvore que tem muitos ramos que, idealmente, contribuem todos para um significado coerente.

Obrigado por esclarecer esse termo – bambu, percebo! Conte-me um pouco mais sobre o estudo da nova tarefa de escrita refinada.

A questão básica aqui no estudo que fizemos foi que, quando a tarefa Escrever para uma Discussão Académica foi introduzida, não quisemos alterar a interpretação das pontuações dos testes. Portanto, a ideia é que estamos a mudar a tarefa, mas ainda assim deve suportar os mesmos tipos de inferências sobre a capacidade de alguém.

E nesse caso, é importante olhar para o tipo de evidência que obtemos da tarefa existente naquela altura versus esta nova tarefa. Por isso, recolhemos dados de pessoas que tinham feito ambas as tarefas e depois analisámos as várias características da escrita.

A complexidade sintática foi um ponto de comparação, juntamente com outros que mencionaste, precisão gramatical, uso do vocabulário, coesão, marcadores de discurso, esse tipo de coisas.

Posso perguntar mais uma frase? Variedade lexical. O que é que isso significa?

É vocabulário. Ou a variedade de vocabulário, especificamente. E a razão pela qual olhamos para isso é que não se trata apenas de usar muitas palavras diferentes ou palavras grandes. Trata-se de precisão. Se tiver mais palavras no seu saco de palavras, isso permite-lhe ser mais preciso a comunicar os seus significados.

Percebido! Larry, obrigado pela análise dos bastidores de como desenhamos uma parte do nosso teste. Tenho um filho que está a aprender a escrever e, para mim, é um milagre que eu não compreenda. Mas Larry, ajudaste a desmistificar o processo de medir a escrita em inglês. Muito grato pelo vosso tempo.

Foi um verdadeiro prazer conversar, John – e sempre feliz por falar sobre como a salsicha é feita, por assim dizer.

Sim, bem, e a propósito de jantar, vamos falar de salmão em breve também.

Parece ótimo.

Construir uma Medida Razoável de Competências de Escrita em Inglês: Uma Conversa com Larry Davis

Relacionado