INVESTIGAÇÃO NO TOEFL

Dentro das Atualizações do TOEFL iBT: Validade por Design

23 de abril de 2026

Durante mais de seis décadas, o TOEFL tem funcionado como uma avaliação importante da proficiência académica em inglês, servindo como um recurso importante para a tomada de decisões nas admissões universitárias, bem como noutros contextos de ensino superior e profissionais.

Desde a criação do exame em 1964, a ETS reviu o TOEFL em várias ocasiões para refletir o pensamento atualizado no ensino e avaliação de línguas, avanços na ciência da medição e necessidades sociais em evolução. A versão atual do teste, TOEFL iBT, foi criada em 2005. Em janeiro, a ETS lançou uma versão atualizada do exame.

Esta atualização mantém o mesmo propósito central e baseia-se na longa história do teste TOEFL como uma avaliação válida e fiável baseada em décadas de investigação em medição na ETS. Estamos entusiasmados por partilhar mais sobre a filosofia de design por detrás destas melhorias.

Construir um exame de inglês que produza resultados significativos

Um requisito crítico para todos os testes é que sejam válidos para as alegações e para os usos finais dos seus resultados. Por outras palavras: Os resultados devem ser significativos. A evidência para estas afirmações e utilizações válidas também deve ser variada e suficiente. Quanto mais oportunidades um estudante tiver para demonstrar o que pode fazer numa variedade de tarefas (por exemplo, mais itens de diferentes tipos), maior será a confiança nos resultados (validade).

Em qualquer argumento de validade, é necessária evidência. Esta evidência refere-se à informação que recolhemos sobre o que uma pessoa pode fazer – ou seja, as tarefas do teste e as pontuações atribuídas pelo desempenho nessas tarefas.

Um teste de proficiência em inglês para fins de admissão deve incluir tarefas que: (1) abrangem as quatro competências linguísticas (leitura, escrita, compreensão oral e fala); (2) refletem o uso integrado destas competências típico do estudo universitário (por exemplo, leitura e depois escrita); e (3) incluam características do uso real da língua.

As pontuações produzidas pelo teste devem também ser uma estimativa fiável da capacidade linguística global – com um nível adequado de precisão – e ser consistentemente precisas e precisas ao longo da gama exigida de níveis de proficiência linguística. Para os testes de proficiência linguística, os resultados dos testes devem também refletir com precisão a capacidade de usar a língua para ter sucesso em ambientes académicos diversos.

Nos últimos 20 anos, os ambientes académicos modernos evoluíram para enfatizar novas formas de comunicação, facilitadas por novas tecnologias e modelos pedagógicos. Os estudantes de hoje, por exemplo, devem ser capazes de comunicar com colegas de todo o mundo em ambientes de aprendizagem em grupo, e não apenas absorver passivamente as aulas. Devem também ser capazes de interpretar uma gama mais ampla de textos em inglês.

Para medir as competências em inglês necessárias para prosperar em ambientes académicos modernos e recolher evidências significativas para resultados válidos, o TOEFL iBT atualizado incorpora uma variedade de tarefas diversas que expandem a nossa coleção de evidências relevantes da capacidade linguística.

Aumentar a Diversidade e o Volume dos Tipos de Tarefas

A atualização do TOEFL iBT adicionou mais tarefas de teste de maior variedade, construindo sobre a base sólida do formato original. O desempenho do candidato ao exame é significativo se estiver alinhado com a capacidade de comunicar num ambiente académico, o que inclui não só ouvir aulas ou ler manuais, mas também envolver-se noutros contextos universitários que contribuem para o sucesso académico.

Um desafio comum para os programadores de testes, no entanto, é que tarefas de teste que imitam de perto atividades do mundo real podem ser inviáveis e demoradas de administrar, fornecendo relativamente pouca informação de medição e evidências relacionadas.

Por exemplo, pode imaginar um teste de escrita que consiste inteiramente num único ensaio escrito de uma hora, pontuado numa escala de 1 a 5. Tal teste pode ser visto como "autêntico", mas oferece uma visão restrita da capacidade linguística do aluno e limita a oportunidade do teste de avaliar todo o espectro das competências do aluno para além do único item.

Qualitativamente, este teste hipotético fornece informação sobre a capacidade de realizar apenas um tipo de escrita. Quantitativamente, produz apenas cinco pontos, o que limita a sua capacidade de discernir de forma fiável diferentes níveis de desempenho. Esta abordagem também é vulnerável a circunstâncias aleatórias; por exemplo, se um escritor capaz tiver dificuldades com o tema do ensaio, as consequências podem ser graves.

Uma abordagem alternativa é utilizar não só mais tarefas, mas também uma diversidade de tarefas, proporcionando uma visão mais ampla da capacidade e maior fiabilidade na medição. Na perseguição deste objetivo, o iBT atualizado do TOEFL inclui tarefas que medem competências linguísticas fundamentais, bem como tarefas académicas modernizadas que permitem uma compreensão mais profunda da capacidade comunicativa.

Como o TOEFL iBT modernizou a sua secção de oratória

A secção de fala do TOEFL iBT mostra esta filosofia de design em ação. Para começar, uma tarefa de fala bem pesquisada, Ouvir e Repetir, avalia a capacidade de compreender uma frase falada e reproduzi-la com precisão. O aluno deve decifrar rapidamente a entrada linguística e depois regenerar com precisão a língua para produzir uma resposta, refletindo o desenvolvimento das suas capacidades linguísticas subjacentes.

Esta tarefa incorpora competências fundamentais necessárias para a comunicação oral (Levelt, 1989). Além disso, indivíduos com um sistema linguístico interno altamente desenvolvido podem reproduzir frases mais longas de forma mais eficiente e precisa, pelo que, ao variar o comprimento das frases, é possível medir de forma eficiente a capacidade linguística geral numa vasta gama de proficiência linguística (Davis & Norris, 2021).

O Listen and Repeat é usado em combinação com uma tarefa de comunicação oral, Take an Interview, onde os alunos participam numa conversa simulada com um entrevistador pré-gravado. A entrevista decorre em várias situações académicas, como participar num estudo de investigação, e os alunos são avaliados num total de quatro perguntas relacionadas com o contexto da entrevista. As perguntas iniciais focam-se em informação factual e experiência pessoal, enquanto as perguntas posteriores pedem aos alunos que expressem e apoiem opiniões sobre questões mais amplas.

Esta tarefa mede a capacidade do aluno de falar sobre uma variedade de temas, produzindo uma resposta clara e coerente com o apoio e elaboração adequados. A tarefa também mede a capacidade de produzir uma fala inteligível, fluente e que faça uso eficaz de uma variedade de vocabulário e estruturas gramaticais.

Esta combinação de tarefas que visam as capacidades fundamentais (Ouvir e Repetir) e comunicativas (Fazer uma Entrevista) proporciona diversidade na representação de construtos e nas evidências relacionadas sobre a capacidade de linguagem oral dos alunos, mantendo ao mesmo tempo o significado das pontuações para tomar decisões em contextos académicos.

Ligar os Resultados do TOEFL ao Desempenho Académico Real

Independentemente de uma tarefa se focar em competências fundamentais ou comunicativas, o significado exige que o desempenho na tarefa preveja o desempenho em linguagem real adequado para o sucesso académico. Caso contrário, atribuir uma pontuação num teste seria um exercício inútil.

Para as tarefas de Ouvir e Repetir e Entrevista Virtual , uma investigação recente na Universidade do Havai em Manoa concluiu que as pontuações nestas tarefas estavam fortemente correlacionadas com o desempenho noutros tipos de tarefas de linguagem comunicativa atribuídas em sala de aula.

Estes investigadores encontraram correlações de 0,84 entre as pontuações na tarefa Ouvir e Repetir e em cada uma das duas tarefas comunicativas da sala de aula, e 0,83-0,85 na tarefa de Entrevista Virtual . Estes resultados sugerem que ambas as tarefas do iBT atualizado do TOEFL são excelentes preditoras de desempenho em tipos típicos de fala académica.

Modernização das Secções de Leitura e Escrita do TOEFL iBT

A ETS implementou uma estratégia semelhante – aumentando a diversidade dos tipos de tarefas e variando as oportunidades para avaliar o desempenho dos alunos – também nas secções de Leitura e Escrita.

Na nova tarefa adicionada da secção de Leitura, Completar as Palavras, a segunda metade de cada segunda palavra dentro de uma passagem de leitura é eliminada. Os alunos são obrigados a preencher as letras em falta para recriar as palavras originais e criar um texto coerente.

Esta tarefa – vulgarmente conhecida como teste C – fornece de forma eficiente informação sobre a capacidade de processar e compreender texto – bem como conhecimento de vocabulário, sintaxe e ortografia. Para complementar esta tarefa, tarefas mais tradicionais de compreensão de leitura, como Ler uma Passagem Académica, fornecem uma visão sobre a capacidade de obter informação e compreender significados, como é típico no estudo académico.

Na secção de Escrita, a tarefa Escrever para uma Discussão Académica avalia os aspetos comunicativos das competências de literacia. Esta tarefa ocorre no contexto de uma discussão contínua em aula sobre uma questão colocada pelo instrutor do curso. O aluno acrescenta as suas próprias opiniões, apoiadas por raciocínio, conhecimento ou experiência relevantes. Pode também responder às contribuições dos colegas.

Além disso, Escrever para uma Discussão Académica simula um tipo de escrita que se tornou cada vez mais comum em contextos académicos. Também fornece um contexto para a escrita, que ajuda a clarificar se o escritor consegue escrever adequadamente para um determinado público e situação. Isto contrasta com os testes tradicionais de escrita que utilizam um tema "simples", sem qualquer descrição do público ou das circunstâncias.

Para além destas características inovadoras, a tarefa Escrever para uma Discussão Académica mede também outros aspetos da comunicação escrita bem-sucedida, incluindo coerência e clareza, qualidade da elaboração e alcance e precisão da linguagem.

Em suma: Desenvolver o teste iBT TOEFL atualizado representou um desafio de design intrigante que exigiu construir sobre evidências sólidas de validade, com maior variedade e tarefas adicionais que refletem as rigorosas expectativas e os ambientes académicos diversos das instituições de ensino superior atuais.

Para além do conteúdo e da validade do construto discutidos acima, o teste TOEFL iBT também beneficia de um design adaptativo de testes recentemente implementado, inovações na ciência da medição, melhorias na segurança dos testes e muito mais. Fique atento a este canal para saber mais!

Referências

Davis, L., & Norris, J. (2021). Desenvolvimento de uma tarefa inovadora de imitação provocada para avaliação eficiente da proficiência em inglês (Relatório de Investigação TOEFL nº 96). ETS. https://doi.org/10.1002/ets2.12338

Isbell, D. R., & Crowther, D. (em publicação). Investigação da relevância real de um teste académico de língua inglesa: extrapolação de avaliações subjetivas e características de desempenho linguístico. Testes de Língua.

Levelt, W. J. M. (1989). Falando: Da intenção à articulação. MIT Press.

Pearlman, M. (2008). Finalização do plano do teste. Em C. A. Chapelle, M. K. Enright, & J. M. Jamieson (Eds.), Construindo um argumento de validade para o Teste do Inglês como Língua Estrangeira (pp. 227-258). Routledge.