A Teoria por Trás do Programa TOEIC

Como pode determinar se um teste é adequado para o propósito para o qual foi concebido? Esta questão fundamental da validade é uma preocupação para os desenvolvedores de testes, investigadores e utilizadores de pontuação. Os padrões profissionais passaram a adotar a visão de que os desenvolvedores de testes devem convencer as partes interessadas (ou seja, qualquer pessoa afetada pelo teste) de que o uso pretendido de um teste está devidamente apoiado ou justificado. Esta visão é formalizada na abordagem baseada em argumentos para justificar o uso de testes.

O artigo Articulating and Evaluating Validity Arguments for the TOEIC^® Tests oferece uma introdução acessível à abordagem baseada em argumentos, à sua implementação nos testes TOEIC e aos benefícios percebidos para as partes interessadas.

O artigo começa com uma breve visão geral do argumento do uso de avaliação, uma abordagem proeminente baseada em argumentos para validação. De seguida, descreve o processo utilizado para construir argumentos de validação para testes TOEIC.

Este processo incorporou evidências de várias fontes, incluindo documentação de testes, atividades de monitorização e investigação. Por fim, o artigo apresenta uma visão geral das duas principais formas como os argumentos de validação do TOEIC são utilizados: priorizar a investigação e comunicar com as partes interessadas.

No geral, este processo demonstra como a investigação do TOEIC adota uma abordagem ampla, crítica e rigorosa para apoiar a utilização adequada dos testes TOEIC. Este trabalho pretende também melhorar a literacia de avaliação das partes interessadas, focando-se nas afirmações críticas que todos os desenvolvedores de testes devem apoiar.

Finalidade

A abordagem baseada em argumentos para justificar o uso dos testes pressupõe que os programadores de testes devem convencer as partes interessadas (ou seja, qualquer pessoa afetada pelo teste) de que o uso pretendido do teste está justificado. Para tal, o programador do teste faz afirmações explícitas sobre como as pontuações dos testes devem ser interpretadas e usadas para tomar decisões. Estas alegações são apoiadas ou minadas por evidências que podem incluir documentação do processo de desenvolvimento do teste e/ou investigação em curso. Através da análise das alegações do desenvolvedor do teste e das provas que as sustentam, as partes interessadas podem chegar a uma avaliação global sobre se o uso pretendido do teste é justificado. Esta abordagem é usada para:

Desenvolvimento de Testes de Guias
fornecer orientação para a investigação em curso
servir como ferramenta de responsabilização para diferentes grupos de partes interessadas

Estrutura

Um Argumento de Utilização da Avaliação é "uma estrutura conceptual para orientar o desenvolvimento e a utilização de uma determinada avaliação linguística, incluindo as interpretações e utilizações que fazemos com base na avaliação" (Bachman e Palmer, 2010, 99). A estrutura está estruturada como um conjunto hierárquico de afirmações feitas pelo criador do teste sobre como as pontuações dos testes devem ser interpretadas e usadas para tomar decisões. Assume a seguinte forma geral:

Graphic showing test performance leading to score, leading to score interpretation, leading to decision, leading to consequences

Cada componente na figura acima representa uma afirmação. Ao mais alto nível, o desenvolvedor do teste pode alegar que as consequências que resultam das decisões tomadas com base no teste são benéficas para todos os grupos de partes interessadas (por exemplo, erros de decisão foram minimizados). Isto pressupõe uma afirmação relativamente às decisões que decorrem das interpretações das pontuações — especificamente, que as decisões são equitativas e sensíveis aos valores das instituições relevantes (educativas, sociais, organizacionais, jurídicas). Para justificar interpretações sobre as capacidades dos examinadores com base nas pontuações, o criador do teste faz afirmações sobre a significância, imparcialidade, generalizabilidade, relevância e suficiência das interpretações. Por fim, todas estas afirmações assentam na afirmação fundamental de que as pontuações baseadas no desempenho dos examinadores são consistentes entre formulários de teste, administrações e avaliadores. Assim, cada afirmação numa AUA consiste em:

um resultado do uso do teste (por exemplo, as decisões que decorrem de interpretações sobre as capacidades do examinador)
qualidades desse resultado (por exemplo, decisões sensíveis aos valores e equitativas)

Tanto os decisores como os programadores de testes partilham a responsabilidade de justificar o uso da avaliação. Espera-se que os programadores de testes apresentem evidências que sustentem a afirmação de que as pontuações dos testes são consistentes e que as pontuações podem ser usadas para interpretar as capacidades dos examinadores. Os decisores precisam de demonstrar que as decisões são sensíveis aos valores e equitativas, e que as consequências das decisões são benéficas. Infelizmente, os decisores podem não ter a experiência necessária para fornecer suporte adequado a estas afirmações (por exemplo, documentação da definição de normas, estimativas de erros de decisão). Consequentemente, uma AUA pode ser reforçada através da colaboração entre decisores e programadores de testes. No mínimo, os programadores de testes devem procurar feedback dos decisores para determinar se as alegações sobre as decisões e consequências baseadas no uso dos testes podem ser justificadas.

Utilidade

No seu conjunto, a estrutura de uma AUA fornece uma base para uma justificação abrangente do uso de testes que liga preocupações do mundo real sobre decisões e suas consequências com as preocupações tradicionais dos programadores de testes — fiabilidade e validade. Como uma lista abrangente de alegações, garantias, apoios e refutações, pode ser usada para identificar fraquezas no argumento global para o uso de testes e priorizar projetos de investigação ou desenvolvimento de testes.

Finalmente, como um conjunto hierárquico simples de afirmações (como mostrado na figura acima), um AUA pode ser usado como ferramenta de comunicação que ilustra as questões-chave que determinam qualidades importantes da utilidade de um teste, incluindo justiça, impacto, fiabilidade e validade. As preocupações dos indivíduos e dos grupos de partes interessadas variam, e um dos desafios para a investigação é abordar essas preocupações de forma coerente, ao mesmo tempo que se melhora a literacia de avaliação das partes interessadas. As preocupações podem incluir:

Consistência da pontuação
"Como podes garantir que todos os avaliadores seguem os guias de pontuação?"
A interpretação das pontuações
"Quando calculamos a validade do critério, quem ou qual é o critério?"
As decisões baseadas nestas interpretações
"Quais são as pontuações noutras instituições?"
Consequências do uso de testes
"Como têm sido úteis os testes TOEIC para os candidatos a emprego?"
Uso de teste relacionado com várias destas questões
"Como é que os recrutadores podem saber que as pontuações do TOEIC satisfazem as necessidades do mercado?"

Ao disponibilizar versões de uma AUA orientadas para grupos de partes interessadas específicas, um programador de testes com um programa de investigação forte pode ajudar os intervenientes a encontrar respostas às suas perguntas e a tornar-se consumidores mais sofisticados de produtos de avaliação.

Fornecemos uma descrição de como esta abordagem foi implementada para os testes TOEIC^® Bridge redesenhados no artigo, "Defendendo a qualidade e utilização de uma nova avaliação de proficiência linguística: Argumento de validade para os testes TOEIC Bridge redesenhados." Neste artigo, os investigadores descrevem as evidências que sustentam afirmações específicas sobre consistência de pontuação, a interpretação das pontuações dos testes, decisões baseadas nas pontuações e as consequências do uso do teste. Esta síntese incentiva as partes interessadas a envolverem-se criticamente com as afirmações reais (e evidências) sobre o que um teste mede e como deve ser utilizado. Este nível de envolvimento pode ajudar as partes interessadas a compreender melhor se os testes são adequados para satisfazer as suas necessidades, bem como o seu papel na facilitação da utilização eficaz dos testes.

Bachman, L. F., & Palmer, A. (2010). Avaliação da linguagem na prática. Oxford: Oxford University Press.

Schmidgall, J. (2017). Articulação e avaliação de argumentos de validade para os testes TOEIC^® (Memorando de Investigação n.º RM-13-09). ETS.

Schmidgall, J., Cid, J., Carter Grissom, E., & Li, L. (2021). Defender a qualidade e utilização de uma nova avaliação de proficiência linguística: Argumento de validade para os Testes Ponte^® TOEIC redesenhados (Relatório de Investigação n.º RR-21-20). ETS.

Investigação do TOEIC®

Avanço da avaliação, ensino e aprendizagem da língua inglesa

A Teoria por Trás do Programa TOEIC

Finalidade

Estrutura

Utilidade

Investigação do TOEIC®

Avanço da avaliação, ensino e aprendizagem da língua inglesa

A Teoria por Trás do Programa TOEIC

The Argument-based Approach

The Purpose, Structure and Utility of an Assessment Use Argument (AUA)

Finalidade

Estrutura

Utilidade

Implementations of this Approach for TOEIC Tests

Reference