Como avaliamos grandes modelos de linguagem?

Não é tão fácil como possas pensar.

Grandes modelos de linguagem (LLMs), como o ChatGPT da OpenAI e o Llama da Meta, têm vindo a transformar as nossas vidas há já algum tempo. No entanto, com tantos modelos para escolher, muitas pessoas questionam-se qual é o modelo "o melhor". Para responder a esta questão, tanto investigadores como utilizadores recorrem frequentemente a benchmarks e testes para ver qual dos modelos resolveu os problemas de programação mais difíceis ou obteve a pontuação mais alta no SAT. Neste artigo, vou argumentar três pontos.

Nem os benchmarks nem os testes tradicionais são adequados para avaliar as capacidades dos LLMs modernos.
Os LLMs que exibem capacidades semelhantes às humanas sem possuir inteligência e cognição semelhantes às humanas acrescentam dimensões totalmente novas ao campo da psicometria.
Será necessária uma investigação substancial para chegar a avaliações de LLM cujos resultados possam ser interpretados com confiança.

Referências

Tradicionalmente, os benchmarks têm sido usados para avaliar o desempenho de software e hardware. Um benchmark avalia o desempenho de uma ferramenta ao fazê-la completar um conjunto de tarefas para as quais foi especificamente concebida. Um classificador de imagens é avaliado ao fazer com que ele classifique uma seleção de imagens, e um processador de computador é avaliado ao executar uma série de cálculos complexos.

Quando se trata de LLMs, o benchmarking não é simples. Em primeiro lugar, os LLMs não são treinados para nenhuma tarefa específica: podem ser usados para classificação de texto, mas não são classificadores de texto; podem ser usados para pontuar ensaios, mas não são avaliadores automáticos – e assim sucessivamente. Portanto, qualquer resultado de benchmark depende não só de qual LLM foi utilizado, mas também de como foi utilizado. Esta ambiguidade prejudica a credibilidade dos resultados e muitas vezes leva a debates, por exemplo, sobre se um enunciado diferente teria levado a resultados diferentes.

Outros dois problemas comuns com benchmarks são a saturação, que significa que todos os modelos recentes estão a aproximar-se das pontuações perfeitas, e a contaminação, que significa que alguns ou todos os elementos de um benchmark estão incluídos nos dados de treino do modelo. Ambos os problemas são particularmente agudos no caso dos LLMs porque o seu progresso é rápido e os seus dados de treino contêm praticamente toda a internet.

Devido a estas e outras questões, muitos benchmarks de LLM oferecem valor limitado na avaliação da qualidade global de um LLM. Esta limitação motivou iniciativas para comparar os benchmarks de acordo com vários critérios de qualidade. Estes esforços visam estabelecer um conjunto de benchmarks de alta qualidade que compreendem conjuntos de problemas cuidadosamente elaborados, monitorizados quanto à saturação e contaminação, e atualizados ou recalibrados se necessário. Neste sentido, os benchmarks estão a aproximar-se dos testes tradicionais, onde tais práticas são comuns desde o início. No entanto, a transição do benchmarking para testar IA traz os seus próprios desafios.

Testes

Praticamente toda a gente já foi testada em algum momento da vida, seja para admissão universitária, licença profissional ou carta de condução. Estes testes são marcadamente diferentes dos benchmarks. Mais importante ainda, a capacidade ou conhecimento avaliado por um teste é demasiado complexa para ser medida diretamente. Por exemplo, a preparação de um estudante para a universidade não pode ser testada permitindo-lhe frequentar uma seleção de programas de licenciatura. Por isso, os testes precisam de ser cuidadosamente desenhados para serem válidos.

Considere dois tipos comuns de evidência de validade: preditiva e relacionada com o conteúdo. A evidência preditiva da validade de um teste pode ser estabelecida pelo grau em que a sua pontuação prevê resultados e desempenhos observáveis importantes. Por exemplo, as pontuações do SAT correlacionam-se bem com várias medidas de sucesso académico. Evidências relacionadas com o conteúdo sugerem que o teste reflete a capacidade a ser testada. Por exemplo, uma questão de álgebra num contexto de ténis não deve exigir conhecimento das regras do ténis, nem deve ser respondida apenas pelo conhecimento das regras do ténis.

Questões de validade surgem inevitavelmente quando deixamos que LLMs façam testes concebidos para humanos. Veja-se a prova preditiva: Um LLM pode obter nota máxima no SAT, mas não se inscreverá na universidade; pode passar no exame da ordem com distinção, mas não representará clientes em tribunal — pelo menos no futuro próximo. Problemas semelhantes surgem com provas relacionadas com conteúdo. Se um humano obtém uma pontuação elevada num teste de álgebra, pode-se inferir que compreende e é capaz de aplicar as leis da álgebra analisadas pelos itens do teste. Em contraste, a questão de como os LLMs resolvem problemas de álgebra e se realmente aprendem leis generalizáveis continua largamente sem resposta. Normalmente, quanto mais complexo o conceito em teste, mais especulativa se torna a interpretação da pontuação de um teste de LLM: Um LLM com uma pontuação elevada num exame de licença médica demonstra realmente conhecimento de medicina clínica ou capacidades de gestão de doentes?

No entanto, com mais tarefas e responsabilidades a serem delegadas aos LLMs, estamos a assistir ao surgimento de testes iniciais concebidos especificamente para LLMs. Por exemplo, uma empresa que utiliza um LLM para o seu serviço de apoio ao cliente precisa de testar um novo modelo antes de o implementar. Embora estes testes possam começar como uma coleção de benchmarks e verificações de sanidade, com o tempo tendem a tornar-se mais estruturados e a incluir itens mais sofisticados que captam aspetos importantes de desafios que modelos anteriores enfrentaram e possivelmente mal geridos. Consequentemente, o teste tornar-se-á um indicador cada vez mais informativo da capacidade de um modelo para satisfazer as necessidades de serviço ao cliente da empresa.

Embora tais "proto-testes" sejam úteis, são frequentemente proprietários, limitados em âmbito e motivados por necessidades operacionais em vez de investigação científica.

Desafios de Investigação

Como argumentado acima, a inteligência não humana distinta dos LLMs invalida muitas das suposições que sustentam a teoria dos testes e a psicometria. Serão necessários esforços de investigação significativos para estabelecer quais os testes apropriados para os LLMs e quais as interpretações dos resultados dos testes que podem ser apoiadas por experiências cientificamente sólidas.

Além disso, grandes redes treinadas do zero com conjuntos de dados enormes dificilmente continuarão a ser os únicos sistemas com capacidades semelhantes às humanas. Por exemplo, as Arquiteturas Preditivas de Incorporação Conjunta (JEPAs) aprendem de forma mais humana ao observar e interagir diretamente com os seus ambientes, enquanto as IAs neurosimbólicas focam-se no raciocínio simbólico e na representação explícita do conhecimento. Assim, os investigadores poderão em breve deparar-se com uma multiplicidade de tipos diferentes de inteligência que dão origem às mesmas capacidades.

Isto levanta questões fundamentais: Podemos definir construtos independentemente do tipo subjacente de inteligência? É, por exemplo, a capacidade de "pensar criticamente" a mesma para humanos e vários tipos de IA? Se sim, como devemos medi-la ? Cada tipo de inteligência exigirá o seu próprio teste? Por exemplo, um teste de pensamento crítico pode explicar os diferentes graus de literacia dos candidatos, mas provavelmente assumirá que todos conseguem contar e conhecer as direções cardeais. Para os LLMs, é o contrário: são altamente alfabetizados por design, mas podem carecer de competências básicas. Enquanto tais diferenças não forem tidas em conta, os resultados dos testes LLM continuarão sujeitos a interpretações erradas.

Finalmente, pode haver uma fertilização cruzada interessante entre testes de IA e áreas mais estabelecidas da psicometria. Por exemplo, fatores como idade, género, cultura e educação, para além de perturbações neurológicas, demonstraram impactar processos cognitivos em indivíduos. Neste contexto, uma IA pode ser vista como um caso extremo de inteligência neurodivergente. Uma melhor compreensão deste caso extremo poderia abrir caminho para avaliações mais personalizadas, justas e objetivas, permitindo que aprendentes com traços cognitivos únicos demonstrem todo o espectro das suas competências.

Em conclusão, embora a avaliação dos LLMs seja um desafio considerável, os meus colegas investigadores da ETS e eu estamos entusiasmados com a oportunidade de ultrapassar limites e melhorar as técnicas da psicometria moderna.

Michael Fauss é cientista investigador no Instituto de Investigação ETS. O seu trabalho foca-se em IA ética.

{"teaserCardGridModuleHeader":"O Insight Impulsiona o Progresso","teaserCardGridModuleDescription":"Descubra a investigação, histórias e ideias que impulsionam a educação, o trabalho e o potencial humano.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"Descubra IA na ETS","teaserCardDescription":"Saiba mais sobre a nossa visão, princípios e soluções de IA – e como estamos a capacitar a nossa força de trabalho com competências reais em IA.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"Imagem 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"Relatório de Progresso Humano","teaserCardDescription":"Veja como a missão da ETS ganha vida através das pessoas e do impacto. Estas são histórias de transformação, oportunidade e progresso em ação.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"Imagem 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}