Jornalismo de dados

A metodologia por detrás do Dating eleitoral de 2024

São precisos muitos cálculos para fazer o Dating eleitoral, que relaciona as mais de 5 mil medidas dos programas políticos e a compatibilidade do leitor. Conheça a metodologia usada.

Rui Barros,

José Volta e Pinto e

Ana Maria Henriques

1 de Março de 2024, 16:36

PÚBLICO

Ouça este artigo

00:00

04:16

Exclusivo Gostaria de Ouvir? Assine já

Esta ferramenta foi concebida não para ajudar a definir o sentido de voto, mas sim para avaliar a potencial compatibilidade do inquirido com os programas eleitorais para as eleições legislativas de 10 de Março dos partidos que elegeram deputados em 2022 (AD incluída, devido ao PSD). Pretende ser um ponto de partida para conhecer melhor as propostas dos partidos, não dispensando a consulta dos programas eleitorais na íntegra.

Para chegar ao Dating Eleitoral, o PÚBLICO recorreu à ajuda de inteligência artificial em dois momentos distintos deste trabalho. Procurou-se sempre garantir que esta utilização não introduzisse nenhum viés ideológico através de uma verificação por parte do PÚBLICO das tarefas executadas com recurso a estas ferramentas.

Numa primeira fase, recorreu-se à base de dados Manifesto Corpus, um projecto que recolheu e catalogou milhares de manifestos e programas eleitorais de todo o mundo. Foi com base nesta colecção que um grupo de cientistas de dados treinou o grande modelo de linguagem (LLM) RoBERTa para classificar textos políticos em 56 categorias diferentes. A partir daqui, e depois de divididos os oito programas eleitorais em pequenos excertos de texto, foi possível identificar as matrizes definidoras de cada um deles, assim como definir que partidos abordavam mais determinado tema do que os restantes.

A segunda instância em que se recorreu a inteligência artificial foi na análise dos programas eleitorais para deles se extraírem as medidas propostas. Para isso, o PÚBLICO delineou instruções claras e precisas para que o modelo de última geração da OpenAI (GPT-4 Turbo) analisasse cada excerto, tendo ainda em consideração o contexto da frase anterior e da frase seguinte.

As medidas políticas identificadas foram depois verificadas manualmente, de forma a detectar erros de interpretação ou avaliações erradas do modelo. Foram também combinadas medidas iguais de diferentes partidos, tendo-se recorrido aos embeddings de texto criados pela OpenAI para fazer esta comparação. Este método, embora com bons resultados, não permitiu encontrar todos os pares de propostas, pelo que a base de dados conta com algumas medidas iguais de diferentes partidos. Nesses casos, concordar com a medida apenas contará totalmente para o cálculo da compatibilidade com o partido a que o texto da medida exibida corresponde.

As propostas dos partidos foram depois sujeitas a uma nova avaliação com recurso ao modelo da OpenAI GPT-3.5 Turbo para estabelecer uma classificação de interesse de cada medida dentro de um determinado aglomerado temático de medidas. Para o efeito, as mais de cinco mil medidas foram divididas em 200 aglomerados. Esta classificação foi depois usada para ponderar probabilidades, sendo atribuídos valores mais altos para as medidas que foram definidas como mais interessantes.

A selecção da ordem das medidas segue, assim, um modelo que combina cálculo combinatório com critérios de relevância e distintividade das medidas. Numa fase inicial do questionário, há uma maior probabilidade de saírem ao utilizador algumas das medidas principais ou mais distintivas dos partidos, identificadas previamente pelo PÚBLICO. Estas são sempre intercaladas com outras retiradas do resto da base de dados de milhares de propostas eleitorais.

O cálculo da compatibilidade está dividido em duas partes. Uma metade consiste numa correlação de Spearman entre as matrizes positivas e negativas (para o sim e para o não, respectivamente) do utilizador com as de cada um dos partidos. Para a obtenção de cada uma destas oito, consideraram-se as 56 categorias políticas e a frequência de cada uma delas num dado programa eleitoral em comparação com a frequência nos programas dos outros partidos. A outra metade do cálculo considera o número de medidas para os diferentes partidos com que o utilizador concordou e de que discordou. Ambos os valores são finalmente normalizados para um intervalo entre -1 e 1, antes do cálculo final para definir a compatibilidade do utilizador com os oito programas eleitorais.

Instruções dadas ao ChatGPT

Instruções: Analise o excerto do programa eleitoral para as eleições de 10 de Março de 2024 em Portugal. Identifique se contém uma promessa política específica, clara e accionável. As medidas válidas devem propor mudanças quantificáveis ou planos de implementação específicos. Evite considerar declarações vagas ou retórica geral.

Resposta: Se identificar uma promessa política, apresente-a de forma clara e concisa. Evite frases muito longas com explicações extremamente detalhadas. Evite linguagem técnica ou formal. Mantenha a neutralidade e objectividade. Se não identificar uma promessa política, escreva '00'. O objectivo é que um leitor de um jornal possa ler a medida rapidamente, entender o que defende, e poder responder imediatamente 'concordo' ou 'discordo'.

Linguagem: Siga o Acordo Ortográfico de 1945, utilizando linguagem simples e acessível. Seja bastante conciso e evite frases muito longas. Evite linguagem técnica ou formal. Mantenha a neutralidade e objectividade.

Contexto: Inclua o texto anterior e posterior ao excerto para melhor entendimento do contexto. Se, no contexto, contiver uma medida, mas o 'Excerto do programa eleitoral' não, escreva '00'. O contexto será dado em 'Texto anterior:' e 'Texto seguinte:'.

Exemplo de medida: 'Implementar um controlo de rendas com valores máximos inferiores aos actuais, considerando factores como a área do imóvel, qualidade, certificação energética, localização e tipologia.'

Exemplo de não-medida: 'Melhorar a qualidade de vida dos cidadãos' (demasiado genérico).

Texto anterior: {pre}

Texto seguinte: {pos}

Excerto do programa eleitoral: {sentence}

Medida política identificada:

O PÚBLICO procurou garantir um equilíbrio entre partidos no algoritmo, para que o número de posições aferidas fosse o mais semelhante possível entre todos – isto, até se esgotarem as medidas de um dos partidos.

Foram ainda acrescentadas duas novas funcionalidades: uma para penalizar medidas de que o utilizador possa discordar com maior veemência e outra para valorizar medidas que o utilizador considere mais relevantes na procura de compatibilidade. As Linhas Vermelhas eliminam da contenção o partido associado à medida vetada, enquanto o Super Voto dá um peso quatro vezes superior à medida escolhida com esta funcionalidade.

Comentários

Últimas publicações

Tópicos disponíveis

Escolha um dos seguintes tópicos para criar um grupo no Fórum Público.

Ao criar um novo grupo de discussão, tornar-se-à administrador e será responsável pela moderação desse grupo. Os jornalistas do PÚBLICO poderão sempre intervir.

Saiba mais sobre o Fórum Público.