Análise: o experimento de verificação de fatos de crowdsourcing do Twitter revela problemas

Análise

Uma análise do Poynter descobriu que menos da metade dos usuários do Birdwatch incluem fontes e muitas notas de verificação de fatos contêm retórica partidária.

Uma versão de 14 de fevereiro do algoritmo Birdwatch do Twitter amplificou algumas notas com informações enganosas.

Em 5 de fevereiro, o Twitter sinalizou uma postagem do controverso YouTuber Tim Pool que disse que a eleição presidencial dos EUA de 2020 foi fraudada. A plataforma observou que a reivindicação foi contestada e desativou o engajamento “devido ao risco de violência”.

Mas, em Observação de pássaros , a plataforma de mídia social experiência em verificação de fatos crowdsourced , os usuários disseram que o tweet não era enganoso, de acordo com uma análise de 14 de fevereiro dos dados do Twitter. E a maioria dos usuários do Birdwatch indicou na ferramenta que achou essas notas que apoiavam as reivindicações desmascaradas úteis e informativas.

“De acordo com a fonte oficial (sic) da TIME, havia um grupo bem organizado de participantes secretos em uma organização paralela que soa como uma cabala que trabalhou em conjunto para influenciar a eleição em favor de Joe Biden”, diz uma nota. Enquanto o usuário inclui um link para um artigo da revista Time que de fato usa palavras como “cabala” e “conspiração”, o contexto da peça – que grupos poderosos estavam trabalhando nos bastidores para proteger a integridade eleitoral – está perdido.

O Algoritmo de observação de pássaros , que visa apresentar notas úteis, atribuiu a essa 'verificação de fatos' uma pontuação de utilidade de 0,68 - a mais alta das notas no tweet, fora dos 10% principais das notas consideradas pelo algoritmo 'classificadas como úteis' a partir de 14 de fevereiro. As notas úteis representaram cerca de 7% das 2.695 nesta análise e menos de dois terços delas contêm um link de fonte que não é outro tweet.

Em 17 de fevereiro, Twitter alterou seu algoritmo e as notas no tweet do Pool não são mais classificadas como úteis, embora ainda estão listados abaixo do post . Antes dessa mudança, havia um limite mais baixo para ser considerado útil - apenas 0,5 em comparação com o novo corte de 0,84 - e as notas precisavam apenas de três classificações para serem consideradas úteis, priorizadas em ordem e marcadas com uma nota azul.

Agora, uma nota deve acumular cinco classificações para empurrar esse tweet para o nova guia “avaliado útil” no Birdwatch . E dessas quase 2.700 notas no banco de dados da plataforma, 126 atingiram o novo limite – menos de 5%. Três quartos das novas notas “avaliadas úteis” continham uma fonte fora do Twitter.

É uma ilustração oportuna de um dos problemas enfrentados pelo modelo Birdwatch: um algoritmo alimentado por um grupo aparentemente aleatório de pessoas pode “classificar” com precisão a verdade?

Birdwatch, em sua fase piloto com pouco mais de 1.000 usuários, permite que os participantes sinalizem tweets como enganosos e adicionem uma nota que cite uma fonte e/ou explique o contexto de por que pode ser enganoso. Em seguida, os usuários do Birdwatch podem classificar essas notas com base na utilidade (depois disso, o algoritmo assume).

Eventualmente, todos os usuários do Twitter serão ostensivamente capazes de ver essas notas logo abaixo dos tweets, mas por enquanto, eles estão confinados a uma seção específica do site . Os usuários do Birdwatch também criarão uma pontuação de reputação que alimentará o algoritmo de utilidade.

“Nosso objetivo com o piloto do Birdwatch é construir um sistema no qual qualquer pessoa possa contribuir, e isso naturalmente eleva as informações que as pessoas consideram úteis”, disse o vice-presidente de produto do Twitter, Keith Coleman, por e-mail. “Acreditamos que a abertura sobre quem pode contribuir é importante e que, por meio de contribuições de um grupo diversificado, as notas mais úteis podem ser elevadas.”

Mas, uma olhada no sistema como está agora revela os desafios que os verificadores de fatos levantaram sobre o Birdwatch: a falta de experiência em verificação de fatos entre os usuários, a dificuldade de criar um algoritmo que de alguma forma mostrará as notas úteis dos usuários mais respeitáveis ​​e perguntas sobre as motivações partidárias dos usuários.

“Não estou surpreso com essas descobertas, dada a natureza polarizada das plataformas de mídia social e a hesitação dos usuários comuns em fornecer feedback a essas perguntas oferecidas pelas plataformas, enquanto usuários motivados de ambos os lados do corredor veem as plataformas como campos de batalha para promover suas narrativas sobre outros”, disse Baybars Örsek, diretor da International Fact-Checking Network.

A maioria das notas dos usuários mais prolíficos do Birdwatch marcam os tweets críticos da direita como “enganosos” e os críticos da esquerda como “não enganosos”. (Por exemplo, o usuário marcou um tweet que diz “ Team Biden é suave com a China ” do senador Ted Cruz e do tweet de Pool como “não enganoso”; enquanto um artigo da Newsweek sobre extremistas de extrema direita e a saga GameStop e um tweet vinculando o presidente Donald Trump ao motim do Capitólio foram marcados como 'enganosos' e 'prejudiciais'.) E menos de um quinto das 82 notas do usuário incluem uma fonte, várias das quais são outros tweets. (Este usuário do Birdwatch não respondeu a um pedido de entrevista.)

Coleman disse que o Birdwatch pode ser incentivado a considerar as notas que vêm de um “conjunto diversificado de colaboradores”. Além disso, o sistema de classificação é o principal motor por trás da plataforma

“Acreditamos que isso recompensará e incentivará contribuições que muitas pessoas consideram valiosas e abordará o risco de um grupo ou ideologia específica assumir o controle da Birdwatch”, disse Coleman. “Isso é algo em que estaremos trabalhando ativamente durante todo o piloto.”

E, de fato, as notas que o algoritmo classificou como as mais úteis após as mudanças de 17 de fevereiro mostram fontes mais sólidas e menos retórica partidária do que a iteração de apenas um dia antes. Mas, alterar um algoritmo para um programa piloto com 1.000 usuários e menos de 2.700 notas é uma coisa, alterar um algoritmo quando o Birdwatch estiver disponível para todos os usuários é outra – e quem sabe se a eficácia do algoritmo se manterá quando os usuários começarem a despejar na plataforma, talvez replicando o comportamento de alguns dos participantes pilotos mais prolíficos.

“Atualmente, não temos um cronograma específico para dimensionamento, pois estamos trabalhando para aprender o máximo possível e iterar enquanto o piloto é pequeno”, disse Coleman. “Planejamos expandir conforme formos capazes de fazê-lo com segurança e quando isso puder ajudar a melhorar o aprendizado.”

Ainda assim, como com as notas no tweet do Pool, há exemplos de partidário ou informação enganosa ainda visíveis como notas regulares.

Quatro dos cinco usuários mais ativos, que respondem por mais de 10% das notas gerais, têm atividade semelhante à do usuário mais prolífico. Um deles afirma que a morte de Jeffrey Epstein nunca foi considerada suicídio. No entanto, o segundo Birdwatcher mais prolífico cita uma fonte em cada nota, incluindo links da Organização Mundial da Saúde e FactCheck.org .

Nenhum dos 10 principais usuários, de acordo com suas biografias no Twitter, são verificadores de fatos profissionais ou jornalistas.

“A verificação de fatos é realmente um trabalho árduo, pois exige mentalmente”, disse a editora-chefe do PolitiFact, Angie Holan, em um e-mail. “Você realmente precisa se concentrar e superar a inércia mental para identificar as alegações e, em seguida, pensar em meios de desmascará-las ou verificá-las. Então você tem que prosseguir com a pesquisa e, em seguida, escrever as descobertas. Não é um dia na praia, para ser franco. E se um verificador de fatos tem uma motivação partidária, isso torna um esforço completo e imparcial ainda mais difícil.”

Apesar de seus problemas, o Birdwatch sinaliza desinformação que os verificadores de fatos tradicionais podem perder ou optar por não verificar devido ao potencial de danos – o que pode ajudar a preencher algumas lacunas na desinformação digital. Durante o saga da parada do jogo , a desinformação sobre as ações dessa empresa se espalhou rapidamente pelas plataformas.

Snopes e PolitiFact não avaliou reclamações sobre GameStop, enquanto Histórias de leads classificadas uma postagem no Reddit. Mas no Birdwatch, a nota mais bem avaliada - obtendo uma pontuação de utilidade de 1,00 - sinalizou um tweet enganoso sobre o Reddit, onde a conversa sobre o estoque estava ocorrendo. Havia cerca de 50 notas sobre Reddit, GameStop e o aplicativo de investimento Robinhood, no qual um alto volume de negociações aconteceu no início deste mês.

E os usuários do Birdwatch sinalizaram corretamente uma conta que afirma pertencer à senadora de Virginia Amanda Chase como falsa, depois dela tuitou , “… Temos um problema com drogas na Virgínia, e a legalização da maconha só levará a mais overdoses e mortes de maconha…”

O crowdsourcing pode facilitar a vida dos verificadores de fatos profissionais ao detectar informações erradas, disse Örsek.

Coleman disse que o Twitter está comprometido em manter a transparência – o que possibilitou essa análise – e incorporar informações de especialistas sobre o futuro da plataforma.

“De trabalhar com um membro da equipe incorporado da Centro da Universidade de Chicago para RISC , para realizar sessões de feedback com repórteres e pesquisadores, estamos trabalhando para aproveitar a vasta experiência e conhecimento que existe além do Twitter”, disse ele.

Holan e Örsek recomendam incentivos e treinamento para usuários do Birdwatch, além de empregar verificadores de fatos profissionais para avaliar notas de alto nível.

“Mas duvido muito de empresas de tecnologia que acreditam que seus usuários moderarão conteúdo gratuitamente para eles”, disse Holan. “A maioria dos usuários não vê como seu trabalho ajudar as plataformas a administrar seus próprios negócios.”