Correção de artigos na Wikipédia é modelo para criação de algoritmos

Para que servem os algoritmos?

No filme O Jogo da Imitação (The Imitation Game, 2014), inspirado na trajetória do matemático britânico Alan Turing, o protagonista é chamado a decifrar mensagens criptografadas pelos nazistas durante a Segunda Guerra Mundial.

O desafio é entender o funcionamento de um mecanismo desenvolvido pelos alemães, batizado de “Enigma”.

Diante da limitação dos mais brilhantes cérebros humanos para realizar milhões de possíveis combinações, contra a urgência de um conflito bélico, Turing resolve construir uma máquina, programada para fazer análises combinatórias. “Aquilo” nada mais era que o computador.

Desafios contemporâneos

Mais de meio século depois, na declarada “era digital”, o desafio é organizar trilhões de gigabytes de informações, gerados de forma exponencial na World Wide Web.

Há quase 20 anos, a Wikipédia nasceu com a proposta de ser uma enciclopédia colaborativa on-line.

Hoje, reúne mais de 43 milhões de artigos em quase 300 idiomas, o que não é muito, se comparado à imensidão da internet.

Entretanto, o modelo de organização da plataforma inspira a criação de estratégias de machine learning, expressão traduzida como “aprendizagem-máquina” e entendida como inteligência artificial – já imaginada por Turing em meados do século XX.

Pesquisas mineiras sobre o tema

Com base no padrão de avaliação dos textos pelos usuários da Wikipédia, o pesquisador Daniel Hasan Dalip, professor do Centro Federal de Educação Tecnológica de Minas Gerais (Cefet-MG), extraiu 68 indicadores de qualidade das informações, tais como a quantidade de frases grandes, de citações, de links, dentre outros.

Depois de identificar características associadas a um bom texto, ele desenvolveu um sistema capaz de memorizar tais indicadores e extraí-los de um texto comum ou no formato HTML.

Abreviação HTML refere-se à expressão HyperText Markup Language, em inglês, que significa “linguagem de marcação de hipertexto”. Na linguagem de programação, é o formato padrão para criação de páginas on-line e aplicações de internet.

“A escolha pela Wikipédia e por outras enciclopédias colaborativas se deu porque elas já têm, em tese, parâmetros do que é um artigo de boa ou má qualidade. Assim, podemos aprender algo sobre documentos. Na internet aberta, fica mais difícil, pois tudo é muito mais amplo: um texto para uma pessoa pode não ser para outra”, explica Daniel.

Algoritmos e muito mais

Iniciada no Departamento de Ciência da Computação da Universidade Federal de Minas Gerais (DCC/UFMG), a pesquisa se desdobrou em projeto de iniciação científica, em desenvolvimento no Laboratório de Pesquisas Interdisciplinares em Informação Multimídia do Departamento de Computação do Cefet, o Piim-Lab, que conta com apoio financeiro da FAPEMIG.

“No aplicativo que desenvolvemos, posso configurar o que desejo extrair em meu texto. Suponhamos que sejam indicadores de legibilidade. Neste caso, informo um número determinado de caracteres, por exemplo”, descreve Daniel.

Isso significa extrair estatísticas a partir de um texto, ou fazer um resumo textual segundo tais indicadores, processo que ele define como “sumarizar”. Em outras palavras, trata-se de criar uma espécie de planilha a partir do texto.

Uma das possíveis aplicações da ferramenta é aprimorar máquinas de buscas, de forma a otimizar a ordenação dos resultados.

“Ao digitar uma palavra, você quer extrair informações qualificadas sobre ela. Se temos métricas relacionadas à qualidade, para representar determinado documento, é possível colocá-lo em posição acima, numa matriz de produção de buscas”, explica.

“Há vários textos de recomendação de um local: qual é o mais informativo sobre esse lugar? Com o uso dessas métricas, é possível identificar a melhor crítica”, ilustra.

O mesmo raciocínio poderia ser aplicado a um fórum de perguntas e respostas, para eleger o texto que melhor responde a certa questão.

No atual estágio do projeto, os pesquisadores têm uma ferramenta útil ao desenvolvimento de algoritmos, mas ainda pouco amigável para o usuário comum, sem experiência em programação.

“O software é um bom exemplo de como podemos melhorar a reprodutibilidade da pesquisa, para subsidiar estudos que envolvam outras modalidades, como o áudio e o vídeo”, antecipa o professor.

Leia a reportagem completa na Minas Faz Ciência nº 75.

Wikipédia e qualidade do texto

A Wikipédia se apresenta como “a enciclopédia livre, que qualquer um pode editar”.

Além da edição dos artigos, os usuários podem desempenhar várias outras funções, como corrigir erros ortográficos, pôr imagens, denunciar vandalismos e violações de direitos autorais, reportar bugs e, até mesmo, usar robôs para fazer tarefas repetitivas.

Ao acessar um artigo da Wikipédia e abrir a aba “Discussão”, é possível verificar a classificação de qualidade do texto, feita por comunidades virtuais, numa escala de 1 a 5, além de saber quantas vezes o documento foi editado, para, assim, avaliar o nível de confiabilidade do material.

A pesquisa revela que um artigo editado por usuários mais frequentes à enciclopédia colaborativa tende a ser mais confiável. O mesmo ocorre em relação a textos com maior número de citações.

Compartilhe nas redes sociais
0Shares
Tags: , ,

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *