Tecnologias de assistentes de voz avançam em meio a desafios

Aparelho Amazon Echo se conecta ao serviço Alexa. Foto: Andres Urena/ Unsplash

Elas estão dentro das casas, nos celulares e computadores. Respondem perguntas, narram notícias, cumprem ordens, soltam frases bem-humoradas e ajudam, divertem ou irritam (muito!) seus proprietários. Trata-se das assistentes de voz Cortana, Alexa, Google, Siri etc. Por trás desses dispositivos de Processamento de Linguagem Natural (PLN), Compreensão de Linguagem Natural (CLN) e reconhecimento de voz, há tecnologias complexas, debates éticos, questionamentos jurídicos e inúmeras expectativas em relação ao que está por vir.

O salto na popularidade dos assistentes de voz aconteceu com a Siri, da Apple, lançada em 2011. Quase 50 anos antes, na Feira Mundial de Seattle, a IBM apresentou um aparelho chamado Shoebox. Do tamanho de uma caixa de sapatos, o dispositivo conseguia reconhecer 16 palavras e os dígitos numéricos de zero a nove. No início dos anos 1990, grandes organizações, como Apple e IBM, começaram a criar aparatos baseados na tecnologia. Foi no início dos anos 2000, porém, que Google Voice Search e a mencionada Apple Siri elevaram a popularidade de nossa relação com máquinas calcadas na fala.

Segundo os grupos de desenvolvimento tecnológico do Google, tal conexão se baseia em três etapas principais: fala para texto; texto para intenção; intenção para ação. A primeira delas converte a voz em palavras, como entrada de informação em processadores, computadores ou smartphones. O software divide a fala em pequenas unidades (fonemas), para permitir a compreensão, pelo aparelho, daquilo que está sendo dito em formato de som.

A segunda etapa (texto para intenção) interpreta o significado da fala do usuário segundo o contexto. Quando solicitamos “informações sobre Minas Gerais”, por exemplo, o software usa os mecanismos de busca online para identificar e classificar possíveis respostas. Por fim a última da “intenção para ação” procura atender à solicitação e responder ao usuário.

Este princípio básico tem utilização em diversas áreas, como Turismo, Medicina, Educação, comércio eletrônico e finanças, dentre outros.

Desafios

Para que os avanços aconteçam e se tornem escalonáveis, porém, executivos do Alexa e do Google Assistant ressaltam a importância de investir em experiências não supervisionadas de Inteligência Artificial. Isso significa permitir autoaprendizagem das máquinas, a partir da interação das pessoas com os dispositivos de voz, na expectativa de que as conversações sejam cada vez mais humanizadas.

Entretanto, é justamente a tentativa de fazer com que os assistentes pessoais pareçam humanos que pode exacerbar seus comportamentos enviesados, conforme alerta Renato Rocha Souza, professor colaborador da Escola de Ciência da Informação da Universidade Federal de Minas Gerais (UFMG): “Estes vieses estão diretamente relacionados aos dados usados para alimentar algoritmos preditivos, sendo inerentes a toda a produção textual da sociedade, e invadem os campos da Ética e da Filosofia”.

Uma face do problema está na forma como os algoritmos, por detrás dos robôs, aprendem. Segundo Renato Souza, “os vieses que observamos em programas e aplicativos são inerentes às desigualdades sociais e clivagens tendenciosas presentes nos dados que produzimos, em nossos contextos e tecidos sociais”.

Prova disso está no amplo debate em torno das relações raciais e de gênero estabelecidas entre humanos e máquinas. Um destes desvios é a ausência do reconhecimento de vozes e modos específicos de fala das minorias. No início deste ano, pesquisadores afiliados à Universidade de Georgetown e à Universidade de Stanford descobriram que os sistemas raciais de detecção automática de fala de empresas como Amazon e Google funcionam melhor para usuários brancos do que negros.

Além disso, em 2019, a Organização das Nações Unidas para a Educação, a Ciência e a Cultura (Unesco) publicou estudo no qual aponta os altos índices de preconceito na relação de homens com vozes femininas, já que a grande maioria das assistentes virtuais têm nomes tipicamente dados a mulheres: Alexa, Siri, Lu, Nat, Bia, dentre outros. No entanto, 90% da força de trabalho envolvida na criação dessas tecnologias é composta por homens. Ou seja: são eles que programam o que elas falam aos usuários. Ainda segundo o documento, muitos usuários — sobretudo, do sexo masculino — apresentam comportamento agressivo e discriminatório frente a essas inteligências artificiais, principalmente, por causa de seu gênero.

Em Minas Gerais, o Grupo de Estudos em Direito e Tecnologia da Faculdade de Direito da UFMG (DTec UFMG) defende medidas de regulação do desenvolvimento e do uso de mecanismos de inteligência artificial, a fim de evitar o uso indevido de dados pessoais e a discriminação algorítmica, que podem perpetuar e agravar desigualdades sociais, não apenas raciais e de gênero, mas, também, socioeconômicas.

Rômulo Soares Valentini, pesquisador do Centro de pesquisa Direito, Tecnologia e Inovação (DTIBR) e membro fundador do Instituto Direito e Inteligência Artificial (Idea), considera fundamental “promover a educação para a compreensão do funcionamento e o uso crítico e consciente dos dispositivos tecnológicos, cada vez mais presentes em nossas vidas”. Ele defende que “devemos parar de ser meros consumidores de tecnologia e passar a ser críticos e desenvolvedores dessas ferramentas, de modo a garantir que possamos aproveitar as potencialidades tecnológicas e minimizar os riscos gerados pelo desenvolvimento de tecnologias nocivas e pelo mau uso das já existentes”.

Neste sentido, Sidney Rocha, engenheiro eletricista, advogado e mestrando em Direito Penal pela PUC Minas, ressalta que as tecnologias características da chamada “sociedade 4.0” são um desafio, assim como uma oportunidade, se corretamente abordadas. Para ele, alguns usos positivos e socialmente relevantes são “aqueles que promovem inclusão, efetivam direitos e potencializam ultrapassar barreiras”.

Exemplos de tecnologias de reconhecimento de voz que apresentam tal perfil são “os ditados que fornecem comandos a sistemas computadorizados, de modo a eliminar a necessidade de contato manual e promover a inclusão de pessoas portadoras de deficiência. O reconhecimento de voz usado na autenticação da pessoa também é socialmente relevante”, destaca.

Já o uso abusivo das tecnologias inclui, no ver de Rocha, a associação do reconhecimento de voz aos hábitos de navegação, consumo e comunicações, para individualizar o perfilamento de anúncios sem a devida autorização do sujeito de dados. O pesquisador enfatiza a importância de políticas públicas para democratização e fomento de pesquisas. “Falo de marcos regulatórios de proteção de dados que delimitem a onipresença tecnológica e de vigilância privada, sobretudo, estatal (nacional ou estrangeira)”, conclui.

Tais políticas são fundamentais, uma vez que o uso de voz parece ser apenas o começo. Na conferência sobre inteligência artificial “Transform 2020”, representantes de Google e Amazon indicaram a necessidade de displays inteligentes para compartilhar conteúdos visuais em modelos multimodais, como modo de superar as limitações das interfaces de conversação – um indício de que novos desafios e potencialidades estão, realmente, por vir.

Quer saber tendências desse mercado de assistentes de voz? Leia na revista Minas Faz Ciência, edição 83.

Lorena Tarcia

«Artigo Anterior
Histórias cruzadas: trajetória pessoal e profissional de professoras negras »Próximo Artigo
Concertistas, DJs, computadores e sensores juntos para fazer música

Tecnologias de assistentes de voz avançam em meio a desafios éticos e jurídicos

Desafios

Quer saber tendências desse mercado de assistentes de voz? Leia na revista Minas Faz Ciência, edição 83.

Lorena Tarcia

Conteúdo Relacionado

Notas sobre o desafio da inovação

Ciência e humor: inimigos ou amantes?

Por que é importante entender as nuvens?