Muitas pessoas sofrem de perda de fala como resultado de doenças, embora suas funções cognitivas permaneçam inalteradas. Portanto, na esteira dos avanços na IA, muitos pesquisadores se concentraram em sintetizar a fala natural (vocalização) usando uma combinação de implantes cerebrais e redes neurais. Se for bem-sucedida, a tecnologia poderá ser expandida para ajudar pessoas com dificuldade de vocalização devido a condições como paralisia cerebral ou autismo.

Fonte da imagem: unsplash.com

Durante muito tempo, o principal investimento e atenção dos cientistas estavam focados em implantes que permitissem que pessoas com deficiências graves usassem um teclado, controlassem braços robóticos ou restaurassem parcialmente o uso de membros paralisados. Ao mesmo tempo, muitos pesquisadores se concentraram no desenvolvimento de tecnologias de vocalização que convertem padrões de pensamento em fala.

«Estamos fazendo grandes progressos. Nosso principal objetivo é tornar a transferência da voz do cérebro para a voz sintética tão suave quanto uma conversa entre duas pessoas, disse Edward Chang, neurocirurgião da Universidade da Califórnia. “Os algoritmos de IA que usamos estão ficando mais rápidos e estamos aprendendo com cada novo participante em nossa pesquisa.”

Em março de 2025, Chang e colegas publicaram um artigo na revista Nature Neuroscience descrevendo seu trabalho com uma mulher paralisada que não conseguia falar por 18 anos após sofrer um derrame. Com a ajuda de cientistas, ela treinou uma rede neural tentando pronunciar silenciosamente frases compostas por 1.024 palavras diferentes. O som de sua voz foi então sintetizado pela transmissão de seus dados neurais para um modelo conjunto de síntese de fala e decodificação de texto.

Fonte da imagem: New England Journal of Medicine

A tecnologia reduziu o atraso entre os sinais cerebrais do paciente e o som resultante dos oito segundos originais para um segundo. Este resultado já é comparável ao intervalo de tempo natural de 100–200 milissegundos para a fala normal. A velocidade média de decodificação do sistema atingiu 47,5 palavras por minuto, o que representa cerca de um terço da velocidade de uma conversa normal.

Pesquisas semelhantes foram realizadas pela Precision Neuroscience, com o CEO Michael Mager alegando que sua abordagem pode capturar sinais cerebrais em maior resolução devido a “eletrodos densamente compactados”.

Até o momento, a Precision Neuroscience testou com sucesso 31 pacientes e até recebeu aprovação regulatória para deixar seus sensores implantados por até 30 dias. Mager afirma que isso permitirá que a rede neural seja treinada dentro de um ano no “maior repositório de dados neurais de alta resolução que existe no planeta Terra”. O próximo passo, diz Mager, é “miniaturizar os componentes e colocá-los em embalagens seladas e biocompatíveis para que possam ser implantados permanentemente no corpo”.

Fonte da imagem: UC Davis Health

A barreira mais significativa para o desenvolvimento e uso da tecnologia cérebro-voz é o tempo que os pacientes levam para aprender a usar o sistema. Uma questão fundamental não resolvida é até que ponto os padrões de resposta no córtex motor — a parte do cérebro que controla ações voluntárias, incluindo a fala — variam entre as pessoas. Se forem semelhantes, os modelos pré-treinados podem ser usados ​​para novos pacientes. Isso acelerará o processo de treinamento individual, que leva dezenas ou até centenas de horas.

Todos os pesquisadores da vocalização concordam sobre a questão da inadmissibilidade de “decodificar pensamentos internos”, isto é, aquilo que uma pessoa não quer expressar. Nas palavras de um cientista: “Há muitas coisas que não digo em voz alta porque não me beneficiariam ou poderiam prejudicar os outros”.

Hoje em dia, os cientistas ainda estão longe de uma vocalização comparável à conversa normal das pessoas comuns. Embora a precisão da decodificação tenha aumentado para 98%, a saída de voz não é instantânea e não consegue transmitir características importantes da fala, como tom e humor. Cientistas esperam criar uma neuroprótese vocal que forneça toda a amplitude expressiva da voz humana, permitindo que os pacientes controlem o tom e o ritmo da fala e até mesmo cantem.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *