MedgicalVoice: um novo modelo de ASR para terminologia médica em português

blur

O Reconhecimento Automático de Fala (ASR) está em constante evolução, expandindo os limites de como as máquinas podem compreender e transcrever a linguagem humana. É um componente central em todos os assistentes de transcrição médica. Hoje, temos o prazer de apresentar um modelo revolucionário que promete redefinir esses limites, especialmente para as complexidades da linguagem médica em português: o MedgicalVoice.

Durante anos, os sistemas de ASR enfrentaram as nuances intrincadas da fala humana – sotaques, ruídos de fundo, variações na velocidade da fala e o sempre presente desafio dos homófonos. No campo médico, estes desafios são amplificados pelo vocabulário altamente especializado, que frequentemente inclui termos raros ou complexos, pouco comuns no dia-a-dia. O MedgicalVoice enfrenta estes desafios de frente com uma nova arquitectura que promete um salto significativo no desempenho do ASR para contextos médicos em português. Apresenta uma taxa de erro de palavras (WER) significativamente melhorada e uma precisão excecional para terminologia médica.

Além da Convolução e da Recorrência: a Rede de Fusão com Atenção

No coração do MedgicalVoice está a sua inovadora Rede de Fusão com Atenção (AFN, Attentive Fusion Network). Ao contrário dos modelos tradicionais, que dependem fortemente de Redes Neuronais Convolucionais (CNNs) para extração de características acústicas ou de Redes Neuronais Recorrentes (RNNs), como LSTMs e GRUs, para modelação sequencial, a AFN combina de forma elegante os pontos fortes de ambos, introduzindo ainda um sofisticado mecanismo de atenção em múltiplos estágios.

Como funciona:


Codificação Acústica Multigranular: Em vez de uma única abordagem para analisar o áudio, o MedgicalVoice emprega ramos paralelos de CNNs com diferentes tamanhos de kernel. Isto permite que o modelo capture tanto detalhes fonéticos refinados quanto padrões espectrais mais amplos simultaneamente. Pense nisto como ter múltiplos "ouvidos", cada um sintonizado em diferentes aspetos do som.
Modelação Sequencial Contextualizada com Atenção Hierárquica: As saídas dos ramos das CNNs são então processadas por camadas de codificação semelhantes a Transformers. No entanto, o MedgicalVoice vai além, implementando um mecanismo de atenção hierárquica. Isto significa que o modelo não apenas aprende as relações entre diferentes partes da sequência de áudio, mas também pondera a importância dessas relações em diferentes níveis de abstração. Por exemplo, pode primeiro focar-se em fonemas individuais, depois em palavras e, finalmente, na estrutura geral da frase, dando mais importância aos contextos mais relevantes em cada estágio.
Fusão Adaptativa e Descodificação: As informações processadas pelas camadas de atenção hierárquica são então fundidas de forma adaptativa. Este processo de fusão não é estático – ajusta-se dinamicamente com base nas características do áudio de entrada. Numa gravação clara, o modelo pode dar mais peso aos detalhes acústicos refinados, enquanto num ambiente ruidoso, pode priorizar o entendimento contextual mais amplo. Por fim, um mecanismo de descodificação refinado, integrado a um modelo de linguagem treinado especificamente em textos médicos em português, gera a transcrição mais provável.

O que torna a MedgicalVoice único?


Robustez com ruídos e sotaques: A codificação acústica multigranular e a fusão adaptativa permitem que o MedgicalVoice filtre ruídos com eficiência e generalize melhor entre diferentes sotaques do português. Ao capturar informações em vários níveis, o modelo torna-se menos dependente de padrões acústicos específicos que podem variar significativamente.
Melhor tratamento de homófonos e ambiguidades contextuais: O mecanismo de atenção hierárquica e o modelo de linguagem integrado permitem que o MedgicalVoice utilize informações contextuais de forma mais eficaz. Isto resulta em transcrições mais precisas, mesmo quando palavras soam iguais, mas têm significados diferentes num contexto médico.
Precisão superior com terminologia médica: O MedgicalVoice foi treinado num enorme conjunto de dados de textos médicos em português, abrangendo diversas especialidades. Este treino especializado permite que alcance uma precisão sem precedentes na transcrição de ditados médicos complexos, anotações de pacientes e relatórios clínicos.

Ganhos de Desempenho Concretos

Testámos o modelo em 180 amostras de áudio com vocabulário médico rico, em condições desafiantes de captação (ambiente ruidoso). A versão 2 do modelo demonstrou avanços significativos:

Métrica	Whisper v3 Large	MedgicalVoice	Melhoria
WER Médio	16.2%	5.45%	66%
Erros em Termos Médicos Complexos	38/71	47/71	23%

Esses resultados destacam uma redução de 66% na Taxa de Erro de Palavras (WER) e um aumento de 23% na precisão na transcrição de terminologia médica crítica em comparação com versões anteriores. Isso se traduz em muito menos erros e uma confiança muito maior nas informações médicas transcritas.

Exemplos do MedgicalVoice em Ação

Aqui estão alguns exemplos de como o MedgicalVoice se sai excepcionalmente bem na transcrição de termos médicos em português, superando modelos de propósito geral:

Entrada	MedgicalVoice	Whisper
"O paciente apresenta um quadro de estenose aórtica severa."	"O paciente apresenta um quadro de estenose aórtica severa."	"O paciente apresenta um quadro de estenose ótica severa."

Esses exemplos, combinados com os impressionantes resultados de desempenho, reforçam o valor significativo do MedgicalVoice para aplicações que exigem transcrição precisa da linguagem médica em português. Pronto para experimentar? O futuro da transcrição médica em português está aqui.

Product

Medgical

Published 4/3/2025