A Meta apresentou seu modelo de tradução multimodal de IA chamado SeamlessM4T em agosto. Esta ferramenta suporta quase 100 idiomas para texto e 36 idiomas para fala. Agora, com uma arquitetura “v2” atualizada, a empresa está ampliando as capacidades da ferramenta para tornar as traduções conversacionais mais espontâneas e expressivas. Este é um passo crucial para conversas mais autênticas entre línguas, já que a falta de traduções expressivas tem sido um grande desafio até agora.
O SeamlessM4T foi projetado para traduzir e transcrever perfeitamente várias funções de fala e texto. Ele pode traduzir quase 100 idiomas para funções de fala para texto e texto para texto, ao mesmo tempo que oferece suporte a recursos de fala para fala e texto para fala nos mesmos idiomas. Além disso, pode produzir traduções em qualquer um dos outros 36 idiomas, incluindo inglês.
O primeiro dos dois novos recursos é chamado de “SeamlessExpression”. Como o nome sugere, permite que suas expressões sejam traduzidas junto com sua fala. Isso inclui tom, volume, tom emocional (por exemplo, excitação, tristeza ou sussurros), velocidade de fala e pausas. Isso faz com que os discursos traduzidos pareçam menos robóticos e mais naturais. O recurso oferece suporte a vários idiomas, incluindo inglês, espanhol, alemão, francês, italiano e chinês.
O segundo recurso é chamado de “SeamlessStreaming”. Ele permite que a ferramenta comece a traduzir um discurso enquanto o palestrante ainda está falando, tornando mais rápido para que outras pessoas ouçam a tradução. Embora haja uma latência curta de pouco menos de dois segundos, elimina a necessidade de esperar até que alguém termine uma frase. O desafio aqui é que idiomas diferentes têm estruturas de frases diferentes, então Meta teve que desenvolver um algoritmo que pudesse estudar a entrada parcial de áudio para determinar se há contexto suficiente para começar a gerar uma saída traduzida ou se deveria continuar ouvindo.
SeamlessM4T é desenvolvido na arquitetura de modelo UnitY multitarefa baseada em PyTorch existente. Esta arquitetura já possui a capacidade de realizar diferentes traduções modais, bem como reconhecimento automático de fala. Além disso, o modelo faz uso do sistema BERT 2.0 para codificação de áudio, que divide as entradas em seus tokens componentes para análise, e um vocoder de unidade HiFi-GAN para gerar respostas faladas.
Facebook
Twitter
Linkedin
fim do artigo