O Whisper da OpenAI é um modelo Transformer codificador-decodificador treinado em 680.000 horas de dados de áudio multilíngues. O Whisper Web traz esse modelo para o navegador executando-o via ONNX Runtime compilado para WebAssembly, com aceleração opcional via WebGPU para inferência 3-5x mais rápida em hardware compatível.

O Whisper é um modelo de reconhecimento de fala de uso geral treinado em um grande conjunto de dados de áudio diversificado. É um modelo multitarefa que pode realizar reconhecimento de fala multilíngue, tradução de fala e identificação de idioma.

O Motor Transformer

Em seu núcleo, o Whisper é um Transformer codificador-decodificador. O áudio processado é alimentado no codificador, e o decodificador prevê os tokens de texto um por um.

Portando para a Web

Usando o ONNX Runtime e o Emscripten, conseguimos executar essas operações complexas de matriz em ambientes JavaScript de forma eficiente...

Mergulho Profundo: Como o Whisper Funciona por Dentro

O Motor Transformer

Portando para a Web