Mergulho Profundo: Como o Whisper Funciona por Dentro
Uma explicação da arquitetura Transformer por trás do modelo Whisper da OpenAI e como o portamos para a web.
O Whisper da OpenAI é um modelo Transformer codificador-decodificador treinado em 680.000 horas de dados de áudio multilíngues. O Whisper Web traz esse modelo para o navegador executando-o via ONNX Runtime compilado para WebAssembly, com aceleração opcional via WebGPU para inferência 3-5x mais rápida em hardware compatível.
O Whisper é um modelo de reconhecimento de fala de uso geral treinado em um grande conjunto de dados de áudio diversificado. É um modelo multitarefa que pode realizar reconhecimento de fala multilíngue, tradução de fala e identificação de idioma.
O Motor Transformer
Em seu núcleo, o Whisper é um Transformer codificador-decodificador. O áudio processado é alimentado no codificador, e o decodificador prevê os tokens de texto um por um.
Portando para a Web
Usando o ONNX Runtime e o Emscripten, conseguimos executar essas operações complexas de matriz em ambientes JavaScript de forma eficiente...