Il modello Whisper di OpenAI è un Transformer encoder-decoder addestrato su 680.000 ore di dati audio multilingue. Whisper Web porta questo modello nel browser eseguendolo tramite ONNX Runtime compilato in WebAssembly, con accelerazione WebGPU opzionale per un'inferenza da 3 a 5 volte più veloce su hardware supportato.

Whisper è un modello di riconoscimento vocale generico addestrato su un ampio dataset di audio eterogeneo. È un modello multitasking in grado di eseguire riconoscimento vocale multilingue, traduzione vocale e identificazione della lingua.

Il Motore Transformer

Alla base, Whisper è un Transformer encoder-decoder. L'audio elaborato viene inviato all'encoder e il decoder predice i token di testo uno per uno.

Porting sul Web

Utilizzando ONNX Runtime ed Emscripten, siamo in grado di eseguire queste complesse operazioni matriciali in ambienti JavaScript in modo efficiente...

Analisi Approfondita: Come Funziona Whisper Sotto il Coffano

Il Motore Transformer

Porting sul Web