Analisi Approfondita: Come Funziona Whisper Sotto il Coffano
Una spiegazione dell'architettura Transformer alla base del modello Whisper di OpenAI e di come l'abbiamo portato sul web.
Il modello Whisper di OpenAI è un Transformer encoder-decoder addestrato su 680.000 ore di dati audio multilingue. Whisper Web porta questo modello nel browser eseguendolo tramite ONNX Runtime compilato in WebAssembly, con accelerazione WebGPU opzionale per un'inferenza da 3 a 5 volte più veloce su hardware supportato.
Whisper è un modello di riconoscimento vocale generico addestrato su un ampio dataset di audio eterogeneo. È un modello multitasking in grado di eseguire riconoscimento vocale multilingue, traduzione vocale e identificazione della lingua.
Il Motore Transformer
Alla base, Whisper è un Transformer encoder-decoder. L'audio elaborato viene inviato all'encoder e il decoder predice i token di testo uno per uno.
Porting sul Web
Utilizzando ONNX Runtime ed Emscripten, siamo in grado di eseguire queste complesse operazioni matriciali in ambienti JavaScript in modo efficiente...