Skip to main content
Whisper Web
Powrót do bloga

Dogłębna analiza: Jak działa Whisper pod maską

Wyjaśnienie architektury Transformer stojącej za modelem OpenAI Whisper i jak przenieśliśmy go do przeglądarki.

Tech Engineering
8 min czytania

OpenAI Whisper to model Transformer typu enkoder-dekoder wytrenowany na 680 000 godzinach wielojęzycznych danych audio. Whisper Web przenosi ten model do przeglądarki, uruchamiając go za pomocą ONNX Runtime skompilowanego do WebAssembly, z opcjonalnym przyspieszeniem WebGPU zapewniającym 3-5x szybszą inferencję na obsługiwanym sprzęcie.

Whisper to uniwersalny model rozpoznawania mowy wytrenowany na dużym zbiorze zróżnicowanych danych audio. Jest to model wielozadaniowy, który może wykonywać wielojęzyczne rozpoznawanie mowy, tłumaczenie mowy oraz identyfikację języka.

Silnik Transformer

W swojej istocie Whisper to Transformer typu enkoder-dekoder. Przetworzone audio trafia do enkodera, a dekoder przewiduje tokeny tekstowe jeden po drugim.

Przeniesienie do przeglądarki

Dzięki ONNX Runtime i Emscripten jesteśmy w stanie wydajnie wykonywać te złożone operacje macierzowe w środowiskach JavaScript...