Skip to main content
Whisper Web
Πίσω στο Blog

Βαθιά Ανάλυση: Πώς Λειτουργεί το Whisper Εσωτερικά

Μια εξήγηση της αρχιτεκτονικής Transformer πίσω από το μοντέλο OpenAI Whisper και πώς το μεταφέραμε στον ιστό.

Tech Engineering
8 λεπτά ανάγνωσης

Το OpenAI Whisper είναι ένα μοντέλο Transformer κωδικοποιητή-αποκωδικοποιητή εκπαιδευμένο σε 680.000 ώρες πολύγλωσσων ηχητικών δεδομένων. Το Whisper Web φέρνει αυτό το μοντέλο στον περιηγητή εκτελώντας το μέσω ONNX Runtime μεταγλωττισμένου σε WebAssembly, με προαιρετική επιτάχυνση WebGPU για 3-5x ταχύτερη εξαγωγή συμπερασμάτων σε υποστηριζόμενο υλικό.

Το Whisper είναι ένα γενικής χρήσης μοντέλο αναγνώρισης ομιλίας εκπαιδευμένο σε ένα μεγάλο σύνολο δεδομένων ποικίλου ήχου. Είναι ένα μοντέλο πολλαπλών εργασιών που μπορεί να εκτελέσει πολύγλωσση αναγνώριση ομιλίας, μετάφραση ομιλίας και αναγνώριση γλώσσας.

Η Μηχανή Transformer

Στον πυρήνα του, το Whisper είναι ένας Transformer κωδικοποιητή-αποκωδικοποιητή. Ο επεξεργασμένος ήχος τροφοδοτείται στον κωδικοποιητή και ο αποκωδικοποιητής προβλέπει τα διακριτικά κειμένου ένα προς ένα.

Μεταφορά στον Ιστό

Χρησιμοποιώντας το ONNX Runtime και το Emscripten, μπορούμε να εκτελέσουμε αυτές τις σύνθετες πράξεις μητρών σε περιβάλλοντα JavaScript αποτελεσματικά...