Βαθιά Ανάλυση: Πώς Λειτουργεί το Whisper Εσωτερικά
Μια εξήγηση της αρχιτεκτονικής Transformer πίσω από το μοντέλο OpenAI Whisper και πώς το μεταφέραμε στον ιστό.
Το OpenAI Whisper είναι ένα μοντέλο Transformer κωδικοποιητή-αποκωδικοποιητή εκπαιδευμένο σε 680.000 ώρες πολύγλωσσων ηχητικών δεδομένων. Το Whisper Web φέρνει αυτό το μοντέλο στον περιηγητή εκτελώντας το μέσω ONNX Runtime μεταγλωττισμένου σε WebAssembly, με προαιρετική επιτάχυνση WebGPU για 3-5x ταχύτερη εξαγωγή συμπερασμάτων σε υποστηριζόμενο υλικό.
Το Whisper είναι ένα γενικής χρήσης μοντέλο αναγνώρισης ομιλίας εκπαιδευμένο σε ένα μεγάλο σύνολο δεδομένων ποικίλου ήχου. Είναι ένα μοντέλο πολλαπλών εργασιών που μπορεί να εκτελέσει πολύγλωσση αναγνώριση ομιλίας, μετάφραση ομιλίας και αναγνώριση γλώσσας.
Η Μηχανή Transformer
Στον πυρήνα του, το Whisper είναι ένας Transformer κωδικοποιητή-αποκωδικοποιητή. Ο επεξεργασμένος ήχος τροφοδοτείται στον κωδικοποιητή και ο αποκωδικοποιητής προβλέπει τα διακριτικά κειμένου ένα προς ένα.
Μεταφορά στον Ιστό
Χρησιμοποιώντας το ONNX Runtime και το Emscripten, μπορούμε να εκτελέσουμε αυτές τις σύνθετες πράξεις μητρών σε περιβάλλοντα JavaScript αποτελεσματικά...