العودة إلى المدوّنة
نظرة عميقة: كيف يعمل Whisper من الداخل
شرح معمارية Transformer وراء نموذج Whisper من OpenAI وكيف تم نقله إلى الويب للعمل في متصفحك.
Whisper Web Team••
8 دقائق للقراءة
Whisper من OpenAI هو نموذج ذكاء اصطناعي مبني على معمارية Transformer وتم تدريبه على 680,000 ساعة من البيانات متعددة اللغات. في Whisper Web، نشغّل هذا النموذج بالكامل في متصفحك — بدون خوادم. كيف نفعل ذلك؟
معمارية Encoder-Decoder
Whisper يستخدم معمارية encoder-decoder:
- المُشفّر (Encoder): يحوّل الصوت إلى تمثيلات رقمية عبر Mel spectrogram ثم طبقات Transformer
- المُفكّك (Decoder): يُنشئ النص كلمة بكلمة بناءً على تمثيلات المُشفّر
كيف يعمل في المتصفح؟
- Transformers.js: مكتبة من Hugging Face تُشغّل نماذج Transformer في المتصفح
- WebAssembly: يوفر أداءً قريباً من التطبيقات المحلية في بيئة المتصفح المعزولة
- WebGPU: يستخدم GPU جهازك لتسريع عمليات الضرب المصفوفي — العملية الأساسية في Transformer
- ONNX Runtime: يُحسّن تشغيل النموذج عبر تقنيات مثل Quantization لتقليل حجم النموذج
النماذج المتاحة
| النموذج | الحجم | المعاملات | الأفضل لـ |
|---|---|---|---|
| Tiny | 75 MB | 39M | الأجهزة البطيئة (الإنجليزية فقط) |
| Base | 142 MB | 74M | توازن سرعة/دقة (الإنجليزية) |
| Small | 466 MB | 244M | معظم اللغات |
| Medium | 1.5 GB | 769M | دقة عالية متعددة اللغات |
| Large-v3 | ~1.5 GB | 1550M | أفضل دقة ممكنة |
جرّب هذه التقنية بنفسك على whisperweb.dev/ar.