Skip to main content
Whisper Web
العودة إلى المدوّنة

نظرة عميقة: كيف يعمل Whisper من الداخل

شرح معمارية Transformer وراء نموذج Whisper من OpenAI وكيف تم نقله إلى الويب للعمل في متصفحك.

Whisper Web Team
8 دقائق للقراءة

Whisper من OpenAI هو نموذج ذكاء اصطناعي مبني على معمارية Transformer وتم تدريبه على 680,000 ساعة من البيانات متعددة اللغات. في Whisper Web، نشغّل هذا النموذج بالكامل في متصفحك — بدون خوادم. كيف نفعل ذلك؟

معمارية Encoder-Decoder

Whisper يستخدم معمارية encoder-decoder:

  • المُشفّر (Encoder): يحوّل الصوت إلى تمثيلات رقمية عبر Mel spectrogram ثم طبقات Transformer
  • المُفكّك (Decoder): يُنشئ النص كلمة بكلمة بناءً على تمثيلات المُشفّر

كيف يعمل في المتصفح؟

  • Transformers.js: مكتبة من Hugging Face تُشغّل نماذج Transformer في المتصفح
  • WebAssembly: يوفر أداءً قريباً من التطبيقات المحلية في بيئة المتصفح المعزولة
  • WebGPU: يستخدم GPU جهازك لتسريع عمليات الضرب المصفوفي — العملية الأساسية في Transformer
  • ONNX Runtime: يُحسّن تشغيل النموذج عبر تقنيات مثل Quantization لتقليل حجم النموذج

النماذج المتاحة

النموذجالحجمالمعاملاتالأفضل لـ
Tiny75 MB39Mالأجهزة البطيئة (الإنجليزية فقط)
Base142 MB74Mتوازن سرعة/دقة (الإنجليزية)
Small466 MB244Mمعظم اللغات
Medium1.5 GB769Mدقة عالية متعددة اللغات
Large-v3~1.5 GB1550Mأفضل دقة ممكنة

جرّب هذه التقنية بنفسك على whisperweb.dev/ar.