Whisper من OpenAI هو نموذج ذكاء اصطناعي مبني على معمارية Transformer وتم تدريبه على 680,000 ساعة من البيانات متعددة اللغات. في Whisper Web، نشغّل هذا النموذج بالكامل في متصفحك — بدون خوادم. كيف نفعل ذلك؟

معمارية Encoder-Decoder

Whisper يستخدم معمارية encoder-decoder:

المُشفّر (Encoder): يحوّل الصوت إلى تمثيلات رقمية عبر Mel spectrogram ثم طبقات Transformer
المُفكّك (Decoder): يُنشئ النص كلمة بكلمة بناءً على تمثيلات المُشفّر

كيف يعمل في المتصفح؟

Transformers.js: مكتبة من Hugging Face تُشغّل نماذج Transformer في المتصفح
WebAssembly: يوفر أداءً قريباً من التطبيقات المحلية في بيئة المتصفح المعزولة
WebGPU: يستخدم GPU جهازك لتسريع عمليات الضرب المصفوفي — العملية الأساسية في Transformer
ONNX Runtime: يُحسّن تشغيل النموذج عبر تقنيات مثل Quantization لتقليل حجم النموذج

النماذج المتاحة

النموذج	الحجم	المعاملات	الأفضل لـ
Tiny	75 MB	39M	الأجهزة البطيئة (الإنجليزية فقط)
Base	142 MB	74M	توازن سرعة/دقة (الإنجليزية)
Small	466 MB	244M	معظم اللغات
Medium	1.5 GB	769M	دقة عالية متعددة اللغات
Large-v3	~1.5 GB	1550M	أفضل دقة ممكنة

جرّب هذه التقنية بنفسك على whisperweb.dev/ar.

نظرة عميقة: كيف يعمل Whisper من الداخل

معمارية Encoder-Decoder

كيف يعمل في المتصفح؟

النماذج المتاحة