Whisper của OpenAI là một mô hình Transformer mã hóa-giải mã được huấn luyện trên 680.000 giờ dữ liệu âm thanh đa ngôn ngữ. Whisper Web đưa mô hình này vào trình duyệt bằng cách thực thi nó thông qua ONNX Runtime được biên dịch sang WebAssembly, với tùy chọn tăng tốc WebGPU giúp suy luận nhanh hơn 3-5 lần trên phần cứng được hỗ trợ.

Whisper là một mô hình nhận dạng giọng nói đa năng được huấn luyện trên một tập dữ liệu lớn gồm nhiều loại âm thanh khác nhau. Đây là một mô hình đa nhiệm có thể thực hiện nhận dạng giọng nói đa ngôn ngữ, dịch thuật giọng nói và nhận dạng ngôn ngữ.

Công Cụ Transformer

Cốt lõi của Whisper là một Transformer mã hóa-giải mã. Âm thanh đã được xử lý được đưa vào bộ mã hóa, và bộ giải mã dự đoán các token văn bản lần lượt.

Đưa Lên Nền Tảng Web

Sử dụng ONNX Runtime và Emscripten, chúng tôi có thể thực thi các phép toán ma trận phức tạp này trong môi trường JavaScript một cách hiệu quả...

Khám Phá Sâu: Cách Whisper Hoạt Động Bên Trong

Công Cụ Transformer

Đưa Lên Nền Tảng Web