OpenAI의 Whisper는 68만 시간의 다국어 오디오 데이터로 학습된 인코더-디코더 트랜스포머 모델입니다. Whisper Web은 WebAssembly로 컴파일된 ONNX Runtime을 통해 이 모델을 실행하며, 지원 하드웨어에서 3-5배 더 빠른 추론을 위한 선택적 WebGPU 가속을 제공하여 이 모델을 브라우저로 가져옵니다.

Whisper는 대규모의 다양한 오디오 데이터셋으로 학습된 범용 음성인식 모델입니다. 다국어 음성인식, 음성 번역, 언어 식별을 수행할 수 있는 멀티태스킹 모델입니다.

트랜스포머 엔진

핵심적으로 Whisper는 인코더-디코더 트랜스포머입니다. 처리된 오디오가 인코더에 입력되면, 디코더가 텍스트 토큰을 하나씩 예측합니다.

웹으로의 포팅

ONNX Runtime과 Emscripten을 사용하여 이러한 복잡한 행렬 연산을 JavaScript 환경에서 효율적으로 실행할 수 있습니다...

딥다이브: Whisper의 내부 작동 원리

트랜스포머 엔진

웹으로의 포팅