블로그로 돌아가기
딥다이브: Whisper의 내부 작동 원리
OpenAI Whisper 모델의 기반인 트랜스포머 아키텍처와 이를 웹으로 포팅한 방법에 대한 기술적 설명입니다.
Tech Engineering••
8분 소요
OpenAI의 Whisper는 68만 시간의 다국어 오디오 데이터로 학습된 인코더-디코더 트랜스포머 모델입니다. Whisper Web은 WebAssembly로 컴파일된 ONNX Runtime을 통해 이 모델을 실행하며, 지원 하드웨어에서 3-5배 더 빠른 추론을 위한 선택적 WebGPU 가속을 제공하여 이 모델을 브라우저로 가져옵니다.
Whisper는 대규모의 다양한 오디오 데이터셋으로 학습된 범용 음성인식 모델입니다. 다국어 음성인식, 음성 번역, 언어 식별을 수행할 수 있는 멀티태스킹 모델입니다.
트랜스포머 엔진
핵심적으로 Whisper는 인코더-디코더 트랜스포머입니다. 처리된 오디오가 인코더에 입력되면, 디코더가 텍스트 토큰을 하나씩 예측합니다.
웹으로의 포팅
ONNX Runtime과 Emscripten을 사용하여 이러한 복잡한 행렬 연산을 JavaScript 환경에서 효율적으로 실행할 수 있습니다...