Listen, Attend and Spell

Posted Jun 23, 2025

By Jaebaek Lee

18 min read

Abstract

LAS(Listen, Attend and Spell) 모델을 소개. 해당 모델은 음성 데이터를 단어가 아니라 문자(character) 단위로 출력.
기존 음성 인식 시스템(DNN-HMM 기반)은 하이브리드 모델을 사용함(음향 모델, 언어 모델, 발음 사전). LAS는 이러한 복잡한 구조를 하나의 신경망으로 통합하여, 음성 입력을 직접 문자 시퀀스로 변환(end-to-end 방식)함.
LAS는 Listner와 Speller로 구성됨. Listner는 피라미드 구조의 RNN을 사용해 음성 입력의 시퀀스를 줄여서 인코딩하고, Speller는 Attention 메커니즘을 사용해 Listner의 출력에서 문자 시퀀스를 생성함.
LAS는 문자 간의 독립을 가정하지 않아서, 기존 CTC(Connectionist Temporal Classification) 기반 모델보다 더 정확한 음성 인식을 가능하게 함.

Introduction

기존 Deep Neural Network 기반 음성 인식 모델은 여러 별도의 모듈(음향 모델, 언어 모델, 발음 사전)을 사용하고 있음. 각각의 모듈은 별도의 목적 함수로 학습됨.
이런 단점을 위해서 end-to-end 방식의 음성 인식 모델이 제안됨. 대표적인 방법으로 Connectionist Temporal Classification(CTC)와 Attention 기반 sequence-to-sequence 모델이 있음.
기존 방법론의 한계로는, CTC 모델은 출력 간의 독립성을 가정해, 언어 모델의 정보를 충분히 활용하지 못함. Attention 기반 모델은 음성 인식에서는 음소 단위의 매핑으로만 적용되고, 문장 전체로의 end-to-end 방식으로는 적용되지 않음.
본 논문에서는 음성 인식에서 end-to-end 방식의 LAS(Listen, Attend and Spell) 모델을 제안함. LAS는 음성 입력을 문자 단위로 직접 변환하는 모델로, 출력 간 조건부 독립성을 가정하지 않고 HMM에 의존하지 않음. 어텐션 메커니즘을 사용하여 음성 입력의 모든 부분에 접근하고 어느 부분에 집중할지 결정함.
이 모델의 핵심적인 접근은 다음과 같음:

Listener의 피라미드 구조
RNN을 사용하여 음성 입력의 시퀀스를 줄여서 인코딩함. 이를 통해 어텐션 메커니즘이 처리해야할 타임 스텝의 수를 줄여 효율성을 높임.
문자 단위의 출력
음성 입력을 단어가 아닌 문자(character) 단위로 출력하여 OOV(Out-Of-Vocabulary) 문제를 해결하고, 다양한 철자도 자연스럽게 처리함

Listen, Attend and Spell Architecture — 철자 단위로 음성 인식을 수행함으로써, "triple a"와 같은 음성을 "triple a", "aaa" 등 다양한 철자 형태로 인식할 수 있음.

독립성 가정의 제거
출력 간의 독립성을 가정하지 않아서, CTC 기반 모델보다 더 정확한 음성 인식을 가능하게 함.

딥러닝은 음성 인식 분야에서 주로 분류 문제로 접근되어 왔음.(예: 프레임 단위의 음성 특징을 음소로 분류) 시퀀스를 처리하는 문제에서는 딥러닝을 HMM, CRF와 같은 전통적인 시퀀스 모델과 결합하여 사용함. 이런 경우에 생기는 문제는, 여러 모듈을 결합해야해 end-to-end 방식으로 학습하기 어렵고, 데이터 분포의 복잡한 확률 구조를 단순화(예: 독립성 가정)해야 함.
시퀀스-투-시퀀스(sequence-to-sequence) 모델은 입력 벡터를 고정 길이의 벡터로 인코딩해, 디코더가 이를 기반으로 출력 시퀀스를 생성하는 구조. 학습시에는 디코더 입력에 정답(ground truth)을 사용하고, 추론시에는 이전 출력이 다음 입력으로 사용되며, beam search를 통해 여러 후보 시퀀스를 생성함.
어텐션 메커니즘은 seq2seq 모델에서 인코딩 벡터 하나만으로 긴 시퀀스의 정보를 포함하기 어려운 문제를 해결하기 위해 도입됨. 어텐션은 디코딩 단계에서 인코딩된 입력 시퀀스의 모든 부분에 접근해 어떤 부분에 집중할지 결정하고 정보 전달과 gradient 전파를 수월하게 함.
기존 음성인식에 end-to-end 방식의 접근법은 CTC와 Attention 기반 모델이 있음.

CTC
- 입력과 출력 시퀀스의 길이가 다를 때, 출력 시퀀스의 길이를 조정하기 위해 사용됨.
- CTC는 출력 시퀀스의 길이를 줄이기 위해 중복된 출력을 하나의 출력으로 합쳐 입출력의 길이가 다른 문제를 해결함.
- 예:
  - 입력: “hello world”의 음성 신호
  - 출력: “h h h e e l l o o o — w w o r l d d d” -> “hello world”
Attention 기반 모델
- 기존 attention 기반 모델은 음소 수준에서 seq2seq 모델을 사용하여 음성 인식을 수행함.(음성 -> 음소)
- 당시 음성 -> 문자 단위의 end-to-end 방식은 구현되지 않았음.