ASR(Automatic Speech Recognition) 개념 정리
자동 음성 인식(Automatic Speech Recognition, ASR)이란 인간의 음성 신호를 디지털 신호로 분석하고, 이를 텍스트 데이터로 변환하는 기술입니다. Speech-to-Text(STT)라는 이름으로도 불립니다. 이 포스트에서는 해당 기술에 대한 고전적 접근법부터 단계적으로 살펴본 다음, 시간의 변화에 따라 어떻게 발전해왔는지에 대...
자동 음성 인식(Automatic Speech Recognition, ASR)이란 인간의 음성 신호를 디지털 신호로 분석하고, 이를 텍스트 데이터로 변환하는 기술입니다. Speech-to-Text(STT)라는 이름으로도 불립니다. 이 포스트에서는 해당 기술에 대한 고전적 접근법부터 단계적으로 살펴본 다음, 시간의 변화에 따라 어떻게 발전해왔는지에 대...
0. Abstract LLaMA는 7B에서 65B 매개변수 규모의 대형 언어 모델(LLM)로, 공개 데이터만을 활용하여 훈련되었음. LLaMA-13B는 GPT-3(175B)를 대부분의 벤치마크에서 능가하며, LLaMA-65B는 Chinchilla(70B)와 PaLM(540B)와 유사한 성능을 보임 1. Introduction 방대한 양의 텍스트...
0. Abstract Deep Neural Network(DNN)은 어려운 학습 작업에서 뛰어난 성능을 보이지만, 시퀀스를 시퀀스로 매핑하는데 한계가 있다. 해당 연구에서는 시퀀스 구조에 대한 최소한의 가정만으로 작동하는 일반적인 시퀀스 학습 방법을 제안한다. 이 방법은 다층 LSTM을 사용해 입력 시퀀스를 고정 차원의 벡터로 매핑하고, 이를 기반...
PyTorch는 메타 AI에서 개발한 파이썬 기반의 오픈 소스 딥러닝 프레임워크로서, 강력한 동적 계산 그래프를 제공하며 연구와 실무에서 널리 사용되고 있습니다. PyTorch의 핵심 개념과 내부 함수들을 살펴봅시다. 1. PyTorch의 주요 특징 PyTorch는 다음과 같은 특징을 가지고 있습니다: 동적 계산 그래프(Dynamic Co...
드디어 숙원사업이던 블로그 개설을 완료했습니다. 인공지능 공부 과정을 기록하고자 개설하였으나 여러 이야기를 두루두루 기록해볼 예정입니다. 잘 부탁드립니다.