선형대수 개념 정리
Vector 벡터란? 벡터 공간 $V$의 원소 (엄밀한 정의) 1-D array of numbers (in Computer Science) 이후 모든 정의는 Computer Science의 방식을 따름 # of elements in a...
Vector 벡터란? 벡터 공간 $V$의 원소 (엄밀한 정의) 1-D array of numbers (in Computer Science) 이후 모든 정의는 Computer Science의 방식을 따름 # of elements in a...
프로그래밍 패러다임 프로그래밍 언어는 크게 저수준(Low-level) 언어와 고수준(High-level) 언어로 나뉨 Low-level vs. High-level Language 저수준 언어: 기계어(Machine Code), 어셈블리어(Assembly) 고수준 언어: C, C++, Java, Python 등 Compiler 컴파일...
1. Introduction 대규모 언어 모델은 주로 Pretraining과 Alignment을 통해 학습됨 Pretraining: 원시 텍스트를 기반으로 비지도 학습을 통해 일반적인 표현을 학습 Alignment: 사용자 선호도 및 특정 작업에 맞게 모델 출력을 조정 기존의 연구에서는 정렬을 위해 지도학습, RLHF 등의 방법론을 채...
1. Introduction 대형 언어 모델(LLM)은 언어 이해와 생성에서 뛰어난 성능을 보이지만, 이러한 성능은 대규모 모델 크기로 인해 배포, 추론, 훈련 단계에서 높은 계산 비용과 긴 지연 시간을 초래함. 기존의 모델 압축 기법은 주로 특정 태스크에 맞춰져 있어 LLM의 다목적 활용성을 제한함. 본 논문은 LLM의 크기를 줄이면서도 다목적 ...
자동 음성 인식(Automatic Speech Recognition, ASR)이란 인간의 음성 신호를 디지털 신호로 분석하고, 이를 텍스트 데이터로 변환하는 기술입니다. Speech-to-Text(STT)라는 이름으로도 불립니다. 이 포스트에서는 해당 기술에 대한 고전적 접근법부터 단계적으로 살펴본 다음, 시간의 변화에 따라 어떻게 발전해왔는지에 대...
0. Abstract LLaMA는 7B에서 65B 매개변수 규모의 대형 언어 모델(LLM)로, 공개 데이터만을 활용하여 훈련되었음. LLaMA-13B는 GPT-3(175B)를 대부분의 벤치마크에서 능가하며, LLaMA-65B는 Chinchilla(70B)와 PaLM(540B)와 유사한 성능을 보임 1. Introduction 방대한 양의 텍스트...
0. Abstract Deep Neural Network(DNN)은 어려운 학습 작업에서 뛰어난 성능을 보이지만, 시퀀스를 시퀀스로 매핑하는데 한계가 있다. 해당 연구에서는 시퀀스 구조에 대한 최소한의 가정만으로 작동하는 일반적인 시퀀스 학습 방법을 제안한다. 이 방법은 다층 LSTM을 사용해 입력 시퀀스를 고정 차원의 벡터로 매핑하고, 이를 기반...
PyTorch는 메타 AI에서 개발한 파이썬 기반의 오픈 소스 딥러닝 프레임워크로서, 강력한 동적 계산 그래프를 제공하며 연구와 실무에서 널리 사용되고 있습니다. PyTorch의 핵심 개념과 내부 함수들을 살펴봅시다. 1. PyTorch의 주요 특징 PyTorch는 다음과 같은 특징을 가지고 있습니다: 동적 계산 그래프(Dynamic Co...
드디어 숙원사업이던 블로그 개설을 완료했습니다. 인공지능 공부 과정을 기록하고자 개설하였으나 여러 이야기를 두루두루 기록해볼 예정입니다. 잘 부탁드립니다.