Now100

LLM-Pruner: On the Structural Pruning of Large Language Models - 논문 리뷰

1. Introduction 대형 언어 모델(LLM)은 언어 이해와 생성에서 뛰어난 성능을 보이지만, 이러한 성능은 대규모 모델 크기로 인해 배포, 추론, 훈련 단계에서 높은 계산 비용과 긴 지연 시간을 초래함. 기존의 모델 압축 기법은 주로 특정 태스크에 맞춰져 있어 LLM의 다목적 활용성을 제한함. 본 논문은 LLM의 크기를 줄이면서도 다목적 ...

Sequence to Sequence Learning with Neural Networks - 논문 리뷰

0. Abstract Deep Neural Network(DNN)은 어려운 학습 작업에서 뛰어난 성능을 보이지만, 시퀀스를 시퀀스로 매핑하는데 한계가 있다. 해당 연구에서는 시퀀스 구조에 대한 최소한의 가정만으로 작동하는 일반적인 시퀀스 학습 방법을 제안한다. 이 방법은 다층 LSTM을 사용해 입력 시퀀스를 고정 차원의 벡터로 매핑하고, 이를 기반...