최근 몇 년간 대형 언어 모델(LLM)은 비약적으로 발전해왔습니다.
특히 GPT-4와 Cluade 3.5는 자연어 처리 분야에서 우수한 성능을 보여주었죠.
하지만, 이들도 아직 부족한 부분이 있었으니, "논리적 추론 능력"이 부족했습니다.
그래서 연구자들은 부족한 "논리적 추론 능력"을 보완하기 위해서,
- 점점 더 복잡한 데이터 학습 방식을 적용하거나,
예를 들면, 단순한 문장 예제 대신 고난도 Chain of Thought 데이터, 수학 문제 풀이 과정 등을 학습시키는 방식 - 테스트 단계에서의 연산 확장 방식을 적용했습니다.
예를 들면, 트랜스포머 블록의 깊이를 늘리거나, Multi-PAss 방식을 적용하여 답을 여러번 생성하고 최적의 답을 선택하는 방식
반면에, 중국의 AI 기업 DeepSeek는 좀 더 간단한 방식, 강화 학습을 도입해 모델의 추론 능력을 끌어올렸습니다.
강화학습을 이용해 학습된 모델 DeepSeek-R1 에 대해서 오늘 알아보겠습니다.
강화 학습이란
강화 학습은 마치 강아지에게 새로운 트릭을 가르치는 과정과 비슷합니다. 강아지가 원하는 행동을 할 때마다 간식을 주면, 강아지는 그 행동과 보상을 연관 짓고 이후에도 반복하게 됩니다. 이러한 원리가 강화 학습의 기본 개념입니다.
대형 언어 모델(LLM)에서도 비슷한 원리가 적용됩니다. 여기서 모델은 "강아지"이며, 특정 작업을 얼마나 잘 수행했는지를 측정하는 점수가 "보상"이 됩니다. 모델은 보상을 최대화하는 방향으로 학습하며, 이를 통해 성능을 향상시킵니다.
DeepSeek-R1-Zero
사전 학습된 모델인 DeepSeek-V3-Base에 직접 강화 학습(RL)을 적용해 만든 모델이 DeepSeek-R1-Zero 입니다. DeepSeek는 기존의 지도 학습(SFT, Supervised Fine-Tuning)을 거치지 않고, 오직 강화 학습만을 사용하여 DeepSeek-R1-Zero 모델을 만들어내었습니다.
DeepSeek-R1-Zero는 다양한 추론 전략을 탐색할 수 있도록 훈련되었습니다. 즉, 문제를 해결하기 위한 전략으로, Standard CoT, Self-Consistency CoT, Zero-Shot CoT 등 다양한 추론 전략이 있을 텐데, DeepSeek-R1-Zero는 이런 추론 전략들을 탐색해가며 최선의 답을 찾아내게 됩니다.
DeepSeek-R1
DeepSeek-R1-Zero는 인상적인 성능을 보였지만, 가독성이 떨어지거나 여러 언어가 혼합되어 생성되는 문제가 있었습니다. 이러한 한계를 해결하기 위해 연구진은 DeepSeek-R1을 개발하면서 고품질 데이터를 소량 사용하여 "콜드 스타트" 단계를 도입했고, 이를 통해 모델의 수렴 속도를 높이고, 추론 성능을 개선할 수 있었습니다.
* 콜드 스타트란?
모델 학습에서 초기 학습 단계를 의미합니다. 특히 대규모 AI 모델을 훈련할 때, 처음부터 무작정 대량의 데이터를 학습시키면 수렴이 느려지거나 비효율적인 결과가 나올 수 있기 때문에, 처음부터 대규모 학습을 시작하는 대신, 소량의 고품질 데이터로 먼저 학습을 시키는 과정을 의미합니다.
콜드 스타트 단계에서는 수천 개의 긴 CoT 예제를 활용하여 모델을 미세 조정했고, 이를 통해 모델이 보다 일관성 있고 가독성이 높은 텍스트를 생성하도록 학습했으며, 추론 능력도 향상되었다고 합니다.
콜드 스타트 이후에는 DeepSeek-R1-Zero와 동일한 대규모 강화 학습(RL) 과정을 두었고, 이 과정에서는 코딩, 수학, 과학, 논리 추론과 같은 작업에서 모델의 추론 능력을 더욱 강화에 집중했다고 합니다.
이후 거부 샘플링(rejection sampling)과 지도 학습(SFT) 단계를 거쳐, 글쓰기 및 역할 수행(role-playing)과 같은 다양한 도메인에서 추가 데이터를 수집하여 모델의 범용성을 높이고, 마지막으로, 2차 강화 학습(RL) 단계를 통해 모델을 인간의 선호도에 맞춰 조정해 DeepSeek-R1을 완성했습니다.
Distillation
대형 언어 모델(LLM)인 DeepSeek-R1은 강력한 성능을 갖추고 있지만, 실행하는 데 많은 연산 자원이 필요했습니다. 연구진은 이러한 고급 추론 능력을 더 효율적으로 활용할 수 있도록, 증류(Distillation) 기법을 적용했습니다. 즉, DeepSeek-R1의 지식들을 작은 모델로 이전하는 방법을 탐구했고, 성공했으며, 그 결과 높은 성능을 유지하면서도 더 적은 연산 자원으로 실행할 수 있는 실용적인 모델이 탄생하게 되었습니다.
'개발 이야기 > [스터디] LLM' 카테고리의 다른 글
LLM 사용하는 방법 - 2 다양한 LLM의 종류와 활용법 (3) | 2025.04.25 |
---|---|
LLM 사용하는 방법 - 1 ChatGPT는 어떤 존재인가 (0) | 2025.04.25 |
오늘의 LLM 공부: Mixture of Expert (MoE) (0) | 2025.01.31 |
오늘의 LLM 공부: DeepSeek (1) | 2025.01.24 |
오늘의 LLM 공부: Recurrent Neural Network, Attention (0) | 2025.01.20 |