개인적으로 딥시크의 가장 큰 매력은 GPT의 성능에 많이 뒤쳐지지 않으면서도 오픈 소스이고 로컬에서도 돌릴 수 있다는게 큰 장점 이라고 생각된다.
DeepSeek-R1의 성능: OpenAI o1과 비교
DeepSeek은 R1과 o1을 GPQA Diamond, SWE-bench Verified, Codeforces, AIME 등 6개의 벤치마크에서 비교했다.
두 모델은 대체로 동등한 성능을 보였다.
가장 큰 차이는 **GPQA Diamond에서 4% 차이(71.5% vs 75.7%)**뿐이다.
*GPQA란?Generative Pre-trained Question Answering의 약어로, 사전 학습된 모델이 주어진 질문에 대해 얼마나 정확하고 효과적으로 답할 수 있는지를 평가합니다. "Diamond"는 이 평가에서 특히 높은 성과를 나타내는 모델을 지칭하는 지표일 수 있습니다.
즉, DeepSeek-R1은 OpenAI의 최고 모델과 견줄 만한 수준에 도달했다. 그리고 DeepSeek은 이 모델을 오픈소스로 공개했다.
R1만이 아니다: DeepSeek이 공개한 8개의 모델
DeepSeek은 R1뿐만 아니라, R1-Zero라는 실험적인 모델도 함께 공개했다.
R1-Zero는 인간이 만든 데이터를 사용하지 않고 독자적으로 학습한 모델이다.
이는 인간의 지도 없이 AI 스스로 논리적 사고를 익힐 수 있음을 의미한다.
이 외에도 6개의 모델이 추가 공개되었다.
기존의 Qwen 및 Llama 같은 더 약한 모델들을 R1 기반으로 학습시킨 모델들이다.
특히 R1로 증류(distillation)된 Qwen-14B 모델이 OpenAI의 o1-mini보다 뛰어나며, GPT-4o나 Claude 3.5보다도 강력하다.
증류 기술의 힘
DeepSeek는 R1의 여러 증류 모델도 함께 발표했다. R1-Zero는 인간이 라벨링한 데이터를 사용하지 않고, **강화 학습(RL)**만을 활용해 훈련됐다. 이는 DeepMind가 AlphaGo Zero에서 사용한 방식과 유사하다. R1-Zero는 R1보다는 성능이 떨어지지만, 인간의 데이터 없이 스스로 추론 능력을 학습하는 이 접근법은 혁신적이다.
또한, R1을 기반으로 한 증류 모델들, 예를 들어 Qwen-14B는 GPT-3보다 12배 작은 크기에도 불구하고 성능이 더 뛰어나다. 증류는 강력한 모델이 더 작은 모델을 교육시킬 수 있는 방법으로, DeepSeek는 이를 통해 효율성을 극대화했다.
왜 이것이 중요한가?
DeepSeek의 접근 방식은 AI 개발의 경계를 밀어내고 있다. 그들은 최고 수준의 AI 모델을 저비용, 고효율로 제공하며, 미국의 기업들이 그동안 설정한 기준을 뛰어넘었다. 이는 단순한 기술적 진전을 넘어서, 지정학적으로도 중요한 함의를 갖는다. 이제 AI 패권을 쥐고 있는 나라들이 단순히 기술적 경쟁을 넘어서, 글로벌 영향력을 놓고 싸우는 시대가 다가오고 있다.
R1-Zero와 같은 모델이 발전하면, AI는 인간이 이해할 수 없는 방식으로 사고를 할 수 있게 될 것이다. DeepSeek는 이러한 가능성을 실현하고 있으며, 이는 단순히 기술적 진보를 넘어서는 의미를 가진다.
결론
OpenAI가 전선 연구를 비공개로 진행하는 것과는 달리, DeepSeek는 오픈 소스 전략을 채택하여 국제적인 협력을 촉진하고 있다. 기존에도 오픈소스로 풀린 LLM이 있었지만 성능문제와 개인의 컴퓨터에서 사용하기에 힘든점이 있었는데 고맙게도 DeepSeek가 개개인이 LLM을 사용할 수 있도록 시장을 넓혀주는것 같다. 앞으로 LLM 서버를 자체적으로 구축하여 서비스에 어떻게 활용할 수 있을지 기대된다.
다만 아직은 개인이 로컬에서 R1 모델을 돌릴려면 고용량의 VRAM과 디스크 용량이 필요하니 조금 더 기다려보자..