개발 이야기/[스터디] LLM
오늘의 LLM 공부: LCM vs LLM
경이로운아일라
2025. 1. 14. 12:47
토큰 기반 LLM
현재 LLM은 토큰 단위로 동작하며, 입력을 처리하고 출력을 단어 단위로 생성합니다.
이때 토큰은 간단하게 단어, 하위 단어, 구두점으로 구분할 수도 있지만,
- 예: "Natural Language Processing is amazing."
- 토큰화 결과: ["Natural", "Language", "Processing", "is", "amazing", "."]
그 외에도 LLM 에서 사용되는 토큰화 알고리즘이 존재합니다.
예를 들어, Google의 BERT 모델에서 사용하는 토큰화 알고리즘은, WordPiece, 입니다.
이는,
- 희귀 단어를 처리하기 위해 단어를 서브워드 단위로 분할.
- 예: "playing" → ["play", "##ing"]
위와 같은 토큰화 알고리즘을 갖고 있습니다.
토큰 기반 LLM의 단점
입력 데이터를 단어(혹은 서브워드) 수준으로 처리하기 때문에, 고차원적이고 추상적인 개념(컨셉)을 이해하는 데 한계가 있습니다.
- 예시:
- "Jane went to the park. She loved the flowers there."
- 모델은 "She"가 "Jane"을 가리킨다는 문맥적 단서를 놓칠 가능성이 있음.
또, 희귀 단어에 대한 정확한 의미 이해력도 부족하다고 합니다.
- 예시:
- "초미세먼지" → ["초", "미세", "먼지"]로 분리되면서 원래 단어의 고유 의미가 약화.
LCM(Large Concept Model)
이를 극복하기 위해, 기존의 언어 모델(LLM)처럼 단어 하나하나를 처리하는 대신, 문장 전체나 아이디어를 하나의 덩어리로 처리하는 모델 LCM이 등장했습니다. 이때 처리하는 덩어리를 컨셉(Concept)이라고 부릅니다.
- 컨셉(Concept): 단어를 넘어선 문장, 아이디어, 또는 추상적인 의미의 단위.
- 예: "John went to Paris in 2023" → 이 문장은 하나의 컨셉으로 다뤄져요.
("John went" 따로, "Paris" 따로 보는 게 아니라, 문장 전체를 하나로 이해하는 거예요.)
- 예: "John went to Paris in 2023" → 이 문장은 하나의 컨셉으로 다뤄져요.
- 임베딩 공간: 이 컨셉을 숫자로 바꿔 지도처럼 표현하는 곳이에요.
- "Paris is in France." → 숫자로 바꾸면 (5.1, 2.3, 3.9)
- "The Eiffel Tower is in Paris." → 숫자로 바꾸면 (5.2, 2.4, 4.0)
→ 두 개가 비슷한 문장이니, 숫자가 서로 가까워요.
- LLM 과의 차이
- 기존 모델(LLM):
단어를 하나씩 이해하려고 해요.- 예: "John went to Paris in 2023" → ["John", "went", "to", "Paris", "in", "2023"]
- LCM:
문장 전체를 하나의 큰 의미 단위(컨셉)로 이해해요.- 예: "John went to Paris in 2023" → 하나의 컨셉으로 변환.
- LCM은 문장(컨셉) 단위로 데이터를 처리하고, 언어와 모달리티를 초월한 의미 기반 추론에 더 초점을 맞출 수 있습니다.
- 기존 모델(LLM):
GPT-4는 토큰 기반의 LLM이며, LCM 은 아직 한창 개발 중이다. LCM이 상용화할 있는 수준까지 개발된다면, 그 성능은 GPT-4보다 훨씬 좋을 수도?