1. LLM의 지능은 어디에서 오는가?
거대 언어 모델(LLM) 개발은 크게 세 가지 핵심 단계를 거칩니다. 첫째, 방대한 텍스트 데이터를 학습하여 세상의 지식을 내재화하는 프리트레이닝(Pre-training), 둘째, 대화 형식의 데이터를 통해 모델이 유용한 응답을 하도록 길들이는 지도 미세조정(Supervised Fine-Tuning, SFT), 그리고 마지막으로 인간의 피드백을 통해 응답의 품질을 더욱 정교하게 다듬는 강화 학습(Reinforcement Learning, RL) 입니다. 이 모든 과정의 시작점이자 모델의 근본적인 잠재력을 결정하는 단계는 단연 '프리트레이닝'입니다.
프리트레이닝은 모델에게 세상에 대한 보편적인 지식과 언어적 패턴을 가르치는 과정으로, 마치 한 사람의 지적 토대를 쌓는 것과 같습니다. 이 단계에서 얼마나 양질의 데이터를 폭넓게 학습했는지가 모델이 발휘할 수 있는 능력의 최대치를 결정합니다. 즉, 프리트레이닝은 모델의 '포텐'을 결정하는 가장 중요한 전략적 단계입니다. 이 과정의 핵심은 단연 '데이터'이며, 본 보고서는 LLM이 세상을 학습하는 첫 관문인 웹 크롤링 기반의 대규모 학습 데이터 구축 파이프라인을 심층적으로 분석하고자 합니다. 지금부터 인터넷이라는 무한한 정보의 바다에서 어떻게 보석 같은 데이터를 길어 올리는지, 그 현실적인 과정을 살펴보겠습니다.
2. 대규모 데이터 수집: 인터넷을 집어삼키는 거인들
LLM 프리트레이닝에 필요한 데이터의 양은 인간의 상상을 초월합니다. 이 과정은 단순히 인터넷의 정보를 수집하는 것을 넘어, 모델이 이해하고 학습할 지식의 경계를 설정하는 전략적 행위입니다. LLM 개발의 최전선에 있는 기업들은 이 막대한 데이터를 확보하기 위해 체계적인 전략을 구사합니다.
OpenAI의 OpenAI-Bot이나 Anthropic의 ClaudeBot과 같은 자체 웹 크롤러는 이러한 데이터 수집의 핵심 도구입니다. 이 봇들은 과거 검색 엔진 최적화(SEO)를 위해 웹을 인덱싱하던 크롤러의 개념을 계승했지만, 이제는 인터넷 전체를 LLM의 학습 자료로 삼기 위해 끊임없이 순회하며 텍스트를 수집합니다. 물론 웹사이트 운영자는 robots.txt 파일을 통해 이러한 크롤러의 접근을 제어하거나 차단할 수 있는 권한을 가집니다.
하지만 모든 개발사가 자체 크롤러와 데이터를 구축하기는 어렵기 때문에, 공개적으로 사용 가능한 대규모 데이터셋의 역할이 매우 중요합니다. 대표적인 데이터셋은 다음과 같습니다.
- Common Crawl: 2007년부터 활동을 시작한 비영리 재단이 구축한 데이터셋입니다. 전 세계 웹에서 수집한 약 400TB 규모의 방대한 원시 웹 데이터를 누구나 사용할 수 있도록 제공합니다.
- FineWeb (by Hugging Face): Common Crawl 데이터를 기반으로 허깅페이스(Hugging Face)가 정제하여 공개한 고품질 데이터셋입니다. 2024년 5월에 공개된 이 최신 데이터셋은 원시 데이터에서 불순물을 제거하여 15조(Trillion) 개의 토큰, 약 44TB 규모의 정제된 텍스트로 구성되어 있습니다.
이처럼 방대한 데이터를 수집하고 관리하는 과정은 LLM 개발 초기 단계에서 가장 많은 시간과 노력을 요구하는 작업입니다. 이는 고도의 알고리즘 설계만큼이나 중요하지만, 많은 AI 엔지니어들이 "내가 왜 이런 단순 반복 작업을 하고 있는가"라는 현실적인 고충을 토로할 만큼 막대한 리소스를 소모하는 '노가다성' 작업으로 인식되기도 합니다. 그러나 단순히 데이터를 많이 모으는 것만으로는 충분하지 않습니다. 수집된 원석 같은 데이터를 모델이 소화할 수 있는 보석으로 만드는 정제 과정이 필수적이며, 이 과정이 모델의 최종 성능을 좌우하게 됩니다.
3. 원석에서 보석으로: 고품질 데이터 정제 파이프라인
웹에서 수집된 수백 테라바이트의 원시 데이터는 광고, 스팸, 중복 콘텐츠, 개인정보 등 학습에 유해하거나 불필요한 정보들로 가득 차 있습니다. 이러한 데이터를 그대로 학습에 사용할 경우, 모델은 잘못된 정보를 배우거나 편향된 결과를 생성할 위험이 큽니다. 따라서 모델의 성능과 안정성을 확보하기 위해서는 체계적인 데이터 정제 파이프라인을 구축하는 것이 무엇보다 중요합니다.
허깅페이스가 공개한 FineWeb 데이터셋 구축 과정은, 고품질 데이터 정제 파이프라인의 대표적인 실제 사례로서 다음과 같은 핵심 단계를 포함합니다.
- 블랙리스트 필터링 (Blacklist Filtering) URL 단계에서 스팸, 성인 콘텐츠 또는 품질이 현저히 낮은 사이트 목록을 기반으로 데이터를 사전에 걸러냅니다. 이는 파이프라인의 첫 관문에서 대량의 불필요한 데이터를 효율적으로 제거하는 역할을 합니다.
- HTML 텍스트 추출 (Text Extraction) 크롤링된 데이터는 HTML 형식입니다. 이 단계에서는 웹페이지의 광고, 내비게이션 메뉴, 푸터 등 본문과 관련 없는 요소를 모두 제거하고, 순수한 텍스트 콘텐츠만 정확하게 추출합니다. 이는 모델이 글의 핵심 내용에 집중하여 학습할 수 있도록 돕습니다.
- 언어 분류 (Language Classification) 언어 분류기를 사용하여 각 문서의 언어를 판별합니다. 특정 언어 모델(예: 영어 모델)을 개발할 경우 해당 언어의 비율이 높은 문서만 선별하고, 다국어 모델을 만들 경우에는 의도한 언어 비율에 맞게 데이터를 조정하는 데 사용됩니다.
- 민감 정보 제거 (PII Removal) 이메일 주소, 전화번호 등 학습 데이터에 포함될 수 있는 개인 식별 정보(PII)와 같은 민감 데이터를 탐지하고 제거합니다. 이는 모델의 윤리성과 안전성을 확보하기 위한 필수적인 과정입니다.
- 중복 제거 (Deduplication) 인터넷에는 동일하거나 유사한 내용의 콘텐츠가 광범위하게 퍼져있습니다. 중복된 문서를 제거함으로써 학습 데이터의 다양성을 확보하고, 특정 정보에 대한 모델의 과적합(overfitting) 및 편향을 방지하여 학습 효율을 극대화합니다.
이러한 다단계 정제 과정은 AI 엔지니어에게 상당한 기술적 노하우와 노력을 요구합니다. 특히 'Sovereign AI' 관점에서 특정 국가나 문화권에 특화된 모델을 개발하기 위해서는 아키텍트의 전략적 판단이 중요합니다. 예를 들어 한국어 데이터의 특성을 반영한 정제 규칙을 추가하거나, 특정 산업 도메인의 데이터를 선별적으로 보강하는 결정이 모델의 최종 경쟁력을 좌우합니다. 이 모든 과정을 거쳐 깨끗하게 정제된 텍스트는 이제 모델이 직접 이해할 수 있는 디지털 형식, 즉 '토큰(Token)'으로 변환될 준비를 마칩니다.
4. 언어의 디지털화: 모델의 눈, 토큰(Token)
모델은 인간의 언어인 텍스트를 직접 이해할 수 없습니다. 따라서 잘 정제된 텍스트 데이터를 모델이 처리할 수 있는 숫자 시퀀스로 변환하는 과정이 필요한데, 이를 **토큰화(Tokenization)**라고 합니다. 이 과정은 LLM이 세상을 인식하는 방식을 근본적으로 결정하는 매우 중요한 단계입니다.
토큰(Token)은 '인간의 관점에서 단어와 유사한 단위'로 생각할 수 있습니다. 안드레이 카파시(Andrej Karpathy)는 이를 '심볼(Symbol)'에 비유하며, LLM이 세상을 결국 이 심볼들의 연속적인 시퀀스로 인식한다고 설명합니다. 모델의 어휘집(Vocabulary)은 이러한 토큰들로 구성되며, GPT-4의 경우 약 10만 개, 최신 모델들은 20만 개 이상의 토큰을 사용합니다.
중요한 것은, 이 토큰화 과정이 단순히 정해진 규칙에 따라 기계적으로 수행되는 것이 아니라는 점입니다. 카파시가 지적했듯, 토큰화는 LLM 학습 파이프라인에서 가장 '휴리스틱(heuristic)'한 부분, 즉 엔지니어의 경험과 직관적 판단이 가장 많이 개입되는 설계의 영역입니다. 어떤 단위를 토큰으로 삼을지, 어휘집의 크기는 어느 정도로 할지 등은 성능과 효율성 사이의 복잡한 트레이드오프를 수반하는 아키텍트의 핵심적인 의사결정 사항입니다.
이 설계의 결과는 언어에 따라 효율성에서 큰 차이를 보입니다. 예를 들어, tiktoken 라이브러리의 GPT-4 토크나이저를 사용해 동일한 의미의 문장을 영어와 한국어로 변환하면 다음과 같은 결과가 나타납니다.
| 언어 | 원문 텍스트 (예시) | 토큰 수 | 분석 및 시사점 |
| 영어 | "You can think of it as a word from a human perspective." | 76 | 대부분의 단어가 하나의 토큰으로 효율적으로 처리됩니다. |
| 한국어 | "인간의 관점에서 보면 그냥 단어 같은 거라고 생각하시면 돼요." | 162 (GPT-4 토크나이저) | '인', '간', '의'처럼 글자 단위로 분해되는 경향이 있어 매우 비효율적입니다. 이는 API 비용 증가와 컨텍스트 길이 제한이라는 실질적인 문제로 직결되며, 과거 모델의 한국어 성능 저하의 주요 원인이었습니다. (최신 토크나이저에서는 101 토큰으로 개선됨) |
또한, 모델은 문장의 시작(BOS, Begin of Sentence)과 끝(EOS, End of Sentence)을 알리거나 대화의 흐름을 제어하기 위한 **특수 토큰(Special Tokens)**을 함께 사용합니다. 이렇게 생성된 토큰 시퀀스는 비로소 LLM의 실제 입력값이 됩니다. 그리고 이 입력값을 기반으로 모델은 자신의 핵심 임무, 즉 '다음 토큰 예측'을 수행하게 됩니다.
5. 결론: 잘 구축된 데이터가 똑똑한 LLM을 만든다
지금까지 살펴본 바와 같이, LLM의 학습 데이터를 구축하는 과정은 단순히 인터넷의 글을 긁어모으는 것을 넘어, 여러 단계의 정교한 정제와 전략적인 토큰화를 거치는 복잡하고 중요한 작업입니다. 이 길고 험난한 프리트레이닝 단계를 거쳐 탄생한 **'베이스 모델(Base Model)'**은 그 자체로 엄청난 잠재력을 지닌 존재가 됩니다.
이러한 베이스 모델의 특성은 몇 가지 비유를 통해 입체적으로 이해할 수 있습니다. 기능적으로 베이스 모델은 인터넷의 방대한 텍스트 통계 패턴을 학습한 '인터넷 문서 시뮬레이터'로 볼 수 있습니다. 그 잠재력의 측면에서는, 세상의 거의 모든 지식을 품고 있지만 아직 사람과 소통하는 법은 배우지 않은 '사회화가 덜 된 친구'에 비유할 수 있습니다. 그리고 기술적으로는 수십 테라바이트에 달하는 텍스트를 수백 기가바이트의 파라미터로 압축한 '인터넷의 손실 압축 파일'과도 같습니다.
결론적으로, 웹 크롤링부터 시작되는 이 모든 데이터 구축 과정은 LLM이 다음 단어를 예측하는 근본적인 능력을 갖추게 하는 토대입니다. 이 토대가 견고할 때, 모델은 비로소 **퓨샷 프롬프트(Few-shot Prompt)**와 같은 고급 응용을 통해 번역, 요약 등 다양한 작업을 수행할 수 있는 놀라운 유연성을 발휘하게 됩니다. 결국, 잘 구축된 데이터야말로 똑똑하고 유능한 LLM을 만드는 진정한 초석이라 할 수 있습니다.
'LLM' 카테고리의 다른 글
| Fine-Tuning Llama 3.1 with Unsloth (0) | 2026.03.30 |
|---|---|
| 보안과 실무 효율을 동시에 잡는 SLM 도입 및 활용 전략 (0) | 2026.03.22 |
| Embedding 예제 (0) | 2026.01.27 |
| Tokenization, Vectorization and Embedding (0) | 2026.01.26 |
| LLM 만들기 Fine tuning (0) | 2026.01.25 |