[딥러닝] 대규모 언어 모델(LLM)

Notice

개인 공부 & 기록용 블로그입니다 :D

Tags more

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Archives

Today

Total

관리 메뉴

코딩 기록 저장소

[딥러닝] 대규모 언어 모델(LLM) 본문

개인 공부/인공지능

[딥러닝] 대규모 언어 모델(LLM)

KimNang 2025. 8. 26. 10:17

1. 대규모 언어 모델 (Large Language Model, LLM)

01. LLM 개념

- 방대한 데이터를 학습해 텍스트를 이해하고 생성할 수 있는 언어 모델

- 주로 트랜스포머 신경망과 딥러닝을 활용하며, 문자·단어·문장 간 관계를 학습함

- 수천~수백만 GB의 텍스트 데이터를 학습하며, 데이터 품질이 모델 성능에 큰 영향을 줌

- 초기 학습 후 추가 학습(웹 크롤링 등)과 튜닝을 통해 특정 작업(질문 답변, 번역 등)에 맞게 성능을 향상시킴

- 사람의 개입 없이도 패턴과 의미를 인식할 수 있으며, 특정 목적에 맞게 미세 조정(fine-tuning)이 가능

LLM이 중요한 이유

- 높은 유연성 : 질문 답변, 문서 요약, 번역, 문장 완성 등 다양한 작업 수행 가능

- 생성형 AI 활용 : 입력 프롬프트만으로 자연스러운 텍스트를 생성할 수 있어 콘텐츠 제작과 검색, 가상 어시스턴트 등에 혁신적 영향

- 거대한 규모 : 수십억~수천억 개의 파라미터를 활용해 방대한 정보를 처리하고, 긴 문서나 책 단위까지 이해 가능

- 다양한 모델과 기능 : GPT-3, ChatGPT, Claude 2, Jurassic-1, Cohere Command 등 다양한 모델이 존재하며, 각 모델은 여러 언어와 대화형 기능을 지원

LLM의 주요 특징

- 대규모 데이터 학습 : 수십억 개의 단어, 문장을 포함한 방대한 데이터를 학습함

- 자연어 처리(NLP) 능력 : 텍스트 분석, 번역, 감정 분석 등 다양한 자연어 작업이 가능함

- 사람과 비슷한 언어 생성 : 마치 사람이 대화하는 것처럼 자연스러운 텍스트를 만들어낼 수 있

02. LLM의 구조 및 종류

LLM의 구조

- 기본적으로 딥러닝 기반 인공신경망 구조를 따르며, 대표적으로 Transformer 아키텍처 위에 구축됨

- 구조는 크게 입력→처리→출력 단계

입력 (Input)
- 텍스트(문자열)를 토큰 단위로 분할 (Tokenization)
- 각 토큰을 임베딩 벡터로 변환 (Word Embedding)
- 순서 정보를 반영하기 위해 Positional Encoding 추가
처리 (Transformer 블록)
- 인코더(Encoder) : 입력 문맥을 이해하는 층
- 디코더(Decoder) : 다음 단어를 생성하는 층
- 각 블록은 Multi-Head Self Attention + Feed-Forward Network(FFN) + 정규화(Normalization, Residual Connection) 으로 구성됨
- Attention 메커니즘을 통해 단어 간 관계를 학습
출력 (Output)
- 마지막 벡터를 Softmax를 통해 확률 분포로 변환
- 가장 높은 확률의 토큰을 선택하거나, 샘플링을 통해 다음 단어를 생성
- 순차적으로 반복하여 문장/텍스트 생성

LLM의 종류

- 각기 다른 목적과 방식으로 개발되었으며, 대표적인 모델로는 GPT 계열, BERT 계열, LLaMA, BLOOM 등이 있음

GPT 계열 (Generative Pretrained Transformer)
- OpenAI에서 개발한 Autoregressive 모델
- 주로 텍스트 생성 작업에 뛰어난 성능을 발휘함
- GPT-3는 1750억 개의 파라미터를 가지고 있으며, 질의응답, 번역, 텍스트 요약 등 다양한 작업에서 사용됨
BERT 계열(Bidirectional Encoder Representations from Transformers)
- Google에서 개발한 모델
- 문맥을 양방향으로 이해하는 데 중점을 둔 모델
- 질의응답(QA)과 같은 작업에 특히 강하며, 문장 분류나 문맥 이해 작업에서 높은 성능을 보여줌
LLaMA (Large Language Model Meta AI)
- Meta에서 개발한 LLaMA는 상대적으로 적은 파라미터로도 높은 성능을 내는 것을 목표로 한 모델
- 최신 버전인 LLaMA 3.2는 모바일 및 엣지 디바이스에서도 구동 가능한 모델
- 온디바이스 AI 응용에 적합함
BLOOM
- BigScience 프로젝트에서 개발한 대규모 오픈소스 언어 모델, 다양한 언어를 지원하는 것이 특징
- 다국어 데이터에 특화된 NLP 작업에 적합
- GPT-3와 유사한 성능

2. LLM의 활용과 발전 방향

01. LLM의 주요 활용 분야

- 콘텐츠 생성 : 기사, 블로그 게시물, 마케팅 문구, 시나리오 등 다양한 텍스트 콘텐츠를 생성하거나 초안을 작성하는 데 사용함

- 번역 및 요약 : 여러 언어를 이해하고 번역하거나, 긴 문서의 핵심 내용을 빠르게 요약하는 데 좋은 성능을 보임

- 고객 서비스 및 챗봇 : 대화형 인터페이스를 제공하여 고객 문의에 응대하거나, 정보 제공 역할을 수행하는 챗봇으로 활용됨

- 코딩 및 개발 : 코드 생성, 디버깅, 주석 작성, 코드 개선 등 개발자 업무를 지원함

- 교육 및 연구 : 맞춤형 학습 자료 제작, 질의응답 시스템, 논문 요약 등 교육과 연구 활동을 도움

- 개인 비서 : 일정 관리, 이메일 초안 작성, 회의록 요약 등 개인의 생산성 향상을 도움

02. LLM의 주요 한계

- 정확성 문제 : 사실과 다른 허위 정보를 마치 사실인 것처럼 생성하는 환각(Hallucination) 현상. 이는 학습 데이터의 오류나 불완전성, 모델의 추론 과정 오류로 인해 발생함

- 최신 정보 부족 : 학습에 사용된 데이터가 특정 시점까지의 정보로 한정되어 있어, 그 이후의 최신 정보를 반영하지 못하는 경우가 많음

- 편향성 문제 : 학습 데이터에 포함된 사회적, 문화적 편견이 모델에 반영되어 편향된 답변을 생성할 수 있음

- 비용 및 자원: 거대 모델을 훈련하고 운영하는 데 막대한 컴퓨팅 자원과 비용이 필요함

'개인 공부 > 인공지능' 카테고리의 다른 글

[딥러닝] 순환 신경망(Recurrent Neural Network, RNN) (0)	2024.03.27
[kaggle/Flask] 견종 분류 모델 웹에 구현하기 (1)	2023.10.04
[kaggle/TensorFlow] 견종 이미지 분류 모델 구현 - 2 (0)	2023.09.26
[kaggle/TensorFlow] 견종 이미지 분류 모델 구현 - 1 (0)	2023.09.26
[GPU설정] CUDA 환경 구성 (Tensorflow, PyTorch) (1)	2023.09.25

'개인 공부/인공지능' Related Articles

코딩 기록 저장소

[딥러닝] 대규모 언어 모델(LLM) 본문

[딥러닝] 대규모 언어 모델(LLM)

1. 대규모 언어 모델 (Large Language Model, LLM)

01. LLM 개념

02. LLM의 구조 및 종류

2. LLM의 활용과 발전 방향

01. LLM의 주요 활용 분야

02. LLM의 주요 한계

'개인 공부 > 인공지능' 카테고리의 다른 글

티스토리툴바