- study
- Baekjoon
- 리눅스마스터2급
- app
- 2023_1st_Semester
- codingTest
- Artificial_Intelligence
- 자격증
- cloud_computing
- tensorflow
- Android
- Algorithm
- Image_classification
- SingleProject
- Univ._Study
- Unix_System
- 티스토리챌린지
- Database_Design
- Linux
- programmers
- kubeflow
- Personal_Study
- C
- Java
- c++
- datastructure
- 오블완
- Kubernetes
- Operating_System
- Python
코딩 기록 저장소
[딥러닝] 대규모 언어 모델(LLM) 본문
목차
1. 대규모 언어 모델 (Large Language Model, LLM)
01. LLM 개념
- 방대한 데이터를 학습해 텍스트를 이해하고 생성할 수 있는 언어 모델
- 주로 트랜스포머 신경망과 딥러닝을 활용하며, 문자·단어·문장 간 관계를 학습함
- 수천~수백만 GB의 텍스트 데이터를 학습하며, 데이터 품질이 모델 성능에 큰 영향을 줌
- 초기 학습 후 추가 학습(웹 크롤링 등)과 튜닝을 통해 특정 작업(질문 답변, 번역 등)에 맞게 성능을 향상시킴
- 사람의 개입 없이도 패턴과 의미를 인식할 수 있으며, 특정 목적에 맞게 미세 조정(fine-tuning)이 가능
LLM이 중요한 이유
- 높은 유연성 : 질문 답변, 문서 요약, 번역, 문장 완성 등 다양한 작업 수행 가능
- 생성형 AI 활용 : 입력 프롬프트만으로 자연스러운 텍스트를 생성할 수 있어 콘텐츠 제작과 검색, 가상 어시스턴트 등에 혁신적 영향
- 거대한 규모 : 수십억~수천억 개의 파라미터를 활용해 방대한 정보를 처리하고, 긴 문서나 책 단위까지 이해 가능
- 다양한 모델과 기능 : GPT-3, ChatGPT, Claude 2, Jurassic-1, Cohere Command 등 다양한 모델이 존재하며, 각 모델은 여러 언어와 대화형 기능을 지원
LLM의 주요 특징
- 대규모 데이터 학습 : 수십억 개의 단어, 문장을 포함한 방대한 데이터를 학습함
- 자연어 처리(NLP) 능력 : 텍스트 분석, 번역, 감정 분석 등 다양한 자연어 작업이 가능함
- 사람과 비슷한 언어 생성 : 마치 사람이 대화하는 것처럼 자연스러운 텍스트를 만들어낼 수 있
02. LLM의 구조 및 종류
LLM의 구조
- 기본적으로 딥러닝 기반 인공신경망 구조를 따르며, 대표적으로 Transformer 아키텍처 위에 구축됨
- 구조는 크게 입력→처리→출력 단계
- 입력 (Input)
- 텍스트(문자열)를 토큰 단위로 분할 (Tokenization)
- 각 토큰을 임베딩 벡터로 변환 (Word Embedding)
- 순서 정보를 반영하기 위해 Positional Encoding 추가 - 처리 (Transformer 블록)
- 인코더(Encoder) : 입력 문맥을 이해하는 층
- 디코더(Decoder) : 다음 단어를 생성하는 층
- 각 블록은 Multi-Head Self Attention + Feed-Forward Network(FFN) + 정규화(Normalization, Residual Connection) 으로 구성됨
- Attention 메커니즘을 통해 단어 간 관계를 학습 - 출력 (Output)
- 마지막 벡터를 Softmax를 통해 확률 분포로 변환
- 가장 높은 확률의 토큰을 선택하거나, 샘플링을 통해 다음 단어를 생성
- 순차적으로 반복하여 문장/텍스트 생성
LLM의 종류
- 각기 다른 목적과 방식으로 개발되었으며, 대표적인 모델로는 GPT 계열, BERT 계열, LLaMA, BLOOM 등이 있음
- GPT 계열 (Generative Pretrained Transformer)
- OpenAI에서 개발한 Autoregressive 모델
- 주로 텍스트 생성 작업에 뛰어난 성능을 발휘함
- GPT-3는 1750억 개의 파라미터를 가지고 있으며, 질의응답, 번역, 텍스트 요약 등 다양한 작업에서 사용됨 - BERT 계열(Bidirectional Encoder Representations from Transformers)
- Google에서 개발한 모델
- 문맥을 양방향으로 이해하는 데 중점을 둔 모델
- 질의응답(QA)과 같은 작업에 특히 강하며, 문장 분류나 문맥 이해 작업에서 높은 성능을 보여줌 - LLaMA (Large Language Model Meta AI)
- Meta에서 개발한 LLaMA는 상대적으로 적은 파라미터로도 높은 성능을 내는 것을 목표로 한 모델
- 최신 버전인 LLaMA 3.2는 모바일 및 엣지 디바이스에서도 구동 가능한 모델
- 온디바이스 AI 응용에 적합함 - BLOOM
- BigScience 프로젝트에서 개발한 대규모 오픈소스 언어 모델, 다양한 언어를 지원하는 것이 특징
- 다국어 데이터에 특화된 NLP 작업에 적합
- GPT-3와 유사한 성능
2. LLM의 활용과 발전 방향
01. LLM의 주요 활용 분야
- 콘텐츠 생성 : 기사, 블로그 게시물, 마케팅 문구, 시나리오 등 다양한 텍스트 콘텐츠를 생성하거나 초안을 작성하는 데 사용함
- 번역 및 요약 : 여러 언어를 이해하고 번역하거나, 긴 문서의 핵심 내용을 빠르게 요약하는 데 좋은 성능을 보임
- 고객 서비스 및 챗봇 : 대화형 인터페이스를 제공하여 고객 문의에 응대하거나, 정보 제공 역할을 수행하는 챗봇으로 활용됨
- 코딩 및 개발 : 코드 생성, 디버깅, 주석 작성, 코드 개선 등 개발자 업무를 지원함
- 교육 및 연구 : 맞춤형 학습 자료 제작, 질의응답 시스템, 논문 요약 등 교육과 연구 활동을 도움
- 개인 비서 : 일정 관리, 이메일 초안 작성, 회의록 요약 등 개인의 생산성 향상을 도움
02. LLM의 주요 한계
- 정확성 문제 : 사실과 다른 허위 정보를 마치 사실인 것처럼 생성하는 환각(Hallucination) 현상. 이는 학습 데이터의 오류나 불완전성, 모델의 추론 과정 오류로 인해 발생함
- 최신 정보 부족 : 학습에 사용된 데이터가 특정 시점까지의 정보로 한정되어 있어, 그 이후의 최신 정보를 반영하지 못하는 경우가 많음
- 편향성 문제 : 학습 데이터에 포함된 사회적, 문화적 편견이 모델에 반영되어 편향된 답변을 생성할 수 있음
- 비용 및 자원: 거대 모델을 훈련하고 운영하는 데 막대한 컴퓨팅 자원과 비용이 필요함
- 윤리·보안 문제 : 개인정보 유출, 저작권 침해, 허위정보 생성 등으로 인한 사회적·법적 위험
'개인 공부 > 인공지능' 카테고리의 다른 글
[딥러닝] 순환 신경망(Recurrent Neural Network, RNN) (0) | 2024.03.27 |
---|---|
[kaggle/Flask] 견종 분류 모델 웹에 구현하기 (1) | 2023.10.04 |
[kaggle/TensorFlow] 견종 이미지 분류 모델 구현 - 2 (0) | 2023.09.26 |
[kaggle/TensorFlow] 견종 이미지 분류 모델 구현 - 1 (0) | 2023.09.26 |
[GPU설정] CUDA 환경 구성 (Tensorflow, PyTorch) (1) | 2023.09.25 |