임베딩, Knowledge, Chunk, Top-K, 역할 설정, 프롬프트 강화까지
Agent를 만들기 위해 알아야 할 모든 개념을 순서대로 정리했다.
Dataset을 가공해서 Knowledge를 만들고, 역할과 프롬프트를 더해 Agent를 완성한다.
Knowledge ⊃ Chunk ⊃ Embedding 순서의 계층 구조.
텍스트의 의미를 고차원 숫자 배열로 변환하는 기술. 의미가 비슷할수록 벡터 공간에서 가까이 위치한다.
긴 문서를 검색하기 좋은 크기로 잘라낸 조각. Chunk Size는 검색 정밀도와 문맥 품질에 직접 영향을 준다.
| 크기 | 토큰 | 검색 정밀도 | 문맥 품질 | 추천 용도 |
|---|---|---|---|---|
| Small | 128–256 | ⭐⭐⭐⭐⭐ | ⭐⭐ | FAQ, 단문 QA |
| Medium ★ | 512–1024 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 사내 문서, 매뉴얼 |
| Large | 2048+ | ⭐⭐ | ⭐⭐⭐⭐⭐ | 논문, 법률, 기술 명세 |
사용자 질문과 가장 유사한 Chunk를 벡터 DB에서 K개 가져오는 것. K값이 클수록 더 많은 문맥을 LLM에 전달한다.
| K 값 | Chunk 수 | 장점 | 단점 | 추천 상황 |
|---|---|---|---|---|
| K = 1 | 1개 | 빠름, 비용 낮음 | 정보 부족 | 단순 사실 확인 |
| K = 3 ★ | 3개 | 균형 | - | 일반 QA (기본값) |
| K = 5~10 | 5~10개 | 풍부한 문맥 | 비용 증가, 노이즈 | 복잡한 질문 |
Knowledge와 프롬프트를 연결해 완성되는 Agent. 역할(Persona), 제약(Constraint), 도구(Tool) 설정이 핵심이다.
좋은 프롬프트가 좋은 Agent를 만든다. System Prompt 구조화, RAG 연동, 출력 제어를 조합한다.
인덱싱부터 Agent 역할 설정, Top-K 검색, 답변 생성까지 전체 파이프라인.
5단계 파이프라인을 기억하자