2025년 AI 엔지니어링 필독서 목록
AI 엔지니어링 분야의 10개 영역에서 50개의 논문/모델/블로그를 선정했습니다: LLM, 벤치마크, 프롬프팅, RAG, 에이전트, 코드생성, 비전, 음성, 디퓨전, 파인튜닝.
AI 엔지니어가 되는 것에 도전하는 분들은 여기서부터 시작하세요.
[2024년 베스트 시리즈] 강연자들의 선택으로 2024년을 정리할 수 있지만, [페이퍼 클럽] 운영에 대해 글을 쓴 이후로 직장이나 친구들과 함께 시작하시는 분들을 위한 추천 읽기 목록을 많이 요청받았습니다. [2023 a16z 캐논]으로 시작했지만, 2025년 업데이트와 실용적인 초점이 필요했습니다.
여기서 AI 엔지니어를 위한 "필수 읽기"를 선별했습니다. 우리의 설계 목표는 다음과 같습니다:
약 50개의 논문 선정 (1년에 주 1회 정도). 임의로 정한 제약사항입니다.
그저 이름만 나열하는 대신 이 논문이 왜 중요한지 설명합니다
AI 엔지니어에게 매우 실용적이도록 합니다. Attention is All You Need와 같은 논문은 제외했습니다. 그 이유는 1) 이미 모든 사람이 거기서 시작하고, 2) 대부분의 사람들이 실제 업무에서는 그것이 필요하지 않기 때문입니다.
각 섹션별로 5개의 "논문"을 선정했습니다:
[섹션 1: 최신 LLM]
[섹션 2: 벤치마크와 평가]
[섹션 3: 프롬프팅, ICL & Chain of Thought]
[섹션 4: 검색 강화 생성(RAG)]
[섹션 5: 에이전트]
[섹션 6: 코드 생성]
[섹션 7: 비전]
[섹션 8: 음성]
[섹션 9: 이미지/비디오 디퓨전]
[섹션 10: 파인튜닝]
이 글은 원문을 Claude Sonnet 3.5로 번역한 글이라, 링크가 정확하지 않을 수 있습니다. 잘못된 링크가 있다면, 원문을 참고하세요.
섹션 1: 최신 LLM
GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 논문들. 설명이 필요 없죠. GPT3.5, 4o, o1, o3는 논문 대신 출시 이벤트와 시스템 카드로 발표되었습니다.
Claude 3와 Gemini 1 논문들 - 경쟁자들을 이해하기 위해. 최신 버전은 Claude 3.5 Sonnet과 Gemini 2.0 Flash/Flash Thinking입니다. Gemma 2도 있습니다.
LLaMA 1, Llama 2, Llama 3 논문들 - 선도적인 오픈 모델을 이해하기 위해. Mistral 7B, Mixtral, Pixtral은 Llama 계열의 한 분파로 볼 수 있습니다.
DeepSeek V1, Coder, MoE, V2, V3 논문들. 선도적인 (비교적) 오픈 모델 연구소입니다.
Apple Intelligence 논문. 모든 Mac과 iPhone에 탑재되어 있습니다.
주목할 만한 언급: AI2 (Olmo, Molmo, OlmOE, Tülu 3, Olmo 2), Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM - 대부분 순위가 낮거나 논문이 없습니다. Alpaca와 Vicuna는 역사적 의미가 있고, Mamba 1/2와 RWKV는 미래의 잠재력이 있습니다. 시간이 된다면, Scaling Law 문헌도 추천합니다: Kaplan, Chinchilla, Emergence / Mirage, Post-Chinchilla laws.
섹션 2: 벤치마크와 평가
MMLU 논문 - 주요 지식 벤치마크로, GPQA와 BIG-Bench와 함께 있습니다. 2025년에는 최신 연구소들이 MMLU Pro, GPQA Diamond, BIG-Bench Hard를 사용합니다.
MuSR 논문 - 긴 문맥 평가로, LongBench, BABILong, RULER와 함께 있습니다. Lost in The Middle 문제와 Needle in a Haystack과 같은 이슈들을 해결합니다.
MATH 논문 - 수학 경시대회 문제 모음입니다. 최신 연구소들은 MATH의 하위 집합에 집중합니다: MATH level 5, AIME, FrontierMath, AMC10/AMC12.
IFEval 논문 - 선도적인 지시 사항 따르기 평가이며 Apple이 채택한 유일한 외부 벤치마크입니다. MT-Bench도 IF의 한 형태로 볼 수 있습니다.
ARC AGI 챌린지 - 많은 벤치마크가 빠르게 포화되는 것에 비해 오래 지속된 유명한 추상 추론 "IQ 테스트" 벤치마크입니다.
우리는 이들 중 많은 것을 Benchmarks 101과 Benchmarks 201에서 다뤘고, Carlini, LMArena, Braintrust 에피소드에서는 비공개, 아레나, 제품 평가를 다뤘습니다(LLM-as-Judge와 Applied LLMs 에세이 참조). 벤치마크는 데이터셋과 연결되어 있습니다.
섹션 3: 프롬프팅, ICL & Chain of Thought
참고: GPT3 논문("Language Models are Few-Shot Learners")에서 이미 In-Context Learning (ICL) - 프롬프팅의 가까운 사촌 - 을 소개했어야 했습니다. 우리는 또한 프롬프트 인젝션을 필수 지식으로 간주합니다. - Lilian Weng, Simon W.
Chain-of-Thought 논문 - Scratchpads와 Let's Think Step By Step와 함께 Chain of Thought를 대중화한 여러 주장자 중 하나입니다.
Tree of Thought 논문 - 선행 탐색과 백트래킹 도입 (팟캐스트)
Prompt Tuning 논문 - 프롬프트가 필요 없을 수도 있습니 다 - Prefix-Tuning, 디코딩 조정 (예: 엔트로피를 통해), 또는 representation engineering을 할 수 있다면
Automatic Prompt Engineering 논문 - 인간이 제로샷 프롬프팅에 매우 취약하다는 것이 점점 더 명백해지고 있으며, 프롬프팅 자체가 LLM에 의해 향상될 수 있습니다. 이의 가장 주목할 만한 구현은 DSPy 논문/프레임워크입니다.
섹션 4: 검색 강화 생성(RAG)
정보 검색 입문 - 책을 추천하는 것이 좀 불공평할 수 있지만, RAG가 IR 문제라는 점과 IR이 60년의 역사를 가지고 있다는 점을 강조하고 싶습니다. 여기에는 TF-IDF, BM25, FAISS, HNSW 같은 "지루한" 기술들이 포함됩니다.
2020년 Meta RAG 논문 - 이 용어를 만든 논문입니다. 원저자들은 Contextual을 시작했고 RAG 2.0을 만들었습니다. 현대의 RAG "필수 요소" - HyDE, chunking, rerankers, 멀티모달 데이터는 다른 곳에서 더 잘 설명되어 있습니다.
MTEB: 대규모 텍스트 임베딩 벤치마크 논문 - 사실상의 리더이며, 알려진 이슈들이 있습니다. 많은 임베딩들이 논문을 가지고 있습니다 - 선택하세요 - OpenAI, Nomic Embed, Jina v3, cde-small-v1 - 마트료시카 임베딩이 점점 표준이 되어가고 있습니다.
GraphRAG 논문 - RAG에 지식 그래프를 추가하는 Microsoft의 접근방식으로, 현재 오픈소스화 되었습니다. 2024년 RAG에서 가장 인기 있는 트렌드 중 하나로, ColBERT/ColPali/ColQwen(비전 섹션에서 더 자세히)과 함께 있습니다.
RAGAS 논문 - OpenAI가 추천한 간단한 RAG 평가입니다. Nvidia FACTS 프레임워크와 LLM의 외재적 환각도 참조하세요. Lilian Weng의 환각의 원인/평가에 대한 서베이입니다(또한 Jason Wei의 재현율 vs 정밀도 참조).
RAG는 2024년 직장에서 AI 엔지니어링의 기본이므로, 많은 산업 자원과 실제 경험이 필요할 것입니다. LlamaIndex(강좌)와 LangChain(비디오)이 교육 자료에 가장 많이 투자했습니다. 또한 끊임없는 RAG vs 긴 문맥 논쟁도 알고 있어야 합니다.