2025년 AI 엔지니 어링 필독서 목록
AI 엔지니어링 분야의 10개 영역에서 50개의 논문/모델/블로그를 선정했습니다: LLM, 벤치마크, 프롬프팅, RAG, 에이전트, 코드생성, 비전, 음성, 디퓨전, 파인튜닝.
AI 엔지니어가 되는 것에 도전하는 분들은 여기서부터 시작하세요.
[2024년 베스트 시리즈] 강연자들의 선택으로 2024년을 정리할 수 있지만, [페이퍼 클럽] 운영에 대해 글을 쓴 이후로 직장이나 친구들과 함께 시작하시는 분들을 위한 추천 읽기 목록을 많이 요청받았습니다. [2023 a16z 캐논]으로 시작했지만, 2025년 업데이트와 실용적인 초점이 필요했습니다.
여기서 AI 엔지니어를 위한 "필수 읽기"를 선별했습니다. 우리의 설계 목표는 다음과 같습니다:
약 50개의 논문 선정 (1년에 주 1회 정도). 임의로 정한 제약사항입니다.
그저 이름만 나열하는 대신 이 논문이 왜 중요한지 설명합니다
AI 엔지니어에게 매우 실용적이도록 합니다. Attention is All You Need와 같은 논문은 제외했습니다. 그 이유는 1) 이미 모든 사람이 거기서 시작하고, 2) 대부분의 사람들이 실제 업무에서는 그것이 필요하지 않기 때문입니다.
각 섹션별로 5개의 "논문"을 선정했습니다:
[섹션 1: 최신 LLM]
[섹션 2: 벤치마크와 평가]
[섹션 3: 프롬프팅, ICL & Chain of Thought]
[섹션 4: 검색 강화 생성(RAG)]
[섹션 5: 에이전트]
[섹션 6: 코드 생성]
[섹션 7: 비전]
[섹션 8: 음성]
[섹션 9: 이미지/비디오 디퓨전]
[섹션 10: 파인튜닝]
이 글은 원문을 Claude Sonnet 3.5로 번역한 글이라, 링크가 정확하지 않을 수 있습니다. 잘못된 링크가 있다면, 원문을 참고하세요.
섹션 1: 최신 LLM
GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 논문들. 설명이 필요 없죠. GPT3.5, 4o, o1, o3는 논문 대신 출시 이벤트와 시스템 카드로 발표되었습니다.
Claude 3와 Gemini 1 논문들 - 경쟁자들을 이해하기 위해. 최신 버전은 Claude 3.5 Sonnet과 Gemini 2.0 Flash/Flash Thinking입니다. Gemma 2도 있습니다.
LLaMA 1, Llama 2, Llama 3 논문들 - 선도적인 오픈 모델을 이해하기 위해. Mistral 7B, Mixtral, Pixtral은 Llama 계열의 한 분파로 볼 수 있습니다.
DeepSeek V1, Coder, MoE, V2, V3 논문들. 선도적인 (비교적) 오픈 모델 연구소입니다.
Apple Intelligence 논문. 모든 Mac과 iPhone에 탑재되어 있습니다.
주목할 만한 언급: AI2 (Olmo, Molmo, OlmOE, Tülu 3, Olmo 2), Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM - 대부분 순위가 낮거나 논문이 없습니다. Alpaca와 Vicuna는 역사적 의미가 있고, Mamba 1/2와 RWKV는 미래의 잠재력이 있습니다. 시간이 된다면, Scaling Law 문헌도 추천합니다: Kaplan, Chinchilla, Emergence / Mirage, Post-Chinchilla laws.
섹션 2: 벤치마크와 평가
MMLU 논문 - 주요 지식 벤치마크로, GPQA와 BIG-Bench와 함께 있습니다. 2025년에는 최신 연구소들이 MMLU Pro, GPQA Diamond, BIG-Bench Hard를 사용합니다.
MuSR 논문 - 긴 문맥 평가로, LongBench, BABILong, RULER와 함께 있습니다. Lost in The Middle 문제와 Needle in a Haystack과 같은 이슈들을 해결합니다.
MATH 논문 - 수학 경시대회 문제 모음입니다. 최신 연구소들은 MATH의 하위 집합에 집중합니다: MATH level 5, AIME, FrontierMath, AMC10/AMC12.
IFEval 논문 - 선도적인 지시사항 따르기 평가이며 Apple이 채택한 유일한 외부 벤치마크입니다. MT-Bench도 IF의 한 형태로 볼 수 있습니다.
ARC AGI 챌린지 - 많은 벤치마크가 빠르게 포화되는 것에 비해 오래 지속된 유명한 추상 추론 "IQ 테스트" 벤치마크입니다.
우리는 이들 중 많은 것을 Benchmarks 101