2025년 AI 엔지니어가 되기 위한 10개 분야, 50개 필수 논문 리스트

인디애나 존스 10 영국 공학 논문

2025년 AI 엔지니어링 필독서 목록

AI 엔지니어링 분야의 10개 영역에서 50개의 논문/모델/블로그를 선정했습니다: LLM, 벤치마크, 프롬프팅, RAG, 에이전트, 코드생성, 비전, 음성, 디퓨전, 파인튜닝.

AI 엔지니어가 되는 것에 도전하는 분들은 여기서부터 시작하세요.

[2024년 베스트 시리즈] 강연자들의 선택으로 2024년을 정리할 수 있지만, [페이퍼 클럽] 운영에 대해 글을 쓴 이후로 직장이나 친구들과 함께 시작하시는 분들을 위한 추천 읽기 목록을 많이 요청받았습니다. [2023 a16z 캐논]으로 시작했지만, 2025년 업데이트와 실용적인 초점이 필요했습니다.

여기서 AI 엔지니어를 위한 "필수 읽기"를 선별했습니다. 우리의 설계 목표는 다음과 같습니다:

  • 약 50개의 논문 선정 (1년에 주 1회 정도). 임의로 정한 제약사항입니다.

  • 그저 이름만 나열하는 대신 이 논문이 왜 중요한지 설명합니다

  • AI 엔지니어에게 매우 실용적이도록 합니다. Attention is All You Need와 같은 논문은 제외했습니다. 그 이유는 1) 이미 모든 사람이 거기서 시작하고, 2) 대부분의 사람들이 실제 업무에서는 그것이 필요하지 않기 때문입니다.

각 섹션별로 5개의 "논문"을 선정했습니다:

  • [섹션 1: 최신 LLM]

  • [섹션 2: 벤치마크와 평가]

  • [섹션 3: 프롬프팅, ICL & Chain of Thought]

  • [섹션 4: 검색 강화 생성(RAG)]

  • [섹션 5: 에이전트]

  • [섹션 6: 코드 생성]

  • [섹션 7: 비전]

  • [섹션 8: 음성]

  • [섹션 9: 이미지/비디오 디퓨전]

  • [섹션 10: 파인튜닝]

이 글은 원문을 Claude Sonnet 3.5로 번역한 글이라, 링크가 정확하지 않을 수 있습니다. 잘못된 링크가 있다면, 원문을 참고하세요.

섹션 1: 최신 LLM

  1. GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 논문들. 설명이 필요 없죠. GPT3.5, 4o, o1, o3는 논문 대신 출시 이벤트와 시스템 카드로 발표되었습니다.

  2. Claude 3Gemini 1 논문들 - 경쟁자들을 이해하기 위해. 최신 버전은 Claude 3.5 SonnetGemini 2.0 Flash/Flash Thinking입니다. Gemma 2도 있습니다.

  3. LLaMA 1, Llama 2, Llama 3 논문들 - 선도적인 오픈 모델을 이해하기 위해. Mistral 7B, Mixtral, Pixtral은 Llama 계열의 한 분파로 볼 수 있습니다.

  4. DeepSeek V1, Coder, MoE, V2, V3 논문들. 선도적인 (비교적) 오픈 모델 연구소입니다.

  5. Apple Intelligence 논문. 모든 Mac과 iPhone에 탑재되어 있습니다.

주목할 만한 언급: AI2 (Olmo, Molmo, OlmOE, Tülu 3, Olmo 2), Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM - 대부분 순위가 낮거나 논문이 없습니다. AlpacaVicuna는 역사적 의미가 있고, Mamba 1/2와 RWKV는 미래의 잠재력이 있습니다. 시간이 된다면, Scaling Law 문헌도 추천합니다: Kaplan, Chinchilla, Emergence / Mirage, Post-Chinchilla laws.

섹션 2: 벤치마크와 평가

  1. MMLU 논문 - 주요 지식 벤치마크로, GPQABIG-Bench와 함께 있습니다. 2025년에는 최신 연구소들이 MMLU Pro, GPQA Diamond, BIG-Bench Hard를 사용합니다.

  2. MuSR 논문 - 긴 문맥 평가로, LongBench, BABILong, RULER와 함께 있습니다. Lost in The Middle 문제와 Needle in a Haystack과 같은 이슈들을 해결합니다.

  3. MATH 논문 - 수학 경시대회 문제 모음입니다. 최신 연구소들은 MATH의 하위 집합에 집중합니다: MATH level 5, AIME, FrontierMath, AMC10/AMC12.

  4. IFEval 논문 - 선도적인 지시사항 따르기 평가이며 Apple이 채택한 유일한 외부 벤치마크입니다. MT-Bench도 IF의 한 형태로 볼 수 있습니다.

  5. ARC AGI 챌린지 - 많은 벤치마크가 빠르게 포화되는 것에 비해 오래 지속된 유명한 추상 추론 "IQ 테스트" 벤치마크입니다.

우리는 이들 중 많은 것을 Benchmarks 101Benchmarks 201에서 다뤘고, Carlini, LMArena, Braintrust 에피소드에서는 비공개, 아레나, 제품 평가를 다뤘습니다(LLM-as-JudgeApplied LLMs 에세이 참조). 벤치마크는 데이터셋과 연결되어 있습니다.

섹션 3: 프롬프팅, ICL & Chain of Thought

참고: GPT3 논문("Language Models are Few-Shot Learners")에서 이미 In-Context Learning (ICL) - 프롬프팅의 가까운 사촌 - 을 소개했어야 했습니다. 우리는 또한 프롬프트 인젝션을 필수 지식으로 간주합니다. - Lilian Weng, Simon W.

  1. 프롬프트 리포트 논문 - 프롬프팅 논문들의 서베이 (팟캐스트).

  2. Chain-of-Thought 논문 - ScratchpadsLet's Think Step By Step와 함께 Chain of Thought를 대중화한 여러 주장자 중 하나입니다.

  3. Tree of Thought 논문 - 선행 탐색백트래킹 도입 (팟캐스트)

  4. Prompt Tuning 논문 - 프롬프트가 필요 없을 수도 있습니다 - Prefix-Tuning, 디코딩 조정 (예: 엔트로피를 통해), 또는 representation engineering을 할 수 있다면

  5. Automatic Prompt Engineering 논문 - 인간이 제로샷 프롬프팅에 매우 취약하다는 것이 점점 더 명백해지고 있으며, 프롬프팅 자체가 LLM에 의해 향상될 수 있습니다. 이의 가장 주목할 만한 구현은 DSPy 논문/프레임워크입니다.

섹션 4: 검색 강화 생성(RAG)

  1. 정보 검색 입문 - 책을 추천하는 것이 좀 불공평할 수 있지만, RAG가 IR 문제라는 점과 IR이 60년의 역사를 가지고 있다는 점을 강조하고 싶습니다. 여기에는 TF-IDF, BM25, FAISS, HNSW 같은 "지루한" 기술들이 포함됩니다.

  2. 2020년 Meta RAG 논문 - 이 용어를 만든 논문입니다. 원저자들은 Contextual을 시작했고 RAG 2.0을 만들었습니다. 현대의 RAG "필수 요소" - HyDE, chunking, rerankers, 멀티모달 데이터다른 곳에서 더 잘 설명되어 있습니다.

  3. MTEB: 대규모 텍스트 임베딩 벤치마크 논문 - 사실상의 리더이며, 알려진 이슈들이 있습니다. 많은 임베딩들이 논문을 가지고 있습니다 - 선택하세요 - OpenAI, Nomic Embed, Jina v3, cde-small-v1 - 마트료시카 임베딩이 점점 표준이 되어가고 있습니다.

  4. GraphRAG 논문 - RAG에 지식 그래프를 추가하는 Microsoft의 접근방식으로, 현재 오픈소스화 되었습니다. 2024년 RAG에서 가장 인기 있는 트렌드 중 하나로, ColBERT/ColPali/ColQwen(비전 섹션에서 더 자세히)과 함께 있습니다.

  5. RAGAS 논문 - OpenAI가 추천한 간단한 RAG 평가입니다. Nvidia FACTS 프레임워크LLM의 외재적 환각도 참조하세요. Lilian Weng의 환각의 원인/평가에 대한 서베이입니다(또한 Jason Wei의 재현율 vs 정밀도 참조).

RAG는 2024년 직장에서 AI 엔지니어링의 기본이므로, 많은 산업 자원과 실제 경험이 필요할 것입니다. LlamaIndex(강좌)와 LangChain(비디오)이 교육 자료에 가장 많이 투자했습니다. 또한 끊임없는 RAG vs 긴 문맥 논쟁도 알고 있어야 합니다.

섹션 5: 에이전트

  1. SWE-Bench 논문 (우리의 팟캐스트) - Anthropic, Devin과 OpenAI가 채택한 후, 현재 가장 주목받는 에이전트 벤치마크입니다(WebArenaSWE-Gym과 비교했을 때). 기술적으로는 코딩 벤치마크지만, 순수 LLM보다는 에이전트의 테스트에 가깝습니다. SWE-Agent, SWE-Bench Multimodal, Konwinski Prize도 참조하세요.

  2. ReAct 논문 (우리의 팟캐스트) - ReAct는 GorillaBFCL 리더보드를 포함하여 도구 사용과 함수 호출 LLM에 대한 긴 연구의 시작이었습니다. 역사적 관심사로 ToolformerHuggingGPT가 있습니다.

  3. MemGPT 논문 - 장기 실행 에이전트 메모리를 에뮬레이션하는 여러 주목할 만한 접근 방식 중 하나로, ChatGPTLangGraph가 채택했습니다. MetaGPT부터 AutoGen, Smallville까지 모든 에이전트 시스템에서 이러한 버전들이 재발명되고 있습니다.

  4. Voyager 논문 - 성능 향상을 위한 3가지 인지 아키텍처 구성 요소(커리큘럼, 스킬 라이브러리, 샌드박스)에 대한 Nvidia의 접근방식입니다. 더 추상적으로, 스킬 라이브러리/커리큘럼은 Agent Workflow Memory의 한 형태로 추상화될 수 있습니다.

  5. Anthropic의 효과적인 에이전트 구축 - 체이닝, 라우팅, 병렬화, 오케스트레이션, 평가, 최적화의 중요성에 초점을 맞춘 2024년 말의 훌륭한 요약입니다. OpenAI Swarm도 참조하세요.

우리는 NeurIPS의 2024 SOTA 에이전트 설계 중 많은 것을 다뤘습니다. 에이전트 정의에 대한 논쟁은 건너뛰었지만, 정말 필요하다면 제 정의를 사용할 수 있습니다.

섹션 6: 코드 생성

  1. The Stack 논문 - 코드에 초점을 맞춘 The Pile의 오픈 데이터셋 쌍둥이로, The Stack v2에서 StarCoder까지 훌륭한 오픈 코드생성 작업의 계보를 시작했습니다.

  2. 오픈 코드 모델 논문들 - DeepSeek-Coder, Qwen2.5-Coder, CodeLlama 중에서 선택하세요. 많은 사람들이 3.5 Sonnet을 최고의 코드 모델로 여기지만 논문은 없습니다.

  3. HumanEval/Codex 논문 - 이것은 포화된 벤치마크이지만, 코드 도메인에서는 필수 지식입니다. SWE-Bench가 현재 코딩에서 더 유명하지만, 비용이 많이 들고 모델보다는 에이전트를 평가합니다. 현대적인 대체제로는 Aider, Codeforces, BigCodeBench, LiveCodeBench, SciCode가 있습니다.

  4. AlphaCodeium 논문 - Google은 프로그래밍 문제에서 매우 좋은 성과를 보인 AlphaCodeAlphaCode2를 발표했지만, 여기서는 Flow Engineering이 어떻게 기존 기본 모델에 더 많은 성능을 추가할 수 있는지 보여줍니다.

  5. CriticGPT 논문 - LLM이 보안 문제가 있는 코드를 생성할 수 있다는 것은 알려져 있습니다. OpenAI는 CriticGPT를 훈련시켜 이를 발견하고, Anthropic은 SAE를 사용하여 이를 유발하는 LLM 특성을 식별하지만, 이는 여러분이 알아야 할 문제입니다.

코드생성은 연구에서 산업으로 많이 이동한 또 다른 분야로, 코드생성에 대한 실용적인 엔지니어링 조언Devin과 같은 코드 에이전트는 연구 논문보다는 산업 블로그 포스트와 강연에서만 찾을 수 있습니다.

섹션 7: 비전

  1. 비-LLM 비전 작업은 여전히 중요합니다: 예를 들어 YOLO 논문 (현재 v11까지 나왔지만, 계보를 주의하세요), 하지만 점점 더 DETRs Beat YOLOs와 같은 트랜스포머들도 있습니다.

  2. CLIP 논문 - Alec Radford의 첫 번째 성공적인 ViT. 요즘은 BLIP/BLIP2SigLIP/PaliGemma에 의해 대체되었지만, 여전히 알아야 합니다.

  3. MMVP 벤치마크 (LS Live) - CLIP의 중요한 이슈들을 정량화합니다. MMLU의 멀티모달 버전(MMMU)과 SWE-Bench도 존재합니다.

  4. Segment Anything ModelSAM 2 논문 (우리의 팟캐스트) - 매우 성공적인 이미지와 비디오 세그멘테이션 기초 모델입니다. GroundingDINO와 함께 사용하세요.

  5. 초기 퓨전 연구: LLaVA와 같은 저비용 "후기 퓨전" 작업과 달리, 초기 퓨전은 Meta의 Flamingo, Chameleon, Apple의 AIMv2, Reka Core 등을 포함합니다. 실제로 시각적 LM 작업에는 최소 4가지 흐름이 있습니다.

최근의 많은 VLM 작업은 더 이상 공개되지 않습니다(마지막으로 받은 것은 GPT4V 시스템 카드파생 논문들이었습니다). 4o(여기에는 4o 비전 파인튜닝 포함), Claude 3.5 Sonnet/Haiku, Gemini 2.0 Flash, o1의 비전 기능에 대한 실무 경험을 가질 것을 추천합니다. 기타: Pixtral, Llama 3.2, Moondream, QVQ.

섹션 8: 음성

  1. Whisper 논문 - Alec Radford의 성공적인 ASR 모델입니다. Whisper v2, v3, distil-whisper, v3 Turbo는 오픈 웨이트를 가지고 있지만 논문은 없습니다.

  2. AudioPaLM 논문 - PaLM이 Gemini가 되기 전 Google의 음성에 대한 마지막 생각들입니다. 참고: Meta의 음성에 대한 Llama 3 탐구.

  3. NaturalSpeech 논문 - 주요 TTS(Text-to-Speech) 접근방식 중 하나입니다. 최근 v3가 나왔습니다.

  4. Kyutai Moshi 논문 - 인상적인 데모와 함께 오픈 웨이트를 가진 전이중 음성-텍스트 모델입니다. Hume OCTAVE도 참조하세요.

  5. OpenAI Realtime API: 미공개 매뉴얼 - 다시 한 번, 최신 옴니모델 작업은 공개되지 않았지만, 우리는 Realtime API를 최선을 다해 문서화했습니다.

현재로서는 대형 연구소 외에도 다양화할 것을 추천합니다 - Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs 등을 시도해보세요. 2024년 음성 AI 현황을 참조하세요. NotebookLM의 음성 모델은 공개되지 않았지만, 우리가 아는 한 가장 깊이 있는 모델링 과정 설명을 얻었습니다.

Gemini 2.0도 기본적으로 음성과 비전 멀티모달이기 때문에, 음성과 비전 모달리티는 2025년 이후로 명확하게 통합되는 경로에 있습니다.

섹션 9: 이미지/비디오 디퓨전

  1. Latent Diffusion 논문 - 사실상 Stable Diffusion 논문입니다. SD2, SDXL, SD3 논문들도 참조하세요. 요즘 팀은 BFL Flux [schnell|dev|pro]에서 작업하고 있습니다.

  2. DALL-E / DALL-E-2 / DALL-E-3 논문 - OpenAI의 이미지 생성.

  3. Imagen / Imagen 2 / Imagen 3 논문 - Google의 이미지 생성. Ideogram도 참조하세요.

  4. Consistency Models 논문 - LCMs와 함께한 이 증류 작업은 2023년 12월의 바이럴 순간을 만들었습니다. 요즘은 sCMs로 업데이트되었습니다.

  5. Sora 블로그포스트 - 텍스트에서 비디오 생성 - DiT 논문(같은 저자들) 외에는 논문이 없지만, 여전히 올해의 가장 중요한 출시였으며, OpenSora와 같은 많은 오픈 웨이트 경쟁자들이 있습니다. Lilian Weng의 서베이를 참조하세요.

또한 ComfyUI(다가오는 에피소드)에 대한 친숙도를 강력히 추천합니다. Text Diffusion, Music Diffusion, 자기회귀 이미지 생성은 틈새이지만 성장하고 있습니다.

섹션 10: 파인튜닝

  1. LoRA/QLoRA 논문 - 로컬 모델이든 4o(팟캐스트에서 확인)든 모델을 저비용으로 파인튜닝하는 사실상의 방법입니다. FSDP+QLoRA는 교육적입니다.

  2. DPO 논문 - 약간 열등하지만 인기 있는 PPO의 대안으로, 현재 OpenAI에서 Preference Finetuning으로 지원됩니다.

  3. ReFT 논문 - 몇 개의 레이어를 파인튜닝하는 대신 특징에 집중합니다.

  4. Orca 3/AgentInstruct 논문 - NeurIPS의 합성 데이터 선택을 참조하세요. 이것은 파인튜닝 데이터를 얻는 훌륭한 방법입니다.

  5. RL/추론 튜닝 논문들 - o1을 위한 RL 파인튜닝은 논쟁의 여지가 있지만, Let's Verify Step By StepNoam Brown의 많은 공개 강연은 그것이 어떻게 작동하는지에 대한 힌트를 제공합니다.

전체 프로세스에 대해 더 알아보려면 Unsloth 노트북과 HuggingFace의 오픈 LLM을 파인튜닝하는 방법을 살펴보는 것을 추천합니다. 이것은 분명히 끝없이 깊은 토끼굴이며, 극단적으로는 Research Scientist 트랙과 겹칩니다.

-- 끝! --

10
1개의 답글

👉 이 게시글도 읽어보세요