노트 / 글쓰기

a year ago·노트 / 글쓰기에 게시됨

'타이타닉 생존자 예측하기 with ChatGPT' 원고 작성 (3주차)

소개

'타이타닉 생존자 예측하기 with ChatGPT'라는 제목으로 데이터과학 입문 책을 준비 중입니다. 타깃 독자층은 IT 분야에 관심있는 중고등학생, 좀 더 넓게는 비전공 대학생입니다.

진행 내용

원고 작성

챕터 2의 섹션 2까지 작성 (30% 가량 진행)
- (완료) I. 첫 항해: 수치형 데이터로 시작하는 생존자 예측
- (완료) II. 더 깊은 바다로: 카테고리형 데이터와 결측치 처리
  - (완료) II-1. 성별(Sex)을 추가하면 생존 예측의 정확도가 얼마나 올라갈까?
  - (완료) II-2. 탑승 항구(Embarked)가 비어있는 두 승객엔 어떤 비밀이 있을까?
  - (완료) II-3. 사라진 요금(Fare)을 찾아서: 숫자형 결측치는 어떻게 채워야 할까?
  - (예정) II-4. 설마 공짜로 탄 거야? 요금 결측치에 숨겨진 비밀
  - (예정) II-5. 나이(Age)는 상관계수가 낮던데, 생존자 예측에 얼마나 도움이 될까?
- (예정) III. 비밀문서 해독: 텍스트 속에 숨겨진 생존의 단서
- (예정) IV. 항해 지도 제작: 데이터로 그리는 새로운 관점
- (예정) V. 항해의 기술: 모델 성능 고도화
챕터 3까지 완성한다면 1차 버전으로 전자책 출간 가능
책 표지 작성

Jupyter Book 기능 학습

Plotly를 사용해 웹북 상에서 인터랙티브하게 결과 확인 가능
매 섹션마다 중복되는 '준비 코드'를 숨김 기능을 사용해 본문에 표시하지 않음
전자책 출판을 위한 epub 변환 기능 테스트 중
기타 Jupyter Book의 다양한 기능들 반영 (예: box 기능)

힘든 점

실행결과, 도표, 그래프 출력 등 초기에 겪었던 편집 상의 어려운 점은 웹북 출판 범위에서는 완전히 해결
Claude한테 어떻게 일을 시켜야 원하는 초안을 얻을 수 있는지 많이 익숙해진 (적응된) 상태
책의 구성은 챕터나 섹션 별로 피쳐를 하나씩 추가하며 예측 모델의 성능을 향상시키는 과정. 즉 책의 진행에 따라 소스 코드가 차근차근 누적되는 구조임
챕터와 섹션별로 설명할 코드는 이미 완성했으나, 원고에 맞춰 코드를 수정해야 하는 경우가 발생. 이런 경우에 일관성을 맞추기 위해 이전 작업을 함께 바꿔줘야 함

계획

https://jace-101.github.io/Titanic/intro.html 에서 현재까지 작업한 웹북을 읽을 수 있음. 계속 추가할 예정
오픈소스 형태로 공개 (라이센스는 알아보지 않았으나 CC BY-NC 생각 중)
쫑파티(2/22)까지 본문(~챕터5) 원고 작업을 마무리하는게 목표 (안되면 챕터 3까지 만이라도...)
15기 개강 전까지 인트로/부록 등을 추가 작성해 원고 마무리, Jupyter Book 세부 기능 학습
15기에 퇴고 작업 등 완성도를 높여 전자책으로 출간할 계획 (재수 확정ㅠㅠ)
- 전자책에는 퀴즈 등의 콘텐츠를 추가해 웹북과 차별화하려고 함

14기 전자책

2

5개의 답글

👉 이 게시글도 읽어보세요