한국 드라마로 한국어를 배우는 K-Drama Bot 제작 1

배경 및 목적

한국어를 배우는 외국 학생들이 한국 드라마를 학습자료로 이용하는 경우가 있기에 이들 학생들이 AI 챗봇과 대화식으로 한국어 학습을 하면 좋겠다고 생각하였습니다.

AI 챗봇을 제작하는데 있어 한국 드라마 관련 자료를 추가 자료로 제공해주는 RAG 방식을 적용하게 되면 보다 정확한 한국어 학습 자료를 제공해줄 수 있을 것이라 생각하였고요.

그래서 라마인덱스 스터디에 참가하면서 RAG를 최적화하기 위해 라마인덱스를 사용해서 K-Drama AI 챗봇을 만들어보고자 합니다.

참고 자료

라마인덱스로 나만의 LLM 서비스 구현 스터디: https://www.gpters.org/ai-study-join/post/ramaindegseuro-namanyi-llm-seobiseu-guhyeon-seuteodi-XCsgjVOcfXarAEk

라마인덱스 공식 문서: https://docs.llamaindex.ai/en/stable/

라마인덱스 GitHub 예제 코드: https://github.com/run-llama/llama_index

활용 툴

라마인덱스: DB 구축 및 활용 (속도가 빠르다고 함. 국내 자료가 아직 많지 않은 점이 단점인 듯함)

아직 잘 모르지만 당연히 툴들이 더 있겠지요.

실행 과정

특정 데이터 활용 AI 챗봇을 개발하기 위해 다음과 같은 단계가 필요할 것 같습니다. 이 단계 중에서 라마인덱스는 '데이터베이스 구축'과 'RAG 모델 통합' 단계에 활용되지 않을까 싶습니다. 아직 잘 모르기 때문에 배워가면서 해보려고 합니다. API 개발 이후 단계들도 마찬가지고요. ^^ㅠㅠ

- 데이터 수집: 여러 방법으로 모은 후 텍스트 형식으로 통일

- 데이터 전처리: 여러 자연어처리 기법을 활용하여 전처리

- 데이터베이스 구축: MongoDB, ChromaDB 등

- RAG 모델 통합: 라마인덱스, (랭체인)

- API 개발

- 사용자 인터페이스 개발

- 배포 및 모니터링

- 피드백 및 반복

챗봇의 클라우드 서비스로 streamlit이라든지 goorm 등을 사용해볼 수 있을까 생각해보는데 이 또한 알아봐야 할 것 같습니다.

결과 및 인사이트

일단 간단하게라도 유사한 챗봇을 만들어 사용해보면 좋겠다는 생각이 들어 GPTs를 만들어보았습니다. 이 챗봇의 Instructions에 챗봇 관련 설명을 넣고 Knowledge로 챗봇이 사용할 자료의 일부를 파일로 업로드해보았습니다.

한국어가 포함된 앱의 스크린샷

또한 Streamlit Community에 기본적인 기능의 챗봇도 만들어 작동시켜 보았습니다. 대략 이런 모습의 프로트토입이 제가 제작하기를 희망하는 챗봇의 모습이라고 생각하면서 중간에 기술적인 블록들을 채워나가면 되지 않을까 싶습니다.^^

k드라마봇

스터디 오프 모임에서 인사나눴던 박라마 스터디장님과 다른 멤버분들을 보면서 희망하는 챗봇을 제작할 수 있겠다는 생각이 크게 되었습니다! 감사합니다!!

3
1개의 답글

👉 이 게시글도 읽어보세요