LLM 기반 멀티모달 AI 개발 플랫폼 개발기(요약)

배경 및 목적

(내용 입력)

Open AI의 과금체계가 비싸고 RAG 나 Fine-Tuning 방법이 어렵다고 느껴져서 이를 해결하고자 시작하였습니다. 그러나, GPT의 여러 불편한 부분과 이미지, 소리에 대한 처리가 서비스 레벨로 제공 되지 않는다는 부분도 신경이 쓰여 다양한 비지니스 목적을 위한 멀티모달 AI 를 개발 할 수 있는 플랫폼으로 기획 방향을 정하였습니다.

참고 자료

도움이 된 글이 너무 많아서 일일이 나열하기가 힘드네요.

활용 툴

많은 도구가 있지만 주로 HugginFace, Llamma, Transformer Network, Inception, Tacotron 등의 오픈소스 딥러닝 라이브러리를 사용합니다. 허깅페이스에 대해서는 지피터스에서 많이 다룬거 같아 Llamma 에 대해서만 간략히 소개를 하겠습니다. 아래는 ChatGPT 가 대답한 내용입니다.

''' LLaMA(Large Language Model Meta AI)는 Meta(구 페이스북)가 개발한 대형 언어 모델로, 자연어 처리(NLP) 작업에서 뛰어난 성능을 발휘하도록 설계된 AI 모델입니다. LLaMA는 GPT와 같은 다른 언어 모델과 유사하게 텍스트 생성, 번역, 질문 응답 등 다양한 언어 관련 작업을 수행할 수 있습니다.

LLaMA의 주요 특징은 상대적으로 작은 파라미터 수로도 뛰어난 성능을 발휘할 수 있다는 점입니다. 이를 통해 더 적은 컴퓨팅 자원으로도 대형 언어 모델의 혜택을 누릴 수 있도록 설계되었습니다. 다양한 크기(70억, 130억, 330억, 650억 파라미터 모델)로 제공되며, 연구자들이 자연어 처리 작업에서 쉽게 활용할 수 있도록 오픈소스로 공개되었습니다.

Meta는 LLaMA를 통해 대규모 언어 모델의 접근성을 높이고, 연구자들이 더욱 다양한 실험을 할 수 있는 기반을 마련하고자 했습니다.

'''

실행 과정

  1. 사용자 각자의 비지니스 카테고리에 최적화 된 멀티모달 AI 를 제작하기 위한 툴을 제공하기 위해 PaaS 형 서비스를 기획 하였습니다. LLM 과 이미지 분류/인식 모델을 하나로 만들기 위한 UI/UX 를 만들고 이미지 분류모델과 LLM 을 둘다 RAG 또는 Fine-Tuning 할 수 있는 기능을 구현 하였습니다.

한국사이트 스크린샷
빨간색 버튼이 있는 검은색 화면
  1. 파라미터 튜닝을 셋팅 값 조절로 대채할 수 있도록 하고 멀티 에이전트를 사용할 수 있도록 각각의 프로젝트 별로 백엔드 API 를 생성할 수 있도록 하였습니다.

  2. 사용자가 재학습에 필요한 데이터를 쉽게 업데이트 할 수 있도록 외부 DB 또는 On-Premise DB 와 연동할 수 있도록 하였습니다. 또한 추가 학습된 모델로 실시간 추론이 가능한 온라인 러닝 기능 또한 DB 연동으로 사용할 수 있도록 하였습니다. 만약 고성능 학습과 추론을 원한다면 본 프로젝트에서 제공되는 클라우드 벡터 DB를 사용 할 수 있습니다.

    한국사이트 스크린샷
  3. 사용자가 자신의 비지니스에 웹 애플리케이션으로 사용할 수 있는 컴포넌트 스타일의 PC/모바일 React 템플릿과 Low-Code 설치형 개발 툴킷 SDK 를 제공 합니다.

    서로 다른 메시지를 표시하는 두 개의 화면이 있는 전화기
    웹사이트의 코드를 보여주는 웹페이지의 스크린샷

    (해당 설치버전은 아직 배포되지 않았으므로 사용해 보실 분은 댓글에 남겨주시면 갠톡 드릴게요.)

  4. 자신이 추가 학습, 셋팅한 LLM 의 성능비교를 GPT, Claude 와 같은 상용화 모델 또는 자신의 다른 LLM 과 성능 비교할 수 있는 기능을 제공 합니다.

    한국어 텍스트가 있는 검은 화면

  5. Matrix Factorization 알고리즘을 사용하는 CF(Collaborative Filter) API 제작이 가능합니다. 연동된 DB에 User 와 Item 데이터 스키마를 설정하면 고성능의 추천시스템을 Cloud 또는 On-Premise 로 구축 가능 합니다. 물론 이를 챗봇이나 앱, 웹 애플리케이션과 통합하여 운영도 가능 합니다.

  6. 과금체계를 토큰(Token) 당이 아닌 호출(Call) 당으로 책정하여 기존 GPT 체계를 사용할 때 비해 낮게 운영 가능한 하드웨어 인프라를 제공합니다. 또한 AWS 와 같은 별도의 클라우드 서비스나 호스팅을 사용할 필요가 없는 PaaS 형태의 All-In-One 솔루션을 제공하므로 스타트업에 훨씬 유리한 과금 체계를 구성하였습니다.


결과 및 인사이트

현재 AI 관련 서비스 개발의 성패는 접근성과 비용이라고 생각합니다. 즉, 빠르고 쉽게 적용이 가능하고 서비스를 운영함에 있어서 창출되는 부가가치 보다 비용이 적게 들어야 됩니다. 본 프로젝트를 진행 하면서 주요한 학습 포인트들이 많이 있었습니다. 다양한 머신러닝/딥러닝 이론과 프레임워크, 라이브러리들이 사용되어서 어디서 부터 이걸 풀어야 할지 조금 망설여 지긴 합니다. 향후 스터디를 계속 하면서 인공지능의 바이블과 같은 옛날 이야기(?) 를 짤막한 학습자료와 함께 설명해 보도록 하겠습니다.

마지막으로 현업에 필요한 기능이 있으시면 피드백 남겨주시면 업데이트 계획에 반영하도록 하겠습니다.
감사합니다.

6
4개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요