박정기
박정기
🗡️ AI 레전드
🎖️ 마스터 파트너
🚀 SNS 챌린지 달성자

[7기 #1인 스타트업 다마고치] 영문 컨텐츠 번역 자동화 프로젝트



AI관련 사업을 진행함에 있어서 중요한 것은 새로운 AI툴들이나, 새로 나온 서비스들을 빠르게 캐치하는 것입니다.


2023년 최신 해외 AI 정보 블로그 웹사이트

  1. MIT News (News)

  2. The Berkeley Artificial Intelligence Research (News)

  3. Analytics Vidhya (Developers)

  4. Towards Data Science (Developers/Business)

  5. KDnuggets (Developers)

  6. Science Daily (News)

  7. Great Learning (Developers)

  8. NVIDIA Blog & NVIDIA Developer (Developers/Business)

  9. MarkTechPost (Developers/ News)

  10. TensorFlow Blog (Developers)

  11. DeepMind Blog (News/Developers)

  12. Towards AI (Developers)

  13. ML CMU Blog (Developers)



예시 블로그 글)

Top 10 Generative AI Startups in the World

https://www.analyticsvidhya.com/blog/2023/10/top-generative-ai-startups-in-the-world/?utm_source=feed


아쉽게도 고급정보이면서 빠르게 기술 발전에 대한 내용을 다루는 컨텐츠들은 모두 영어로 작성돼있습니다.


물론 영어를 어느정도 잘한다면, 본인은 잘 이해할 수 있겠지만, 이걸 통해서 컨텐츠를 만들고, 개발하고 한국에 배포하는것은 더 꼼꼼하고 좋은 번역 기술을 필요로 할 것입니다.


이런 사이트들에서 AI 관련 사업을 함에 있어서 필요한 데이터를 주기적으로 빠르게 습득하여 번역하여 DB에 자동으로 저장시킵니다.


DB에 저장시킬때에도 LLM을 위해 Structed data로 구성하여 잘 저장해 놓으면,

나중에 쿼리를 통해 가져올 때 Elastic Search 랑 붙여 Hybrid Search( 키워드 서치랑 + 시멘틱 서치 )로 데이터를 조회해볼 수 있습니다.


이러한 제가 지금 하고 있는 사업에 필요한 DB를 구축하는 것이 요즘의 1차적인 목표가 됐고,


그 목표를 위해 가장 먼저 text를 한국어로 번역을 자동화 시키는 프로그램을 개발하고 있습니다.


번역 자동화 아키텍쳐 (아직 디벨롶 중)

  1. text를 수집한다.

  2. 수집한 text를 Deep L API를 통해 먼저 번역한다.

  3. 원문과 번역문 + 자체 개발한 Prompt를 통해 GPT4-0613 API로 교정을 받는다.

  4. 교정된 번역문을 DB에 Structed Data로 저장한다.

  5. 추후 Hybrid Search를 통해 원하는 데이터를 조회해서 가져온다.


이렇게 개발하도록 구상하고 있습니다.


2
3개의 답글

👉 이 게시글도 읽어보세요