국가 R&D 과제 중 AI 관련 제안시 중요 항목을 파악하려면..

최근 과기정통부를 비롯한 여러 중앙부처에서 연구 개발 과제으로 제안한 내용에 대해 심사 평가를 종종 하고 있는데, AI 관련 서비스나 솔루션을 개발하고자 했을 때, 정성적 지표보다 정량적 지표를 우선하는 것이 대부분입니다. 우리가 알고 있는 정확도(accuracy = (올바르게 예측된 데이터 수) / (전체 데이터 수))는 오히려 부적절한 경우가 많기 때문에 더 자세한 내용을 알 필요가 있습니다.

그래서 제가 AI 성능지표와 평가 방법에 대해 ChatGPT와 claude-3에게 각각 문의를 해보고 실제 현장에서는 어떻게 사용되는지 소개하고자 합니다.

  1. 먼저 AI 기반 서비스를 연구 개발할 때 성능 지표를 알려 달라고 했을 때, 각각의 응답은 다음과 같습니다.

답변에서 ChatGPT가 claude-3보다 내용은 더 많지만 구체적인 것은 claude-3가 더 우수한 것을 알 수 있습니다.

실제 정보통신산업진흥원(NIPA)이 전담하는 'AI모델 개발 및 실증 사업'에 검증 업체로 선정된 회사의 자료를 보면 상기 내용 중에 일부 항목만 적용하고 있음을 알 수 있습니다. 물론 생체(영상 기준) 인식 테스트 위주였음을 감안합니다. 현재 AI hub에 구축된 데이터셋(영상, 이미지 기준)은 ‘대상 속성 분석 -> 대상 객체 식별 -> 대상 객체 추적’의 순서로 품질을 평가합니다.
그래서 두개의 생성형AI에게 좀 더 구체적이고 정량적인 수치를 요구했습니다.

(이하 중략)
ChatGPT는 이렇게 답변해서(번역 : 성능 지표에 대한 국제 표준은 일반적으로 정확한 수치 범위로 지정되지 않고 다양한 성능 측면의 측정을 안내해야 하는 원리와 방법론에 중점을 둡니다. 이러한 표준은 관련성이 있고 신뢰할 수 있으며 다양한 조건에서 AI 시스템의 실제 성능을 반영할 수 있는 지표의 필요성을 강조합니다.) 너무 두리뭉실하더군요. 오히려 claude가 더 구체적으로 답변을 주었습니다.

역시 claude-3가 더 구체적으로 답변하는 것을 알 수 있습니다. 말씀드렸던 평가 업체의 기준도 다음과 같습니다.

그 외에 기계 번역 결과와 사람이 번역한 결과에서 단어나 구(Phrase)의 일치도를 측정하는 방식으로서 기계 번역(Machine Translation)의 품질을 평가하는 데 사용되는 지표인 BLEU(Bilingual Evaluation Understudy)이나 혹은 문서 요약(Text Summarization)시 AI가 자동으로 생성된 요약문과 사람이 작성한 요약문 간의 일치도를 측정하는 지표인 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)과 같은 언어에 대한 AI 성능 지표도 있습니다.

  • ROUGE 성능 지표에 대해 좋은 자료가 있어서 소개합니다.(https://huffon.github.io/2019/12/07/rouge/)

    그리고 심사위원들이 중요하게 보는 평가기준에서 외부 평가기관이 검증한 공인된 시헙성적서의 유무입니다.
    이미 아시는 분도 있겠지만, 대체로 다음과 같은 기관에서 발행한 공인시험인증서를 제시하는 것이 필요합니다. 다만 TTA나 KTL의 경우 기본 공인인증시험 기간은 최소 2개월 ~ 6개월 가량 소요되는 것을 명심하셔야 합니다.
    연구 개발된 서비스 및 솔루션(제품)을 평가하고 인증하는 대표적인 기관들은 한국인정기구(KOLAS)에 가시면 알 수 있습니다. https://www.knab.go.kr/usr/inf/srh/InfoTestInsttSearchList.do

이상으로 간단하게 AI 연구개발시 필요한 성능지표에 대한 내용을 ChatGPT와 claude-3를 이용해서 일아 보았습니다. (2편)은 블록체인에 대해서 말씀드리겠습니다.

감사합니다. #10기문과생도AI

8
2개의 답글

👉 이 게시글도 읽어보세요