학술 논문 작성을 위한 AI 모델 성능 비교 분석

학술 논문 작성 시 활용 가능한 다양한 AI 모델의 성능을 평가하고자 하였습니다.

생성된 내용과 참고문헌의 품질 등의 평가 기준을 만들어 비교하였으며, 질문자의 의도파악 능력과 답변 내용을 바탕으로 주관적으로 평가하였습니다.

사용 프롬프트

본 분석에서는 다양한 AI 모델들의 학술 논문 작성 능력을 비교하기 위해 아래와 같은 동일한 프롬프트를 모든 모델에 적용했습니다:

1. 너는 치아발생을 연구하는 전문 학자야.
2. 'MDPC-23 cells as a model of odontoblasts'에 대해 조사해줘.
3. 제한조건이 있어. 반드시 구글스칼라나 pubmed 등에서 나오는 문헌들로만 참고문헌으로 사용해줘.
4. 답변은 반드시 고급 학술영어로 답변해줘.
5. 사용한 참고문헌을 사용한 순서대로 번호를 매겨 마지막에 함께 나타내줘.

이 프롬프트는 AI 모델에게 치아발생 전문가의 페르소나를 부여하고, 특정 치과 세포 모델에 관한 학술 조사를 요청하는 것으로, 학술 논문 작성 상황을 시뮬레이션하도록 설계되었습니다.

평가 기준 설정방법

학술 논문 작성 도구로서의 가치를 보다 정확히 평가하기 위해 다음 요소들의 평가 기준으로 삼았습니다.

  1. 콘텐츠 길이: 생성된 내용의 양적 풍부함 (10점 만점)

  2. 구조 다양성: 섹션, 하위 섹션 등 다양한 학술적 요소 포함 (10점 만점)

  3. 참고문헌 품질: 참고문헌 제공 여부 및 정확성 (10점 만점, 참고문헌 리스트 미제공시 0점 처리함)

  4. 가짜 참고문헌 비율에 따른 차등 점수

  5. 질문 의도 명확화 과정 여부: 연구 의도와 범위를 명확히 하기 위한 추가 질문 여부 (5점 만점)

AI 모델 종합 평가표

삼성 갤럭시 S7 엣지 대 삼성 갤럭시 S7 엣지 vs Sams

모델별 상세 분석

1위: ChatGPT 심층리서치 - 29점

적절한 길이의 학술적 내용 (7점)

구조 다양성: 잘 구성된 논리적 구조 (8점)

참고문헌 품질: 탁월함 (9점) - 7개 중 6개가 실제 존재하는 정확한 문헌이며, 본문 내용과의 관련성도 높음

질문 의도 명확화: 탁월함 (5점) - 연구 깊이와 접근 방식에 대한 명확한 확인 과정

특징: 학술 연구에 필요한 모든 요소를 균형 있게 제공하며, 특히 참고문헌의 정확성이 두드러짐

2위: Genspark 딥리서치 - 28점

콘텐츠 길이: 매우 상세하고 깊이 있는 분석 제공 (9점)

구조 다양성: 연구 논문에 가까운 정교한 구조 (9점)

참고문헌 품질: 양호 (5점) - 참고문헌은 실제 존재하나 일부는 식별자만 제공하여 완전한 정보가 부족

질문 의도 명확화: 탁월함 (5점) - 명확한 연구 방향 확인 과정

특징: 데이터 기반 분석과 체계적인 정보 제공, 질문 의도 명확화에 강점

3위: Genspark Claude 3.7 Sonnet (Thinking) - 22점

콘텐츠 길이: 상세하고 포괄적인 내용 제공 (9점)

구조 다양성: 학술적 형식에 맞는 다양한 구조 사용 (9점)

참고문헌 품질: 보통 (4점) - 18개의 참고문헌을 제공하나 약 2/3가 가짜이거나 오류가 있음

질문 의도 명확화: 없음 (0점)

특징: 콘텐츠 생성 능력은 우수하나 참고문헌의 정확성이 부족

4위: Perplexity Claude 3.7 Sonnet - 18점

콘텐츠 길이: 눈에 띄게 긴 응답과 주제의 다양한 측면 탐구 (9점)

구조 다양성: 논리적으로 잘 구성된 학술적 구조 (9점)

참고문헌 품질: 불량 (0점) - 참고문헌 리스트를 제공하지 않음

질문 의도 명확화: 없음 (0점)

한계: 참고문헌 리스트 부재로 학술 논문 작성 도구로서의 가치가 크게 감소

종합 평가

참고문헌의 품질과 제공 여부에 엄격한 기준을 적용한 결과, ChatGPT 심층리서치가 제일 나았습니다. 이 모델은 참고문헌의 정확성(85% 이상)과 질문 의도 명확화에서 탁월한 능력을 보여주었습니다. (비용면에서는 꼴등이지만)

Genspark 딥리서치는 질문 의도 명확화에서는 괜찮았으나 콘텐츠 내용이 제 의도와 좀 달라서 주관적으로는 그닥 좋지 않았습니다.

Genspark Claude 3.7 Sonnet (Thinking)은 풍부한 콘텐츠를 제공하나 참고문헌의 품질 문제로 3위에 머물렀습니다. (가성비로 볼 때 내 마음 속 1위임)

STORM은 콘텐츠 품질과 참고문헌도 나쁘지 않으나 참고문헌 리스트를 바로 받아볼 수 없다는 점에서 점수를 짜게 주었습니다.

결론

1. ChatGPT 심층리서치가 참고문헌의 정확성과 질문 의도 명확화 측면에서 가장 뛰어나므로 우선적으로 고려

2. 콘텐츠 생성 능력이 뛰어난 Claude 3.7 Sonnet (Thinking)을 보완적으로 활용

3. (테스트한) 모든 AI 모델에서 생성된 참고문헌은 반드시 검증이 필요함. ChatGPT 심층리서치가 가장 정확하나, 여전히 모든 참고문헌은 수동 검증 필요

주의할 점 또는 개선해 볼 점

  1. 한글보다는 영문프롬프트로 조사할 필요가 있음.

  2. 프롬프트를 개선하여 테스트하면 다른 결과가 나올지도 모름.

  3. 분야마다 다르게 적용될 수 있음을 주의하자.

  4. 일부 AI모델은 비용때문에 테스트해보지 못함.

2
1개의 답글

👉 이 게시글도 읽어보세요