(17기 논문 스터디_4주차) 데이터 수집과 AI 활용 및 한계점

소개

시도하고자 했던 것과 그 이유를 알려주세요.

최근 GPT_O3-Pro + Claude Code + Obsidian으로 데이터 수집으로 하고 있습니다. 분야에 따라 다르겠지만 데이터 수집은 만만한 일이 아니죠. 특히 10년 이상의 빅데이터 수집은요. 그래서 데이터 수집과 AI 활용 및 한계에 대해 이야기해보고자 합니다.

진행 방법

어떤 도구를 사용했고, 어떻게 활용하셨나요?

Tip: 사용한 프롬프트 전문을 꼭 포함하고, 내용을 짧게 소개해 주세요.

Tip: 활용 이미지나 캡처 화면을 꼭 남겨주세요.

Tip: 코드 전문은 코드블록에 감싸서 작성해주세요. ( / 을 눌러 '코드 블록'을 선택)

모두 잘 아시겠지만, LLM은 똑같은 프롬프트라도 매번 다른 답변을 줄 가능성이 높습니다. 실제로 그런 경험을 많이 하고요. 처음에는 "GPT_O3-Pro + Claude Code + Obsidian"로 gpt를 중심으로 방법론과 데이터 정의를 했습니다. 그런데 "정의"만 정말 수도 없이 반복하게 되더군요.

그래서 중간에 중단하고 이제까지 정리된 데이터 세트의 수집가능성을 검토했습니다. 여기서 데이터는 절대 AI가 전부 해주지 않습니다. 실제로 제가 구성하는 데이터 10종에서 4가지만이 오픈 API를 제공했으며. 웹 크롤링은 3가지, 나머지 3가지는 이미지 캡쳐 후 OCR 작업이 필요했습니다.

데이터 정합성 및 검증은 저는 결코 AI를 믿어서는 안된다고 생각합니다. 아직까지는요.. 대용량이라면 샘플링 후 수기로 검증해야 정확성을 확보할 수 있었습니다.

저는 데이터는 "연구배경 및 목표" 설정->"방법론 구축"→"데이터 수집"의 단계가 맞다고 생각합니다.

결과와 배운 점

배운 점과 나만의 꿀팁을 알려주세요.

과정 중에 어떤 시행착오를 겪었나요?

도움이 필요한 부분이 있나요?

앞으로의 계획이 있다면 들려주세요.

GPT는 매번 미세하게 또는 크게 데이터 세트를 바꿨습니다. 이것이 정말 스트레스 였죠.

"GPT_O3-Pro + Claude Code + Obsidian" gpt 중심에서 클로드 코드 중심으로 위 단계를 다시 하고 있습니다. gpt가 부정확하다는 것이 아니라, 끝없이 반복되는 데이터 수집 루트에서 제 인내심이 바닥났기 때문이죠.

이번에는 어떤 결과가 나올지, 끝없는 루트를 끝내고 초안 작성의 단계로 넘어갈 수 있을지 8월 내로 승부를 보려 합니다.

연구자 여러분 화이팅!! 특히 빅데이터 전문가분들 존경합니다!

도움 받은 글 (옵션)

참고한 지피터스 글이나 외부 사례를 알려주세요.

(내용 입력)

👉 이 게시글도 읽어보세요