[7기 데이터분석] 과제물(비정형 데이터)을 어떻게 학습자별로 분석할 수 있을까...


백그라운드

안녕하세요!

'팀학습 프로세스의 디지털 트랜스포메이션'을 시도 중인 송다혜라고 합니다.

AI와 기술을 활용한 학습경험 개선을 위한 여러 시도들을 하는 중인데요! 아직 본격적으로 서비스를 오픈한 것은 아니고, 내부 학생들을 대상으로 하나씩 mvp 돌려보는 단계입니다.

1. 학생들이 매주 학습 성찰일지, 학습기록 등을 각자의 노션이나 드라이브에 아카이빙하고 있어, 축적되지 않는 문제

2. 팀학습의 핵심은 서로 공유하고 상호피드백하는 것인데 이 과정이 현재 오프라인에서만 이뤄지는 문제 (온라인 상호작용의 장이 없음)

3. 팀코치들의 리소스투입(학습자 개별 학습맥락 이해, 학습과정설계, 피드백 등)이 과다하여 교육프로그램의 확장성이 낮은 문제

등을 해결하기 위해 LMS(learning management system) 및 협업플랫폼을 기획/개발하고 있습니다.


  • 학습데이터를 자체 LMS에 아카이빙하고, 이 데이터들을 기반으로 AI 팀코치가 피드백해주고, 다음 학습경험을 설계해주고, 다음 주까지 회고해봐야 할 질문들을 던져주는 AI 챗봇

  • 온라인 상에서 어떻게 팀학습이 일어날 수 있을지를 연구/개발 기획 중


학습자들의 학습데이터를 축적시키고, 분석할 수 있는 관점(팀코칭 이론, 학습조직 이론 등)을 학습한 AI를 설계하면 팀학습, 팀코칭의 Digital Transformation이 되지 않을까 하여 열심히 지피티 공부와 데이터 공부를 하는 중입니다!

그러나 아직 데이터가 불충분하고, 어떻게 뭘 시작해야하는지 감도 못잡고 있어서.. 우선은 ADA를 사용해보는 것으로 첫 사례발표를 시작해보려고 합니다. 학습자들의 텍스트 데이터, 음성데이터(오프라인 상에서의 대화 녹음파일) 등의 비정형 데이터를 통해 학습자들 별로, 학습세션 별로 분석해야 하므로 최대한 텍스트마이닝 기법들을 많이 공부하고 있습니다.


첫 사례연습의 나의 목표

(1) 일단 ADA를 한 번 써보자! ADA 지피티가 어떻게 접근하고, 어떤 제안을 주고, 어떻게 코드를 실행하는지를 살펴보자!

(2) 나도 내가 뭘 원하는지 모를 때, 지피티가 늘 아이디어를 줬으니, 데이터 분석도 인사이트를 어느정도 주지 않을까..


ChatGPT ADA와 씨름해보면서 느낀 것들…

(1) ‘난 암것도 몰랑~ 다해줘~’ 라는 마인드셋을 갖고 임한 나 자신.. 반성하였습니다.

챗지피티 쓸 때도 항상 느끼는 거지만, 내가 구체적이고 뾰족하게 제시하지 않으면 얘도 엄청 제너럴한 답변들만 해준다는 것.. 결국 내가 뾰족한 관점을 갖고 ‘내가 직접 코드 짜서 실행하는 것을 대신 해준다’ 정도로 생각해야 하는구나..


(2) 열/행 이름, 데이터 내용은 명확하게 적어주도록 하자!

아무리 자연어 기반의 챗지피티이지만.. 그리고 내가 개떡같이(?) 말해도 알아서 여러 번의 사과와 시도 끝에 결국 해내기는 하지만! ADA는 맥락을 이해하는 친구라기 보다는 자연어를 ‘그대로 코딩’ 해서 실행시키는 친구라는 걸 알게됨.

알아서 내가 요청한 질문을 한 번 이해해서, 그 결과를 바탕으로 코드를 짤 거라고 생각했는데.. 그게 아니었음!!!


(3) 데이터분석 방법론과 접근법에 대해 일단 더 공부하자.

지피티가 접근하는 방법들을 보고 뭘 공부해야하는지 조금 감이 온 건 오늘 얻은 가치! 그러나 비정형데이터를 이런 식으로 분석하는 게 애초에 아닌 것 같다는 생각이 들었습니다..





아래는 혼자 우당탕탕 한 과정을 공유한건데.. 엄청 도움이 될만한 내용은 아닙니다ㅜㅜ 더 공부해서 올게요!

사례발표할 때 쓱쓱 보여드리면서 같이 고민해보려고 대부분 캡쳐해서 올렸습니다 :)


진행과정

질문 : 학습자들의 과제물 데이터를 갖고 어떤 인사이트를 도출해볼 수 있을까?

실제로 학생들을 대상으로 파일럿 돌리고 있는 LMS(learning management system : 학습관리시스템) 에 축적된 데이터를 활용해보았습니다. bubble.io 노코드 툴로 직접 개발하고 있고, 학습데이터는 html 형태로 저장되어있습니다.


데이터 업로드 후 다짜고짜 어떻게 할지 지피티에게 물었다.

그럴싸해보여서 일단 하자는대로 따라감


가장 메인인 데이터! 학습데이터를 어떻게 전처리 할지를 물었다.


해당 과제응답들은 팀코치가 부여한 과제양식 질문들이 포함되어있어서 전처리를 부탁했다.

과제 종류가 여러 개라 ‘양식 질문’을 어떻게 가려낼지 막막했는데, 꽤 좋은 아이디어를 줍니다. 텍스트 조각들의 중복을 확인하고 처리를 해주는구나?


하지만 여기서 발견한 문제가 있었죠. 저걸 제외해줬다고 했는데 막상 뜯어보면 제거되지 않았습니다;;



그래서 여러 시도들을 또 했어요


갖은 노력 끝에 어느 정도 정제된 데이터를 얻었습니다.


시작해봅니다. 데이터분석

EDA가 뭔지 잘 모르지만, 일단 물어보기로 했습니다.

학습자의 ‘성장’을 체크하기에 1,2,4가 모두 큰 의미가 없어 키워드 빈도분석을 해달라고 했습니다.


그러나 큰 의미가 없었어요. 이때 깨달음 → 내용을 심층적으로 분석할 때는 키워드분석 방법 자체가 전혀 의미가 없구나! 맥락이 전혀 포함되지 않은 채 키워드만으로는 전혀 도움되지 않음..


그래서 또 다짜고짜 물어봤습니다.


분석해준 내용들에 쓸데없는 단어들이 참 많더군요. 그래서 ‘단어’ 중심이 아닌 ‘문장’ 중심으로 분석하는 방법이 있을까 물어봤습니다.

들여다보니 문장부호(? 등) 뒤에 띄어쓰기가 안되어있어서 ‘문장’으로 끊지 못해서 분석이 잘못된 것 같다는 인식을 하게 되었습니다. 그래서 띄어쓰기를 다시 시도해달라고 했습니다.


어느정도 정제를 마치고.. 제대로 분석을 좀 해보나 했더니…


gpt가 묶어준 클러스터들을 보니, 아 여러 프로그램들의 학습데이터를 동시에 넣으니 제대로 분석이 되지 않았다는 걸 알았습니다.

그래서 프로그램별로 다시 나눠서 분석해달라고 했습니다.

각 프로그램 별로 다시 접근하면 좀 클러스터링이 의미있게 될 것 같기도…

ㅏㅎ하하하 이게 맞을까요? 저 아예 잘못접근하고 있는거죠?ㅠㅜㅜㅠㅠㅠ


결론…

일단 데이터분석 기법에 대해 아무것도 모르니까 똑똑한 애 데리고 바보같은 짓을 하는 기분이 들었읍니다..

다음 주 사례발표는 더 의미있는 시도를 해오도록 하겠습니다!!!!






2
2개의 답글

👉 이 게시글도 읽어보세요

모집 중인 AI 스터디