GPT를 이용한 학습 도우미 (with PDF)

GPT를 이용하는 대부분의 대학생은 저처럼 과제(에세이 제출, 코드 작성 등)를 위해 GPT를 시작했을텐데 오늘은 공부한 내용을 복습하고 정리하는 용도로 사용해보겠습니다. 

대학교의 학습자료는 대부분 PDF로 올라오는 경우가 많아 PDF 자료를 통한 학습을 진행한다고 가정하겠습니다. 

저의 경우 코딩 수업 중 'Unsupervised Learning'을 학습하는 과정을 담아 글을 작성했습니다.

1) Microsoft Edge Dev(🤔)
 먼저 PDF 파일을 불러오는 다양한 서비스 중 'Microsoft Edge Dev'를 이용해봤습니다.
Me : You are a top-tier python engineer, a graduate of MIT university. Coach me to learn contents about 'Unsupervised learning'. please explain following process: 1) diffence between 'Unsupervised learning' and 'supervised learning'. 2) explain K-means algorithm and write an example code using K-means. 3) make about 5 questions based on this PDF file. 4) here are 5 quetions to remember while studying, give me the correct answer for each question. 1. What is the unsupervised learning … 2. What are key differences between supervised and unsupervised learning … 3. Goal and core algorithms of clustering analysis … 4. K-means clustering algorithm’s principles … 5. Ways to identify the optimal number of clusters …

(당신은 MIT 대학을 졸업한 최고 수준의 파이썬 엔지니어입니다. 'Unsupervised Learning'에 대한 내용을 배울 수 있도록 지도해 주세요. 다음 과정을 따라서 설명해주면 된다:
1) 'Unsupervised Learning'과 'Supervised Learning'의 차이에 대해 설명해 주십시오. 
2) K-평균 알고리즘을 설명하고 K-평균을 사용하여 예제 코드를 작성합니다. 
3) 이 PDF 파일을 기반으로 약 5개의 질문을 만듭니다. 
4) 여기 공부하면서 기억해야 할 5개의 질문이 있는데, 각각의 질문에 맞는 답을 주세요. 
1. 비지도 학습이란 무엇인가
2. 지도학습과 비지도학습의 주요 차이점은 무엇인가 
3. 클러스터링 분석의 목표와 핵심 알고리즘 
4. K-평균 클러스터링 알고리즘의 원리
5. 최적의 클러스터 수를 식별하는 방법)

ChatGPT : Sure, I can help you with that.
  1. The main difference between supervised and unsupervised learning is that supervised learning algorithms are trained using labeled data while unsupervised learning algorithms are trained using unlabeled data. Supervised learning model takes direct feedback to check if it is predicting correct output or not. In contrast, unsupervised learning algorithms are used when the information used to train is neither classified nor labeled and allow the model to work on its own to discover patterns and information that was previously undetected123.
  2. K-means is a popular clustering algorithm that groups similar data points together. It is an unsupervised learning algorithm that solves the clustering problem. The goal of K-means is to group similar data points together and discover underlying patterns in the data. Here’s an example code using K-means algorithm:
from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0],
              [4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
print(kmeans.labels_)

  1. I’m sorry but I don’t have access to the PDF file you mentioned. Could you please provide me with more information about it?
  2. Sure! Here are the answers to your questions:
  3. Unsupervised learning is a type of machine learning that looks for previously undetected patterns in a data set with no pre-existing labels.
  4. The key differences between supervised and unsupervised learning are that supervised learning algorithms are trained using labeled data while unsupervised learning algorithms are trained using unlabeled data.
  5. The goal of clustering analysis is to group similar data points together.
  6. The principles of K-means clustering algorithm are to group similar data points together and discover underlying patterns in the data.
  7. There are several ways to identify the optimal number of clusters such as elbow method and silhouette method.

I hope this helps! Let me know if you have any other questions.

(1. 지도 학습과 비지도 학습의 주요 차이점은 지도 학습 알고리듬은 레이블이 지정된 데이터를 사용하여 훈련되는 반면 비지도 학습 알고리듬은 레이블이 지정되지 않은 데이터를 사용하여 훈련된다는 것이다. 지도 학습 모델은 직접 피드백을 받아 정확한 출력을 예측하는지 여부를 확인한다. 대조적으로, 비지도 학습 알고리듬은 훈련에 사용되는 정보가 분류되거나 레이블이 지정되지 않고 모델이 스스로 작동하여 이전에 감지되지 않았던 패턴과 정보를 발견할 수 있을 때 사용된다.

2. K-평균은 유사한 데이터 포인트를 함께 그룹화하는 널리 사용되는 클러스터링 알고리즘입니다. 클러스터링 문제를 해결하는 비지도 학습 알고리즘이다. K-평균의 목표는 유사한 데이터 점을 함께 그룹화하고 데이터의 기본 패턴을 발견하는 것입니다. 다음은 K-평균 알고리즘을 사용한 코드의 예이다:
'''                                                           
  코드 나열
'''

1. 죄송하지만 말씀하신 PDF 파일에 접근할 수 없습니다. 저에게 그것에 대한 더 많은 정보를 제공해주실 수 있나요?

2. 물론입니다! 다음은 당신의 질문에 대한 대답입니다:

3. 비지도 학습은 기존의 레이블이 없는 데이터 세트에서 이전에 발견되지 않은 패턴을 찾는 기계 학습의 한 유형이다.

4. 지도 학습과 비지도 학습의 주요 차이점은 지도 학습 알고리듬은 레이블이 지정된 데이터를 사용하여 훈련되는 반면 비지도 학습 알고리듬은 레이블이 지정되지 않은 데이터를 사용하여 훈련된다는 것이다.
군집 분석의 목표는 유사한 데이터 점을 함께 그룹화하는 것입니다.

5. K-평균 클러스터링 알고리듬의 원리는 유사한 데이터 포인트를 그룹화하고 데이터에서 기본 패턴을 발견하는 것이다.

6. 엘보법, 실루엣법 등 최적 군집 수를 식별하는 방법은 여러 가지가 있다.

이게 도움이 됐으면 좋겠어요! 다른 질문이 있으면 저에게 알려주세요.)

review : 답변 자체의 퀄리티는 나쁘지 않은데 PDF 파일을 읽은 뒤 답변하는 느낌 보다는 인터넷 서칭을 통해 정보를 찾는 방식인 것 같습니다.(3번 질문의 답변에서 확인: I’m sorry but I don’t have access to the PDF file you mentioned. Could you please provide me with more information about it?)
똑같은 질문을 chat GPT에게 했을 때 훨씬 빠른 시간에 더 퀄리티 높은 답변을 받을 수 있었는데, 만약 PDF 내용 자체에 집중하는 것이 아니라면 GPT를 쓰는 것이 더 좋아보입니다.


2) Chat PDF
똑같은 질문을 Chat PDF 에게 했을 때 이미 pdf 파일을 읽은 뒤 예시 질문들을 나열해주는 것을 보고 확실히 파일을 읽는다는 것을 확인할 수 있었습니다. 
 pdf파일을 읽고 문제를 만들어 달라고 했는데 괜찮은 수준으로 예상 질문까지 만들었습니다. 정말 pdf 파일 안에 있는 내용만을 가지고 얘기하는 것을 알 수 있는 대목이었습니다.
그럼 pdf 파일 안에 있는 내용 만을 가지고 답변을 진행하니 한글이나 영어나 퀄리티에 큰 차이가 없다고 생각하고 한글로 답변을 요청했습니다.
Chat GPT와 마찬가지로 한글로 답변을 작성하는 경우 얼마 답변하지 못하고 끊기는 일이 발생하는 것을 확인했습니다. 퀄리티의 차이는 없지만 속도, 답변 길이 제한 등으로 인해 영어를 사용하는 것이 더 유리한 것 같습니다.

review : 답변의 퀄리티나 PDF파일을 얼마나 잘 인식하고 받아들이는지에 있어서는 Chat PDF가 압도적으로 낫다는 것을 확인했습니다. 아직 많은 PDF 인식 툴을 사용하지는 않았지만 대표적으로 사용하는 것들을 보았을 때 아직까지는 chat PDF의 퀄리티가 가장 낫지 않나라는 생각이 듭니다. 대용량 파일을 업로드하기에는 유료버전(5$/mon)을 사용해야하지만 pdf 파일을 분할하여 필요한 단원의 내용만을 추릴 때는 확실히 좋은 tool로 쓸 수 있습니다.


+ show me를 활용한 도식화
chat GPT plus를 결제하고 가장 많이 쓰는 기능 중 하나인 'show me'를 사용했습니다. 이를 통해 줄글로 읽어야 할 내용을 다이어그램으로 나타내주어 개념을 이해하는데 있어 한결 나아졌습니다.
목차를 정리한다거나 상위 개념, 하위 개념으로 구분되는 학습을 함에 있어서 유용한 plugin이므로 자주 사용하면 좋을 것 같습니다.


13
7개의 답글

👉 이 게시글도 읽어보세요