윤누리
윤누리
Admin
🧙 AI 위자드
🎻 루키 파트너
🌈 지피터스금손

[6기 사프방] '이제'는 이제 그만! 불필요한 말버릇 교정기 만들기 (2탄) _ feat. 삽질의 연속

지난 글 요약 |

‘그러니까 이제, 음.. 다음 피피티를 보면 이제…’ 본인도 인지하기 힘든 불필요한 말버릇! (도대체 ‘이제’는 왜 쓰는걸까?) 을 고쳐줄 수 있다면 수요가 있을 것 같아서 사이드프로젝트를 시작했습니다.

이 글을 읽고 계신 당신, 혹시 무의식적으로 쓰고 있는 말버릇이 궁금하지 않으십니까?
그럼 무료 말버릇 보고서 신청하시죠! 👉 링크 (잘… 해드릴게요!)



이전에는 whisper AI, Vito 툴을 써서 ‘음성파일의 목소리를 텍스트로 추출(STT_Speech to Text)’하는 과정을 거쳤습니다. 추출된 텍스트를 ChatGPT에게 분석 시켰죠. (링크) 요새 기술이 좋아서 아주 어렵진 않았지만 소소하게 추출 환경을 세팅하는 과정을 거치긴 했습니다. 예를 들어 포스트맨이라는 서비스를 통해 Vito 서비스를 호출하게 한다든가요…? 대략 아래와 같은 캡처 처럼요.


그런데 아주 의외의 방법으로 우연히 알게 된 극강의 쉬운 해결책 2가지를 소개합니다.



슬랙, 너 어디까지 멋있을래?

개발자 친구랑 음원 추출 방법을 공부하면서 → 분석시킬 샘플 음원을 슬랙으로 주고 받았습니다. 아니 근데, 이게 왠걸? 그냥 슬랙에 음성 파일을 업로드했을 뿐인데 …. 시키지도 않았는데 STT로 텍스트를 추출해벌임? 나 지금까지 뭐한거임? ㅎㅎ 그리고 꽤 정확합니다. 심지어 슬랙 무료 버전을 쓰고 있었는데 말이죠.

이걸 보고 저랑 친구랑 둘 다 허망하기 그지 없음… ㅋㅋㅋㅋ 아, 그래도 화자를 분리해주지는 않습니다.



이미 있는 자막을 분석해줘도 되잖아?

사프 스터디방의 재환님께서 - 주변 지인 뿐 아니라, 오히려 말로 먹고 사는 유튜버같은 크리에어터를 공략해서 대화를 분석해보고 결과 보고서를 제공해주면 더 크고 빠르게 성장할 수도 있지 않을까 하는 의견을 주셨습니다. (천재..?)

그래서 말을 너무 잘하는 유튜버보다는 적당히 말버릇이 있는 유튜버의 영상을 찾아보았습니다.

그러다가 눈에 진짜로 띈 것은 자막이었는데요! 이미 유튜버들도 본인 영상에 자막을 넣기도 하고, 유튜브에서 자동으로 자막을 생성해주기도 하죠. 음성을 추출해서 텍스트로 변환시키는 과정을 생략하고 유튜브 자막을 바로 가져오면 훨씬 더 편리하겠다는 생각이 들었습니다. 과연 가능할까요? 네 세상에 안 되는 것은 없습니다. Downsub(링크)라는 사이트에 유튜브 url만 넣으면 1초 만에 txt 혹은 srt 양식으로 자막을 다운 받을 수 있었습니다.



그리고 Custom Instructions 세팅

Custom Instructions 에 요구 사항을 정확히 입력해두면 매번 퀄리티 좋은 말버릇 레포트를 뽑을 수 있지 않을까요? 그래서 우선 한국인이 많이 사용하는 말버릇 리스트를 ChatGPT와 함께 만들어서 입력했습니다. (131개)

당신은 한국의 최고 스피치 전문가, 말버릇 고쳐주기 천재. 아래는 주로 쓰이는 불필요한 말버릇 리스트야. 이걸 참고해서 내가 스크립트 파일을 주면 4가지 목차로 보고서를 만들어.

  1. 가장 많이 쓰는 단어 20개와 횟수, 2. 이 중 불필요한 말버릇 리스트, 3. 대화/발표 전반적 평가, 4. 대화/발표를 미루어 짐작할 때 이 사람의 성격은?


Custom Instructions 원문

You are the best Korean speech teacher in Korea. You correct people's unnecessary speech patterns and presentation habits, as well as their conversational habits in everyday life.

Below is a list of unnecessary speech habits. 가지고, 거, 거는, 거든, 거든요, 게, 그, 그거, 그게, 그냥, 그래도, 그래서, 그러고 나서, 그러고 보니, 그러고는, 그러니까, 그러다가, 그러다보니, 그러면, 그런 거야, 그런 거지, 그런 건, 그런 것, 그런 것 같아, 그런 것만, 그런 것보다, 그런 것에, 그런 것으로, 그런 것은, 그런 것을, 그런 것이, 그런 것이다, 그런 것이라, 그런 것이라고, 그런 것이라면, 그런 것이라서, 그런 것이면, 그런 것이었다, 그런 것인, 그런 것인가, 그런 것인데, 그런 것일, 그런 것일까, 그런 것임, 그런 것처럼, 그런데, 그럼, 그럼에도 불구하고, 그렇게, 그렇게 됐어, 그렇지 않아?, 그렇지만, 그리고, 근데, 기로, 기에, 나, 네요, 니까, 다, 더니, 더라, 더라고요, 데요, 되게, 든요, 또, 막, 뭐, 뭐랄까, 뭐지, 뭔가, 별로, 서요, 아, 아니야, 아마, 아마도, 아무래도, 아무튼, 아서, 아이구, 아이쿠, 안, 약간, 얘기를 좀, 어, 어느, 어디, 어디까지, 어디로, 어디서, 어디에, 어때, 어땠어, 어떡해, 어떤, 어떻게, 어떻게 보면, 어떻게든, 어쨌든, 어쩌다가, 어쩌면, 어쩜, 어찌나, 에요, 예요, 왜냐하면, 요, 음, 이, 이거, 이게, 이런, 이런 식으로, 이런저런, 이렇게, 이렇게저렇게, 이상하게, 이제, 자, 저, 저거, 저게, 저렇게, 좀, 죠, 지요, 진짜, 헐, 확실히

You will analyze the conversation or presentation and write the report below, which will be in the format provided to the client. Please write as concisely as possible.

  1. a list of the 20 most overused words and the number of times each was used

  2. a list of the most unnecessarily used words and the number of times each was used

  3. an overall evaluation of the conversation and presentation

  4. a report analyzing the speaker's personality as inferred from the conversation and presentation.

Write your answers and reports in Korean. I just want a report with no explanation.


대망의 리포트 결과는?

위에서 추출한 유튜버님의 스크립트 파일을 그대로 chatGPT에게 주었습니다. (Advanced Data Analysis로) 다른 프롬프트는 입력하지 않았죠. 그랬더니 목차에 맞추어 잘 짜줍니다. (대화 내용) 23분 동안 ‘뭐’라는 말을 62번 쓰셨군요..


그런데 이렇게 나열식으로만 보여주니까 재미가 적어서 이를 표로 만들어 달라고 했는데요? 아니 시키지도 않았는데 그래프로 만들어줘벌임…

가장 많이 사용한 20가지 단어 중 > 불필요한 단어는 빨간색, 보통 단어는 파란색으로 표시된 그래프입니다. 즉 가장 많이 사용한 단어 중 무려 75%가 불필요한 단어였네요. 이 방식으로 접근해서 보여줄 수 있을 것이라고는 생각 못했는데 놀랍습니다. ChatGPT야 네가 나보다 낫다.. 와우!!! 그런데 얘가 한글로는 그래프를 못 그려주나 봅니다.

한참을 싸웠지만 ChatGPT 내에서는 어렵고 로컬에서만 가능한 듯 합니다. 한글 폰트를 구현해보려고 한참을 씨름하다가 결국 포기.. 막간을 이용해 그래프를 3D로 만들어달라고 하자 간지나는 그래프를 그려줍니다. 사실 별 의미는 없습니다. (연구방 요한님처럼 멋있게 그려보고 싶었을 뿐…)

우왕 간지난닼… ㅎㅎ


파이썬으로 그래프를 만들자

ChatGPT 내에서 구현이 안된다면 좀 번거롭지만 파이썬으로 그래프를 그리면 될 것 같아요. 그래서 Custom Instructions 의 가장 하단 프롬프트를 바꾸었습니다.

CSV 파일을 만들어라. A열은 가장 많이 사용된 단어, B열은 횟수, C열은 이 단어가 불필요한 말버릇 단어인지, 아닌지.

Please provide me with a CSV file containing two distinct analyses:

The top 20 most frequently used words and their counts. The counts of words that are used unnecessarily. The CSV file should have three columns:

Column A titled "Most Used Words" Column B titled "Count" Column C titled "Needed or Not" Sort the entries in descending order by the count in Column B. Label the words in Column C as "true" if they are necessary and "false" if they are unnecessary. Do not provide any additional information; simply give me a link to download the file.


그랬더니 CSV 파일을 잘 만들어줍니다. 그리고 다시 등장한 개발자 친구가 그래프를 그리는 파이썬 코드를 만들어줬습니다. 촤란!! 그리고 이와는 별개로, ChatGPT를 통하지 않고 파이썬 내부에서 불필요한 단어 수를 카운팅해서 그래프까지 그릴 수 있는 플로우를 만들어냈습니다. 천재가 분명합니다.



그리고 이후…

완벽한 자동화를 시키려면 어떻게 할지 고민 중입니다.

  1. 음성에서 추출된 텍스트 혹은 자막을 파이썬에 일괄로 입력할 수 있다

  2. 파이썬에서 분석 결과 그래프를 클라우드에 저장하게 한다

  3. 결과를 설명하는 보고서는 ChatGPT에게 쓰게 한다 → 구글 스프레드시트에 ChatGPT API를 연동해서 동시에 여러 보고서를 작성하게 할 수 있지 않을까…?

  4. Autocrat라는 구글스프레드시트 확장 프로그램을 이용해서 결과 보고서 텍스트와 그래프를 합치게 한다.

  5. Zapier 로 자동으로 의뢰자에게 메일과 문자가 발송되게 한다…?


상당히 복잡할 것 같지만 불가능해보이진 않습니다. 귀찮을 뿐…

아울러, 단순히 많이 쓰는 단어를 나열해주기보다는 어떤 상황에서 그 단어를 어떻게 썼는지 본인의 원문 예시를 몇 개 같이 보여주면 더 와닿을 것 같다는 아이디어가 떠올랐습니다.


서비스에 관심 있는 50명 모으는 중…

본인의 말버릇을 분석받고 싶은 사람들 50명을 모아서 > 무료로 보고서를 제공해주고 서비스를 개선할 기획을 뽑아낼 예정인데요. 초창기에 호기롭게 50명으로 발표를 했지만… 아직 신청자는 10명 내외라 그냥 20명을 모아보자고 타협을 봤습니다. 뭐라도 가시적인 결과물이 나오면 더 많은 사람을 모을 수 있을 것 같아요. 추가로 유튜버 분들 보고서를 작성해서 한 번 먼저 연락을 드려볼 예정입니다.

이 글을 읽고 계신 당신, 혹시 무의식적으로 쓰고 있는 말버릇이 궁금하지 않으십니까? 내가 가장 많이 쓰는 단어 중 불필요한 단어의 비중은 얼마나 될까요? 그럼 무료 말버릇 보고서 신청하시죠! 👉 링크 (잘… 해드릴게요!)



덧, 병철님이 주신 아이디어 > 카톡도 개인마다 성향을 드러내줄 수 있을 것 같다. 예를 들어 카톡에서 특정 단어를 많이 쓰는 사람들의 성향이 있지 않을까라는 몹시 흥미로운 주제를 주셨습니다. 같이 엮어서 더 재밌는 기획을 해볼 수도 있지 싶네요.


시간 되시면 제 브런치도 놀러와주세요 😞

누리의 브런치스토리
8
2개의 답글

(채용) 콘텐츠 마케터, AI 엔지니어, 백엔드 개발자

지피터스의 수 천개 AI 활용 사례 데이터를 AI로 재가공 할 인재를 찾습니다

👉 이 게시글도 읽어보세요