소개
어쩌다?
어제 꿈도 환승이 되나요 컨퍼런스에서 요한님 강의를 들으면서 - PLAUD 라는 녹음기를 알게 되었음.
버튼 딸깍 하면 녹음되고,
바로 자체 앱과 연동되어 녹음파일 저장되고,
버튼 누르면 전사 및 AI 요약까지 생성되며,
무려 (요한님의 모국어인) 마크다운 언어로 제공된다
거기다가!! 폰의 진동을 감지해 통화 녹음도 된다니!
오 필요해!
송다혜는
글로 정리하는 걸 잘 못하고
누구랑 '대화' 할 때 가장 인사이트가 많이 생기며
누군가에게 설명할 때 가장 내 머릿 속이 정리되는 편이라 음성녹음 데이터가 유용한데,
아이폰 유저라 통화녹음이 안되는 상황
최근의 니즈
얼마 전 팀원과의 새벽 3시간 통화에서 엄청난 인사이트들이 넘쳤는데 아이폰 통화녹음이 안되는 게 아쉬웠고
이걸 그때그때 녹음을 해둔다고 해도, 이 음성 파일을 절대 다시 들어가보지 않는다는 걸 알기 때문에 (무려 파일 이름도 '새로운 녹음 67' 상태임)
이 플라우드 녹음 기기를 구매하면 -> 내 지식창고의 가장 많은 인풋 리소스가 되는 대화 내용들을 녹음+요약+저장까지 한큐에 해내는 프로세스를 가질 수 있지 않을까?!
그래서 얼만데?
플라우드 비용 : 229,000원...
일단 지름. 쿠팡 와우는 무료반품 30일까지니까 - 내게는 30일 간의 고민할 수 있는 시간이 있는 거다!
(구매 인증...? ㅋㅋㅋ)
근데... 정말 이게 맞을까..?
내가 원하는 것
음성 녹음을 자동으로 전사하고
이 내용 바탕으로 내 입맛에 맛는 프롬프팅으로 요약하며
노션 등 내 DB에 원하는 형태(카테고리, 인사이트 등)로 정리 자동으로 하기
PLAUD에 대해 이것 저것 찾아보니
전사된 텍스트 및 요약 텍스트를 가지고 내 노션 등에 정리하려고 하면, 결국 뒷단에 자동화를 붙여야 하는데
현재 웹훅, API를 제공하지 않고, Zapier(자동화도구)와의 연동만 지원함 -> 재피어 비용 추가됨
한 달 300분 변환만 무료이며, 그 이상을 하려면 돈을 더 내야함.
근데 OpenAI Whisper STT 모델 쓰면 1달 300분 -> 2달러 수준..!
아.. 왠지 아이폰 단축어 + n8n 조합이 가능할 거 같은데...
내가 지피터스 멤버도 아니고, AI도 모르고 자동화도 못하는 사람이었다면 -> 23만원 돈 주고 플라우드를 썼을 것 같음
근데.. 자존심(?)이 있지!! 나 지피터스 멤버인데!! 그것도 무려 7기부터!!
...와 같은 이상한 생각에 사로잡혀.. 현재 시간 4AM... 밤을 꼴딱 새게 되었...답니다.. ㅎㅎㅎㅎㅎ 😭
진행 방법
처음 구상한 방법
아이폰 단축어로 음성 녹음이 저장되면 웹훅으로 녹음 파일 전송
n8n으로 받아서 AI로 STT (speech to text) 전사, 요약, 노션 등 DB 저장 자동화
알게된 점
아이폰 단축어로는 '녹음이 저장되면' 트리거를 받아올 수 없음
아이폰 단축어에 특정 녹음파일 선택하는 액션이 있긴 한데 -> 웹훅으로 이 파일을 변수로 가져올 수가 없음
즉, 단축어를 실행시켜서 바로 녹음 파일을 웹훅 보낼 수가 없는 구조
아이폰 단축어로 웹훅 전송이 가능하며, 파일을 보낼 수 있음
웹훅 전송 시에 보낼 수 있는 파일 유형이 생각보다 많음
이미지, 미디어, 파일, PDF, 텍스트, URL, 위치 등등
찾아낸 방법
단축어에서 '공유 시트에서 보기' 옵션을 활성화 하면
공유 시트에서 입력(지금은 '음성파일')을 받아올 수 있고
이 입력을 '단축어 입력' 이라는 변수에 담아서 보낼 수 있음
n8n 워크플로 흐름
아이폰에서 음성녹음파일 공유 -> 웹훅 날리기 단축어 실행
웹훅으로 음성녹음파일 받기
Open AI Whisper 모델로 전사
전사된 텍스트를 1800자 단위로 자르기
노션 페이지 하위에 블럭으로 paragraph를 입력할 때 최대 제한이 2000자였나? 무튼 제한이 있음
그래서 코드로 1800자 단위로 chunk를 쪼개고,
이때 쪼개진 chunck가 3개라면 -> 노션 블럭에 붙여넣을 때 자동으로 3개가 순차적으로 쌓임 (별도 Loop 설정 안해도 됨)
노션 DB에 페이지 하나 생성 (빈껍데기)
페이지 하위 블럭에 내용을 집어넣으려면, 미리 '어떤 페이지'에 집어넣을 것인가? -> 해당 페이지가 먼저 있어줘야 함
생성한 노션 페이지에 전사된 텍스트 전체 블럭으로 넣기
(참고) 노션 DB는 필드로 구 성된 메타데이터가 있고, 그 하위에 메모장 처럼 쓰는 블럭(헤딩, 본문, 인용구 등)이 있음
AI Agent에게 요약 및 태그 추출 요청
이때 output structure 를 명확히 줌으로써 노션 DB에 딱 업데이트 하기 좋게 구조화 시킴
해당 노션 페이지 메타데이터로 업데이트
결과와 배운 점
결과
실행 방법
아이폰 음성녹음 앱 -> 웹훅 날릴 파일 점 3개 -> 공유
공유 시트에서 '웹훅 날리기' 단축어 실행 -> n8n 워크플로 트리거 됨
해당 워크플로가 다 실행된 후 노션에 저장된 내용!!
배운 점
아이폰 단축어가 웹훅 수신, 송신이 모두 가능하므로 -> 정말 무궁무진한 활용도가 있을듯함.
꼭 모-든 것을 n8n으로 하지 않아도 되고
어쩌면 카카오톡 전송 등 오히려 n8n으로는 불가한 것들을 시도해볼 수 있겠음
참고로 nfc 칩 사다가, nfc 칩 태깅--을 트리거 삼아서 웹훅 날리는 것도 가능함
트리거를 내가 핸드폰에서 하는 어떤 액션(사무실 와이파이에 연결됐을 때 등), 내 위치 정보에 기반한 액션(집에 들어갔을 때 등) 등으로 잡을 수 있음
아이폰 음성녹음 하는 중에 전화 가 오면 녹음이 끊겨버리는 것을 방지하는 법
단축어로 '음성 녹음이 시작되면 비행기 모드 ON'
단축어로 '음성 녹음이 중지되면 비행기 모드 OFF'
이렇게 각각 만들고, 설정 > 손쉬운 사용 > 터치 > 뒷면탭
폰 뒷면 2번 탭 : 음성녹음 시작 단축어 / 폰 뒷면 3번 탭 : 음성녹음 중지 단축어 설정
그리고, 플라우드 녹음기 환불함 ㅋㅋㅋㅋㅋ (환불 인증...?)
주의할 점
Open AI API 는 처리 가능한 음성파일 25MB 리밋이 있음
이런 경우, 전체 내용이 아닌 딱 내가 필요한 부분만 잘라내도록 하는 방법이거나
아니면 파일을 여러 개로 쪼개는.. 이런 방법이 필요할 듯 함
남은 작업
현재는 요약 프롬프트를 아주 간단하게 '요약해줘' 로 넣어둔 상태 -> 내게 필요한 방식으로 요약하도록 프롬프트 개선
우선 기존 전사한 데이터 full 전문도 DB에 저장해두었으니 -> 프롬프트 완성되면 다시 요약 AI agent 노드만 재실행 예정
시도해보고 싶은 것
최종으로 노션 DB 저장이 완료된 후, 요약 내용을 카카오톡 나에게 보내기
아이폰 단축어로 웹훅을 보낼 수도 있지만, 웹훅을 받을 수도 있음
녹음 공유 -> n8n 워크플로 실행 -> 다시 아이폰으로 웹훅을 날리면
카카오톡 보내기 등 아이폰 앱을 컨트롤 해야하는 작업들을 쉽게 할 수 있을 듯
아이폰에서 웹훅 날리는 파일의 유형에 따라 각기 다른 워크플로가 작동되도록 하기
파일의 유형은 이미지, 파일, url, 위치정보 등 굉장히 많음
지식 DB 구축이 목적이므로
내가 웹사이 트 읽다가 아카이브 하고 싶은 url이 생기면 -> 웹훅으로 날린 후 url 내용 요약정리해주는 워크플로
내가 급하게 사진을 찍어 메모를 하게 되는 경우 사진을 웹훅으로 날리고 -> 이미지 OCR 처리 해서 DB에 저장하는 워크플로
등등 파일 유형에 따라 분기처리해서 여러 워크플로 만들어볼 수도 있을 듯
도움 받은 글 (옵션)
대부분 정보를 찾아야 해서 perplexity를 애용했고
플라우드 유저 리뷰를 찾아보기 위해 (진짜 간만에) 구글링을 했고
그러다 만난 무척 반가운 사례
https://www.gpters.org/nocode/post/frequency-using-make-template-A0rqXi8N0wyAjFm
끗
12시? 12시반? 쯤부터 시작해서... 현재 시간 5AM.... 밤샜네요 ㅋㅋㅋㅋㅋㅋㅋㅋ
마지막은 밤샘동안 계속 함께 옆에 있어준 우리 뽀야.. ❣️ (사진찍는다고 모라하심)
그리고 어느새 동이 튼... 창 밖..