Make에 입문한 건축가, '음성으로 업무지시서 발송!'

A. 소개

(시도하고자 했던 것과 그 이유)

1.건축물이 지어지는 공사 현장에서는 항상 긴박하게 구두(口頭)로 업무지시가 이루어집니다.

현장에서 공사감독업무를 수행하고 본사 사무실로 복귀한 후

공사 현장에서 구두로 지시한 ‘감리지시서(업무지시서)’ 내용을

문서화하고 이메일로 발송하는 일은 매번 반복되면서 많은 시간이 소요됩니다.

.

2.반복되는 작업을 줄이고자 했습니다.

휴대폰을 통해 ‘음성’으로 업무지시를 하면

문서 작성 → PDF 변환 → 이메일 발송까지 자동으로 진행되는 시나리오를

Make.com을 통해 만들고 싶었습니다.

.

.

.

B. '초기 아이디어 구상' 및 '시나리오 진행'

다른 유형의 아이콘을 보여주는 다이어그램

(위) 초기 구상한 아이디어 순서

웹훅으로 음성 수신 → GPT-4o로 문자변환 → 문서 작성을 위한 프로그램 선정 → PDF변환 → 문서발송 기록 → 메일발송

.

다른 유형의 장치를 보여주는 다이어그램

(위) 시나리오-1 : 초기 아이디어 구상 후 테스트단계에서 1차로 구체화된 ‘음성으로 업무지시’ workflow.

(좌하단) 시나리오-2 : ‘문자로 업무지시’ 테스트 중

(우하단) 초기 아이디어 구상 단계에서 문서를 만들기 위해 생각했던 앱 4가지

->최종 ‘Google Docs’로 적용

.

.

.

C. 진행 방법

(사용한 도구와 활용방법)

1.이번 프로젝트에서는 다음과 같은 도구들을 사용했습니다.

Make.com : 전체 시나리오 구성

• OpenAI Whisper : 음성 파일을 텍스트로 변환

• GPT-4o : 텍스트 분석 후 문서 종류 분류 및 내용 요약

• Google Docs : 감리지시서 양식에 내용 삽입, PDF로 변환

• Gmail : 자동 이메일 발송

.

2.핵심흐름 요약

2.1. Webhook을 이용해 음성으로 업무지시

보라색 배경이있는 웹 페이지의 스크린 샷

.

2.2. Whisper 모델로 STT(Speech-to-Text) 처리

보라색 배경이있는 웹 페이지의 스크린 샷
보라색 배경이있는 웹 페이지의 스크린 샷

.

2.3. GPT-4o로 문서 종류 판단 및 요약 작성

다양한 유형의 정보를 보여주는 웹 페이지의 스크린 샷

.

2.4. Router로 문서종류에 따른 구분

.

2.5. Google Docs 템플릿에 삽입

흐름도를 보여주는 웹 페이지의 스크린 샷
흐름도를 보여주는 웹 페이지의 스크린 샷
흐름도를 보여주는 웹 페이지의 스크린 샷

.

2.6. PDF로 변환

.

2.7. 이메일 발송

흐름도를 보여주는 웹 페이지의 스크린 샷

.

.

.

D. 결과와 배운 점

• ‘과연 이게 될까?’ 하면서 생각했던 아이디어가 구체화되는 과정이 너무 설렜습니다.

• 실제 업무에 필요한 내용을 매주 1개씩 만들어 보려고 노력하고 있습니다.

만족할만한 결과까지 도달하지 못해 아쉽지만, 이러한 과정을 통해 성장하고 있다고 생각합니다.

• 아래 'E' 항목을 해결해 가면서 완성도를 높이고 싶습니다.

.

.

.

E. 시행착오 및 해결이 필요한 부분

  1. 해결이 꼭 필요한 항목

1.1 ‘음성’으로 지시한 내용 (ex. 발송번호, 날짜, 제목, 수신 메일주소, 지시내용 등)이

Google Docs에 구분되어 기입되도록 하고 싶습니다.

현재 '음성'으로 지시한 내용이 텍스트 변환은 되는데,

'발송번호, 날짜, 제목, 수신 메일주소, 지시내용' 5가지 항목으로 구분하는 방법을 해결중입니다.

다양한 유형의 정보를 보여주는 웹 페이지의 스크린 샷

(위) GPT-4o에서 인식한 음성 내용

.

흐름도를 보여주는 웹 페이지의 스크린 샷

(위) Google Docs에서는 입력항목이 생성되었지만, GPT-4o의 내용이 구분되지 않는 현황

.

컴퓨터 화면에서 문서의 스크린 샷

(위) Google Docs로 작성한 감리지시서 (양식)

.

1.2 PDF 변환시 파일명을 다르게 저장하고 싶은데, 현재 시행착오 중.

→ GPT-4o의 내용을 항목별로 분류한다면 해결할 수 있으로 추정.

.

1.3 Gmail 발송시 음성으로 입력된 ‘이메일’로 발송하고 싶은데, 현재 시행착오 중.

→ GPT-4o의 내용을 항목별로 분류한다면 해결할 수 있으로 추정.

.

1.4 아이폰 단축어로 ‘문자’를 보내서 웹훅 → ChatGPT가 요약하게 하는 과정이

제대로 반영되지 않고 있습니다. ‘시행착오 중‘입니다.

색상과 아이콘이 다른 웹 사이트의 스크린 샷

(위) '문자'를 수신할 수 있는 웹훅 생성

.

다양한 유형의 장치를 보여주는 웹 페이지의 스크린 샷

(위) 웹훅을 통해 '문자'내용이 수신된 것을 확인

.

다른 유형의 아이콘을 보여주는 웹 페이지의 스크린 샷

(위)문자로 수신된 내용을 구분하여 입력하는 방법을 못 찾고 고민중임.

.

.

2. 추가로 해결이 필요한 사항

• 아이폰 단축어를 통해 ‘문자’ 입력시에도 시나리오가 진행되도록 개선 필요.

• 현재는 감리지시서만 자동화되어 있지만, 공문 , 작업중단명령서 등 다양한 유형으로 확장할 예정입니다.

• 구글 시트 또는 노션과 연동해 지시 내역 기록 및 이력 관리 자동화도 진행할 계획입니다.

3
7개의 답글

👉 이 게시글도 읽어보세요