소개
지피 터스 스터디를 만들고 운영하면서, 항상 이 사업을 어떻게 더 빠르게 확장해서 더 좋은 교육을 더 많은 사람들에게 제공할 수 있을지, 확장 방안에 대한 고민이 계속 있습니다.
스터디 자체의 현재 문제 (교육생의 수준차이를 해결하지 못하는 문제, 커뮤니티 형태의 교육이라 교육 내용이 좀 더 체계적이어야 하는 문제, 전체 참여 인원의 50% 정도만 게시물을 작성하는 문제 등)을 해결해야 하는 것도 있고, 교육 프로그램의 한계 - 소프트웨어의 확장 속도만큼 빠르게 성장하기 어려운 문제도 있어서 이 교육의 일부분을 소프트웨어 형태로 바꿔서 더 빠르게 성장을 해야 하는 부분도 있습니다.
그래서 최근에 지피터스는 내부적으로 프로덕트팀을 꾸리고, AI 튜터라는 것을 만들려고 하고 있어요. AI 튜터는 교육생의 스크린을 보고, 강의 혹은 실습을 진행하는 강사의 음성을 들으면서 맥락에 맞게 교육생을 가이드해 주거나, 교육생의 질문에 답을 해 주는 데스크탑 앱입니다.
AI 활용법을 배우는데 있어서, 실습이 가장 효과적인 방법인데, 이때 교육생의 배경 지식의 차이가 가장 다양하게 실습에서 나타나고, 이로 인해서 이런 실습을 이끄는 스터디장분들이 한 명 한 명 설명해주고 알려주기에는 많은 시간이 걸리거든요. 그래서 AI 튜터를 만들어서, 이런 스터디장분들이 최소한의 노력으로 실습을 진행할 수 있고, 심지어 교육생 누구나 실습 세션을 열어서 AI 튜터 도움으로 실습할 수 있는 그런 것을 목표로 하고 있어요.
그렇다면, AI 튜터는 어떤 UX/UI를 가져야 할까요? 이걸 우리가 직접 모두 구체화 할 필요는 없고, 세상에 이미 이런 비슷한 것들이 다른 목적이나, 약간 다른 형태로 존재했을 것입니다. 그리 고 오랜 시간에 걸쳐서 다듬어진 이미 존재하는 UI/UX를 참고하여 시작하는 것이 그들의 시행착오를 지피터스가 고스란이 똑같이 경험하지 않고, 더 빨리 나아가는 방법 같고요.
그래서 유사한 툴은 어떤게 있었고, 그 툴들의 UIUX는 어떠했는지 OpenAI Deep Research로 조사해 보았습니다.
진행 방법
스터디장인 Inactive Member (Diane)님이 알려주신 프로젝트로 해결하려는 비즈니스 목적부터 시작해서, UIUX의 프로토타입까지 만들어 보는 프로세스를 먼저 살펴 보았습니다.
<다영님이 참고하라고 알려주신 방안>
도구
소요
시간
수행내용
ChatGPT
3분
프로젝트 관리, 지침 입력(무료버전일 경우 새로운 창에 입력)
ChatGPT
5분
프로젝트 맥락 입력과 수행 지시
NotebookLM
5분
ChatGPT에서 경쟁사 분석 프롬프트 가져오기 (Perplexity에서 세부 검토하기)
Gemini
3분
산업 트랜드 분석하기
Gemini
3분
비즈니스 비전 수립하기
ChatGPT
2분
비즈니스 비전 적용하기
ChatGPT
3분
경쟁사/트랜드 분석 자료 바탕으로 Key Finding 도출
ChatGPT
2분
페르소나 도출
ChatGPT
2분
문제 발견(Discover) 한 마디로 정리
* 필요 시 Claude로 문장 다듬기
ChatGPT
2분
문제 정의(Define) 한 마디로 정리
* 필요 시 Claude로 문장 다듬기
ChatGPT
2분
UX 컨셉 도출을 위한 문제발견, 문제정의 정리하기
ChatGPT
2분
UX 컨셉 및 키워드 도출
ChatGPT / Gemini
5분
차별화 아이데이션
ChatGPT
2분
UX 컨셉 구체화
ChatGPT
2분
프로토타입 프롬프팅
Figma
5분
아이디어 초안 구현
ChatGPT
2분
프로젝트 마무리
Figjam
3분
더블다이아몬드 보드에 문장 붙여넣기
GPTers
사례 글 올리기
저는 대부분이 이미 많은 고민을 통해서 저 만의 답을 가지고 있는 상황이라서, 이 방식을 그대로 적용하기는 어려웠어요.
비즈니스 목표 - 지피터스 AI 스터디를 더 빠르게 성장시킬 수 있는 소프트웨어 프로덕트 기회 찾기
경쟁 제품 - ??
산업 트렌드 - 생성형 AI 적용
비즈니스 비전 - 아직 이걸 논하기 이름
페르소나 - 저는 페르소나 방법론은 신뢰하지 않아서 ...
고객 문제 - AI 활용을 하려고 해도, IT 배경 지식이 너무 많이 필요함
UX 컨셉 - 옆에 스터디장이 같이 화면을 보면서 도와주는 것의 디지털 버전
그리고 이 사업 아이디어는 아직 초기 아이디어라서 어떻게 발전해 갈지 모릅니다.
현재로써는 AI 튜터는 Gemini Real-Time Stream을 써보면, 최신 파운데이션 모델이 얼마나 AI 튜터로 도움을 줄 수 있는지 대략 짐작이 가는데요, 현재의 파운데이션 모델의 멀티 모달, 특히, 비전 인식 기능이 AI 활용 실습에 쓸 수준이 안됩니다
하지만, 비전 모델이 얼마나 빨리 발전하느냐에 따라서, AI 튜터라고 별도의 데스크탑 어플리케이션이 필요하지도 않고, 그냥 챗GPT나 Gemini를 열어서 바로 도움을 받아서 문제를 해결하는 형태가 될 수도 있습니다 (그렇게 날라간 스타트업 참 많았죠...)
그래서 먼저 Gemini Real-Time Stream과 유사하나 GUI를 인식하는데 특화된 OpenAi Operator 혹은 Claude Computer Use 같은 모델이 왜 지금은 성능이 안 좋고, 향후는 이게 얼마나 빨리 개선될 지에 대해서 OpenAI Deep Research로 조사를 해 보았습니다.
<프롬프트>
OpenAI 의 Computer Use와 같은 AI 에이전트는 현재 동작 시간도 느리고, 사용자가 지정한 목표를 이뤄내는 것도 잘 하지 못해서 사람들이 많이 안쓰고 있어. 하지만, 예전의 알파고, 알파제로와 같은 AI를 보면, 머지않아 AI도 Computer를 스스로 잘 쓸 수 있게 될 것 같아.
이런 Computer Use와 같은 AI 에이전트가 잘 동작하게 만들기 위해서 어떠한 기술적 장벽 혹은 데이터 확보 장벽이 있는지 찾아서 정리해 줄래?<결과 요약>
장벽 분야
주요 문제점
해결을 위한 접근법
미래 전망 (해결 시나리오 및 시점)
기술적 장벽
GUI 이해 미흡: 낯선 인터페이스에서 오류 발생장기 추론 부족: 다단계 작업에서 논리 전개 실수액션 공간 광대: 선택지 폭주로 탐색 어려움
멀티모달 모델로 시각인지 개선 (예: GPT-4V, Gemini 2.0)체인-오브-띵킹 등 계획 수립 기법 도입DOM/접근성 트리 활용 등 행동공간 제한
2025년 SOTA 성능: 웹 80%대, OS 38% → 급속 향상 중단기(1~2년): 일반적 작업 성공률 인간 수준 근접중기(3~5년): 대부분 환경에서 안정적 자동화 달성
데이터 장벽
인간 시연 부족: 학습할 실제 작업 데이터 희소개인정보 이슈: 사용자 데이터 활용 제한
공개 벤치마크