AI 튜터를 만들려고 해요. 그런데, 이런 아이디어가 과거에 없었을까요?

소개

지피터스 스터디를 만들고 운영하면서, 항상 이 사업을 어떻게 더 빠르게 확장해서 더 좋은 교육을 더 많은 사람들에게 제공할 수 있을지, 확장 방안에 대한 고민이 계속 있습니다.

스터디 자체의 현재 문제 (교육생의 수준차이를 해결하지 못하는 문제, 커뮤니티 형태의 교육이라 교육 내용이 좀 더 체계적이어야 하는 문제, 전체 참여 인원의 50% 정도만 게시물을 작성하는 문제 등)을 해결해야 하는 것도 있고, 교육 프로그램의 한계 - 소프트웨어의 확장 속도만큼 빠르게 성장하기 어려운 문제도 있어서 이 교육의 일부분을 소프트웨어 형태로 바꿔서 더 빠르게 성장을 해야 하는 부분도 있습니다.

그래서 최근에 지피터스는 내부적으로 프로덕트팀을 꾸리고, AI 튜터라는 것을 만들려고 하고 있어요. AI 튜터는 교육생의 스크린을 보고, 강의 혹은 실습을 진행하는 강사의 음성을 들으면서 맥락에 맞게 교육생을 가이드해 주거나, 교육생의 질문에 답을 해 주는 데스크탑 앱입니다.

AI 활용법을 배우는데 있어서, 실습이 가장 효과적인 방법인데, 이때 교육생의 배경 지식의 차이가 가장 다양하게 실습에서 나타나고, 이로 인해서 이런 실습을 이끄는 스터디장분들이 한 명 한 명 설명해주고 알려주기에는 많은 시간이 걸리거든요. 그래서 AI 튜터를 만들어서, 이런 스터디장분들이 최소한의 노력으로 실습을 진행할 수 있고, 심지어 교육생 누구나 실습 세션을 열어서 AI 튜터 도움으로 실습할 수 있는 그런 것을 목표로 하고 있어요.

그렇다면, AI 튜터는 어떤 UX/UI를 가져야 할까요? 이걸 우리가 직접 모두 구체화 할 필요는 없고, 세상에 이미 이런 비슷한 것들이 다른 목적이나, 약간 다른 형태로 존재했을 것입니다. 그리고 오랜 시간에 걸쳐서 다듬어진 이미 존재하는 UI/UX를 참고하여 시작하는 것이 그들의 시행착오를 지피터스가 고스란이 똑같이 경험하지 않고, 더 빨리 나아가는 방법 같고요.

그래서 유사한 툴은 어떤게 있었고, 그 툴들의 UIUX는 어떠했는지 OpenAI Deep Research로 조사해 보았습니다.

진행 방법

스터디장인 Inactive Member (Diane)님이 알려주신 프로젝트로 해결하려는 비즈니스 목적부터 시작해서, UIUX의 프로토타입까지 만들어 보는 프로세스를 먼저 살펴 보았습니다.

<다영님이 참고하라고 알려주신 방안>

도구

소요
시간

수행내용

ChatGPT

3분

프로젝트 관리, 지침 입력(무료버전일 경우 새로운 창에 입력)

ChatGPT

5분

프로젝트 맥락 입력과 수행 지시

NotebookLM

5분

ChatGPT에서 경쟁사 분석 프롬프트 가져오기 (Perplexity에서 세부 검토하기)

Gemini

3분

산업 트랜드 분석하기

Gemini

3분

비즈니스 비전 수립하기

ChatGPT

2분

비즈니스 비전 적용하기

ChatGPT

3분

경쟁사/트랜드 분석 자료 바탕으로 Key Finding 도출

ChatGPT

2분

페르소나 도출

ChatGPT

2분

문제 발견(Discover) 한 마디로 정리
* 필요 시 Claude로 문장 다듬기

ChatGPT

2분

문제 정의(Define) 한 마디로 정리
* 필요 시 Claude로 문장 다듬기

ChatGPT

2분

UX 컨셉 도출을 위한 문제발견, 문제정의 정리하기

ChatGPT

2분

UX 컨셉 및 키워드 도출

ChatGPT / Gemini

5분

차별화 아이데이션

ChatGPT

2분

UX 컨셉 구체화

ChatGPT

2분

프로토타입 프롬프팅

Figma

5분

아이디어 초안 구현

ChatGPT

2분

프로젝트 마무리

Figjam

3분

더블다이아몬드 보드에 문장 붙여넣기

GPTers

사례 글 올리기

저는 대부분이 이미 많은 고민을 통해서 저 만의 답을 가지고 있는 상황이라서, 이 방식을 그대로 적용하기는 어려웠어요.

비즈니스 목표 - 지피터스 AI 스터디를 더 빠르게 성장시킬 수 있는 소프트웨어 프로덕트 기회 찾기
경쟁 제품 - ??
산업 트렌드 - 생성형 AI 적용
비즈니스 비전 - 아직 이걸 논하기 이름
페르소나 - 저는 페르소나 방법론은 신뢰하지 않아서 ...
고객 문제 - AI 활용을 하려고 해도, IT 배경 지식이 너무 많이 필요함
UX 컨셉 - 옆에 스터디장이 같이 화면을 보면서 도와주는 것의 디지털 버전

그리고 이 사업 아이디어는 아직 초기 아이디어라서 어떻게 발전해 갈지 모릅니다.

현재로써는 AI 튜터는 Gemini Real-Time Stream을 써보면, 최신 파운데이션 모델이 얼마나 AI 튜터로 도움을 줄 수 있는지 대략 짐작이 가는데요, 현재의 파운데이션 모델의 멀티 모달, 특히, 비전 인식 기능이 AI 활용 실습에 쓸 수준이 안됩니다
하지만, 비전 모델이 얼마나 빨리 발전하느냐에 따라서, AI 튜터라고 별도의 데스크탑 어플리케이션이 필요하지도 않고, 그냥 챗GPT나 Gemini를 열어서 바로 도움을 받아서 문제를 해결하는 형태가 될 수도 있습니다 (그렇게 날라간 스타트업 참 많았죠...)

그래서 먼저 Gemini Real-Time Stream과 유사하나 GUI를 인식하는데 특화된 OpenAi Operator 혹은 Claude Computer Use 같은 모델이 왜 지금은 성능이 안 좋고, 향후는 이게 얼마나 빨리 개선될 지에 대해서 OpenAI Deep Research로 조사를 해 보았습니다.

<프롬프트>

OpenAI 의 Computer Use와 같은 AI 에이전트는 현재 동작 시간도 느리고, 사용자가 지정한 목표를 이뤄내는 것도 잘 하지 못해서 사람들이 많이 안쓰고 있어. 하지만, 예전의 알파고, 알파제로와 같은 AI를 보면, 머지않아 AI도 Computer를 스스로 잘 쓸 수 있게 될 것 같아.

이런 Computer Use와 같은 AI 에이전트가 잘 동작하게 만들기 위해서 어떠한 기술적 장벽 혹은 데이터 확보 장벽이 있는지 찾아서 정리해 줄래?

<결과 요약>

장벽 분야

주요 문제점

해결을 위한 접근법

미래 전망 (해결 시나리오 및 시점)

기술적 장벽

GUI 이해 미흡: 낯선 인터페이스에서 오류 발생장기 추론 부족: 다단계 작업에서 논리 전개 실수액션 공간 광대: 선택지 폭주로 탐색 어려움

멀티모달 모델로 시각인지 개선 (예: GPT-4V, Gemini 2.0)체인-오브-띵킹 등 계획 수립 기법 도입DOM/접근성 트리 활용 등 행동공간 제한

2025년 SOTA 성능: 웹 80%대, OS 38% → 급속 향상 중단기(1~2년): 일반적 작업 성공률 인간 수준 근접중기(3~5년): 대부분 환경에서 안정적 자동화 달성

데이터 장벽

인간 시연 부족: 학습할 실제 작업 데이터 희소개인정보 이슈: 사용자 데이터 활용 제한

공개 벤치마크로 데이터 공유 (UI-Vision 등)프로그램+인간 혼합 데이터 생성프라이버시 준수 온디바이스 학습 및 정책 수립

단기: 실사용 피드백으로 모델 개선 (OpenAI 프리뷰 등)중기: 업계 협력 통해 대규모 GUI 데이터 축적장기: 개인정보 보호 기술 발전으로 안전한 데이터 활용 가능

비즈니스 장벽

제품화 미흡: UX 설계 및 포지셔닝 불명확수익모델 불투명: 고비용 서비스의 수익화 어려움도입 저항: 조직의 신뢰 부족, 규제 애매함

제한적 리서치 프리뷰로 UX 개선 반복구독/사용량 기반 요금제 등 모색인간 감독 병행해 신뢰 구축 및 책임 경계 설정

Gartner에 따르면 2028년 33% 기업용 SW에 에이전트 내장단기: 일부 전문가/조직 도입 → 효과 입증중기: 표준화된 안전 가이드라인 속 광범위 채택장기: 개인·기업 필수 도구로 정착 (2030년경)

컴퓨터-사용 AI 에이전트는 멀티모달 인공지능, 추론 능력, 안전성 등 다양한 AI 연구의 집약체로, 최근 Operator(GPT-4 기반)나 Mariner(Gemini 2.0 기반) 등의 등장은 그 가능성을 입증했습니다linkedin.comblog.google. 아직까지는 GUI 인식 오류, 장기 계획 미숙, 데이터 부족, 그리고 실사용에 대한 우려 등 여러 한계로 연구 프리뷰 단계에 머물러 있지만, 기술적 지표들은 빠르게 향상되고 있습니다. OpenAI는 CUA 액션 공간 확대 등의 다음 과제를 명시하고 있으며openai.com, 실제 사용자 피드백을 받아 모델을 개선해나가는 적극적 배포전략을 취하고 있습니다openai.com. Google DeepMind 역시 신뢰할 수 있는 환경에서의 테스트를 거쳐 속도와 정확도를 높이고 있고blog.google, Anthropic과 Meta 등도 자체 접근법으로 이 경쟁에 참여하고 있습니다.
상용화의 궁극적인 열쇠는 기술·데이터·비즈니스 장벽을 모두 충분한 수준으로 낮추고 사용자와 기업의 신뢰를 얻는 것입니다. 보고서에서 논의한 바와 같이, 각 장벽에 대해서 낙관적인 해결 경로가 존재하며 다수의 연구와 산업 노력이 이를 현실로 만들고 있습니다. 차세대 모델들은 사람처럼 UI를 보고 이해하고, 실수하면 스스로 고치며, 거의 모든 소프트웨어를 제약 없이 사용할 수 있는 방향으로 나아가고 있습니다. 또한 생태계의 협력으로 양질의 데이터가 쌓이고 있고, 책임있는 AI에 대한 사회적 논의로 안전장치도 정비되고 있습니다. 산업계에서는 이러한 에이전트를 업무 자동화나 개인 비서로 활용하여 생산성 혁신을 이루려는 동인이 강하며, 경쟁적으로 투자와 개발이 이뤄지는 중입니다.
결론적으로, 데스크톱 OS 및 웹 환경용 AI 에이전트의 상용화는 머지않은 미래에 현실화될 것으로 보입니다. 앞으로 몇 년간은 “인간 감시 하의 AI 조수” 형태로 점진적으로 쓰이다가, 2030년 무렵에는 지금의 스마트폰처럼 넓게 보급된 필수 기술로 자리잡을 가능성이 높습니다linkedin.com. 다만, 완전한 자율 에이전트에 대한 사회적 수용과 신뢰를 얻는 과정에서 반복적인 개선과 책임 있는 운영이 필수적일 것입니다. 기술 개발자, 데이터 제공자, 정책 입안자, 최종 사용자 등이 함께 노력한다면, 컴퓨터-사용 AI 에이전트는 디지털 업무의 새로운 동반자로서 우리 일상의 풍경을 크게 바꾸어 놓을 것입니다.

위의 리포트를 보고 모든 것을 정확하게 판단하긴 어렵겠지만, 몇 가지 팩트를 정리할 수 있었습니다.

지금 당장은 AI 튜터를 만들어도, AI가 전적으로 도와줄 수는 없고, 강사가 일부 도움을 주는 것이 필요합니다. AI 튜터가 가이드를 해 주되, AI 튜터가 해결하지 못하는 이슈가 생기면, 사람 강사가 교육생의 화면을 보면서 문제를 해결해 주는 것이 필요한거죠.
GUI 환경에서 특정 목적을 위해서 순차적으로 작업을 하는 것에 관한 데이터 -- 고품질의 UI-Vision 데이터가 확보되는 방법이 마련되어야, 파운데이션 모델의 GUI 인식 및 컴퓨터 스스로 사용 능력이 발전할 수 있고, 그에 따라 AI 튜터도 성능이 좋아질 수 있습니다.
이런 데이터가 사용자로부터 익명화되어서 수집되는 것이 Windows Recall, Screenpipe와 같은 기능, 영상 크리에이터들의 How To 영상들, SaaS 회사들의 튜토리얼 비디오 등을 통해서 수집될 수 있습니다.
아무리 UI Vision 데이터가 확보되어도, 사내의 고유한 업무 워크플로에 대해서는 개별 회사의 온프레스 상에서 독자 UI Vision 데이터를 확보하여 활용하는 것이 필요합니다. 예를 들어 SK 하이닉스나 삼성전자 반도체 공장에서 별도의 UI Vision 데이터 셋이 필요할 것입니다.
결국 AI 튜터를 만드는 것은, 사람 교육을 넘어서, AI가 컴퓨터를 잘 쓰게 하는 데이터를 수집하는 사업이 되며, AI가 아무리 발전해도 On-premise 데이터 수집 기능이 있다면, 파운데이션 모델에게 쉽게 대체되지 않을 것입니다

이 정도로 생각 정리가 되더군요.

이제 AI 튜터에 대한 확신이 서서, 이 튜터의 UIUX는 어떻게 되어야 할지 고민해 보았습니다.

강사가 마치 옆에 붙어서 내가 얻고자 하는 결과물을 얘기하면 스텝-바이-스텝으로 가르쳐 주는 것
이때 필요한 맥락을 맞춤형으로 설명해 주는 것

이게 실습하는 교육생 입장에서는 가장 필요한 것이 아닌가 합니다.

그럼, 이런 UIUX는 지피터스에서 세계 최초로 시도하는 것일까요? 당근 아닐겁니다. 그래서, 뭔가 이 Clippy와 비슷한 UIUX를 수년간 갈고 닦아온 사업자가 있지 않을까 생각했습니다. 최대한 유사한 문제를 다루고 있는 곳에서 수년간 갈고 닦아온 UIUX를 바탕으로 시작해야 우리가 가장 앞설 수 있으니까요.

<마이크로소프트 오피스에서 도움을 주던 강아지. 클립 형태의 클리피도 있었음>

그래서 OpenAI의 Deep Research를 다시 활용해 보았습니다.

컴퓨터 사용하는 방법, 다양한 웹서비스를 사용하는 방법을 컴퓨터 화면 자체에서 알려주는 AI 코치를 만들려고 해. 내가 해 내고 싶은 게 있을 때, 그걸 채팅 대화로 알려주면, 화면에 가이드해 주는 화살표, 텍스트 말풍선을 바로 스크린 위에 나타나게 해서, 내가 바로 해 볼 수 있게 알려주는 AI 코치인거야.

이런 AI 코치와 유사한 것을 만들고 있는 사람들, 회사가 있는지 찾아주고, 어떤 것을 만들고 있는지 상세하게 리서치해서 전체 비교를 해줘.

여러 회사가 AI 기반 화면 코치의 개념에 수렴하고 있지만 다양한 각도에서 접근하고 있습니다. 워크미(WalkMe)와 왓픽스(Whatfix)와 같은 엔터프라이즈 디지털 채택 플랫폼은 규모에 맞게 안정적으로 화면에 안내하는 데 있어 가장 성숙한 플랫폼입니다. 그들은 경험을 보다 대화식으로 만들기 위해 AI 채팅 기능을 추가하기 시작했습니다. Pendo 및 Appcues와 같은 제품 주도 온보딩 도구는 강력한 UX와 함께 화면 지침을 제공하지만 여전히 동적 AI 이해보다는 사전 작성된 흐름에 의존합니다. Userlane 및 이와 유사한 플랫폼은 "가상 코치" 패러다임에 명시적으로 초점을 맞추어 작업 흐름에 도움이 필요한 최종 사용자에게 가능한 한 원활한 경험을 제공합니다. 마지막으로, Google의 Stream Realtime과 같은 새로운 AI 서비스는 AI가 모든 애플리케이션의 모든 작업을 즉시 이해하고 안내할 수 있는 미래를 암시하며, 이는 우리가 소프트웨어를 학습하고 사용하는 방식을 획기적으로 바꿀 수 있습니다kevinstratvert.com.
이러한 솔루션을 비교할 때 사용 사례를 고려하십시오. 특정 소프트웨어가 있는 통제된 엔터프라이즈 환경의 경우 WalkMe/Whatfix/Userlane과 같은 도구는 완료 및 성능을 추적할 수 있는 기능과 함께 맞춤형 시각적 지침을 제공합니다(교육 프로그램에 유용함). 또한 브랜딩과 요구 사항에 맞게 지침의 UX를 디자인할 수 있습니다. 반면에 많은 앱에서 임시 개인 지원의 경우 Google(또는 유사한 AI 부조종사)과 같은 일반 AI 비서가 더 유연할 수 있습니다. 기존 도구 간의 성능은 일반적으로 강력하지만 약간의 절충안이 있습니다(예: WalkMe는 더 많은 작업을 수행할 수 있지만 더 무거울 수 있음, 가벼운 도구는 더 빨리 실행됨). 디자인에서는 모두 방해가 되지 않고 직관적인 것을 목표로 하지만 콘텐츠 제작자의 사용 편의성은 다양합니다. 가격은 무료 또는 저비용(Pendo의 기본 계층 또는 실험적 AI 도구 사용)에서 상당한 기업 투자에 이르기까지 다양하므로 ROI 고려 사항 및 규모 요구 사항에 따라 결정을 내릴 수 있습니다. 궁극적으로 이러한 모든 솔루션은 안내 UI 탐색의 강점과 비서의 지능을 결합하여 사용자가 자신 있게 작업을 수행할 수 있도록 하여 교실이 아닌 소프트웨어를 사용하여 효과적으로 "직장 교육"을 제공한다는 목표를 공유합니다.

이번에 DAP (Digital Adoption Platform, 디지털 전환/도입 플랫폼)이라는 개념을 처음으로 알았습니다! AI 시대가 오기전에 디지털 시대, 인터넷 시대가 되었을 때, 전통적인 큰 회사에서 디지털 전환을 잘 하는 것을 도우려는 제품들이 이미 있었고 AI 튜터와 유사했습니다.

또한, 웹서비스 프로덕트의 사용법을 알려주는 기능을 구현하기 위해서, 또는 그런 사용법을 알려주는 인터랙티브 마법사를 웹서비스 내에 구현하기 위해서, Pendo/Appcues와 같은 제품-주도 온보딩 도구가 있었습니다.

앞으로 이런 기존의 소프트웨어 프로덕트들의 UIUX를 깊게 해부해서, AI 튜터를 구체화 해 가야 할것 같아요.

결과와 배운 점

제가 첫 창업을 했을 때 가장 크게 했던 실수 중에 하나는 (워낙 많이 했었어서 ...), 내가 지금 만들려고 하는 것이 세상에 처음있는 것이다 -- 라는 것이었습니다.

하지만 제 경험상 그런 것은 정말 1도 보지 못했습니다. 누군가가 먼저 생각을 해 보았고 시도해 본 것들이 항상 있었습니다. 그게 내가 하려는 사업 분야와 같지 않거나, 내가 만들려고 하는 제품의 모양과 약간 다를지언정 항상 참고할 수 있는 것들이 있더라구요.

챗GPT의 Deep Research는 이런 이전에 유사한 것에 대한 조사를 정말 쉽게 해 줍니다. 그래서 UIUX는 0에서 시작하는 실수도 막아주고, 선조(?)의 레거시 위에 더 좋은 제품을 만들 수 있게 해 주는 것 같습니다.

도움 받은 글

(내용 입력)

📣 23기 AI 스터디 대기자 모집 중!

AI 튜터를 만들려고 해요. 그런데, 이런 아이디어가 과거에 없었을까요?

소개

진행 방법

결과와 배운 점

도움 받은 글

뉴스레터 무료 구독