2024년 초부터 많은 멀티모달(다양한 작업을 수행 할 수 있는) AI 디바이스들이 속속 등장하고 있습니다. 이 글에서는 대표적인 디바이스들을 소개하고, 이를 바탕으로 제가 생각하는 이상적인 AI 디바이스의 모습과 이로인해 생겨 날 미래의 문제점에 대해 이야기해보고자 합니다.
*의견 남겨주시면 정말 감사하겠습니다 😊
옷에 부착하는 작은 디바이스입니다. 내장된 카메라를 통해 사물을 인식하고 사용자와 음성으로 대화를 나눕니다. 특별한 점은 손에 빔을 쏴 가상 스크린을 만들어낸다는 것입니다. 자체 내장 컴퓨터를 사용하여 독립적으로 작동합니다.
가장 많은 사전 주문량을 기록한 R1은 강력한 자체 OS로 스마트폰을 대체할 것이라 주장하고 있습니다. R1 OS는 기존의 웹사이트와 앱을 분석하여 컨트롤할 수 있다는 점이 특징입니다. 마찬가지로 카메라가 달려 있고 음성과 간단한 스크린을 통해 사용자와 소통합니다.
스크린은 최소한의 정보와 선택지만을 제공하여 앱 기반의 스마트폰 UI를 LAM(Large Action Model)으로 대체한다고 합니다. 즉, 우리가 일반적으로 사용하는 앱 기반의 UI에서 벗어나, 시스템이 사용자가 원하는 결과만 알아서 보여준다는 것입니다. R1 또한 자체 내장 컴퓨터를 사용합니다.
메타에서 오랫동안 개발해온 AI 안경으로, AR 기능이 내장되어 있습니다. 메타의 강력한 AI와 연동되어 스마트폰과 함께 사용됩니다.
비교적 최근 출시된 제품으로, 음성으로 사용자와 소통하는 모델입니다. 특징적인 점은 PC와 연결하여 사용한다는 것입니다. 사용자가 O1에 음성 명령을 내리면, 통신망을 통해 PC에 내장된 AI 모델이 작업을 수행한 후 결과를 다시 음성으로 출력해줍니다.
O1 OS는 PC에 설치된 다양한 앱을 제어할 수 있으며, 특정 작업을 학습시킬 수도 있습니다. 예를 들어, 슬랙을 통해 파일을 전송하는 방법을 한 번 보여주면, O1 OS가 이를 학습하여 해당 작업을 숙지합니다. 이후 같은 작업을 요청하면 슬랙 앱을 열어 컴퓨터의 파일을 찾아 전송해줍니다. 매우 신기한 기능이라 할 수 있겠습니다.
사용자가 하는 모든 대화를 듣고 있는 목걸이형 디바이스입니다. 내장된 마이크를 통해 대화 내용을 스마트폰 로컬 메모리에 저장한 후, 전용 앱에서 이를 바탕으로 다양한 질문에 답변을 제공합니다.
*현재 저는 Rabbit R1과 Rewind Pendant를 사전 예약해 놓은 상태입니다.
이처럼 스타트업과 대기업들이 다양한 형태의 멀티모달 AI 디바이스를 내놓고 있습니다. 각 디바이스마다 작동 방식, 형태, 목적이 다른데, 미래에는 이러한 디바이스들이 스마트폰처럼 획일화된 플랫폼으로 발전할지, 아니면 각자의 개성을 유지한 채로 진화할지 궁금해집니다.
이러한 상황 속에서 제가 생각하는 가장 이상적인 AI 디바이스의 모습과 이로인해 생겨날 미래의 문제점에 대해 글을 이어가 보도록 하겠습니다.
상황 인식을 위한 카메라와 마이크
사람이 AI에 비해 가진 가장 큰 강점은 맥락을 파악하고 있다는 점입니다. 예를들어 일을 시작할 때, 우리는 어떤 회사에서 어떤 프로젝트를 진행하는지, 고객의 취향은 어떠한지, 그동안 받은 피드백은 무엇이었는지, 주로 어떤 데이터 소스를 활용하는지 등 상황에 대한 이해를 바탕으로 업무에 임합니다.
그러나 현재의 AI는 이러한 상황(컨텍스트)에 대한 지식 없이 오직 프롬프트로만 일을 처리합니다. 상황을 이해하지 못하는 AI에게 일을 맡기면, 대학생 인턴처럼 큰 도움이 되지 않고 오히려 부실한 결과물로 인해 더 많은 일을 하게 되는 상황에 처할 수 있습니다. 즉, AI는 아직 '경험'이 부족한 일꾼인 셈입니다.
챗GPT를 사용하면서 실망했던 이유도 바로 이 때문일 것입니다. 챗GPT는 사용자의 전체적인 상황과 맥락을 이해하지 못합니다. 채팅창에 입력할 수 있는 글자 수에는 한계가 있어, 우리가 전달하고자 하는 진짜 의도와 정보를 모두 담아내기 어렵습니다.
하지만 카메라와 마이크가 상시적으로 사용자가 보고 듣는 것을 인식한다면 상황이 달라집니다. AI는 맥락을 이해할 수 있을 뿐만 아니라, 사용자가 잊어버린 부분까지 기억해낼 수 있을 것입니다. 다소 무서울 수 있지만, "카메라와 마이크로 컨텍스트를 이해하는 디바이스"가 바로 미래라고 생각합니다. 이를 실현하기 위해서는 AI 모델이 처리할 수 있는 입력(토큰)의 길이가 매우 길어져야 할 것입니다.
클라우드 기반의 AI 디바이스, 스마트폰과의 연동
이상적인 AI 디바이스의 핵심은 웨어러블에 있습니다. 메타의 AR 안경이나 Humaine사의 AI Pin처럼, 사용자의 모든 행동을 카메라와 마이크로 담아내고 음성을 통해 소통해야 하므로, 얼굴 가까이에 위치하면서도 가볍고 배터리 지속 시간이 길어야 합니다. 이는 많은 제약 조건을 동반합니다. 그중에서도 가장 중요한 점은 배터리 소모량과 무게를 줄이는 것입니다.
현재 Humaine과 Rabbit은 자체 컴퓨터와 내장 메모리를 탑재하고 있습니다. 그러나 5G 시대에 접어든 지금, 이는 오버스펙이라고 생각합니다. 이들은 스마트폰을 대체하려는 목적으로 이런 전략을 취하고 있지만, 스마트폰의 스크린 경험을 음성 기반 AI 모델로 완전히 대체하기는 어려울 것입니다.
따라서