이상적인 AI 디바이스는 어떤 모습일까?

2024년 초부터 많은 멀티모달(다양한 작업을 수행 할 수 있는) AI 디바이스들이 속속 등장하고 있습니다. 이 글에서는 대표적인 디바이스들을 소개하고, 이를 바탕으로 제가 생각하는 이상적인 AI 디바이스의 모습과 이로인해 생겨날 미래의 문제점에 대해 이야기해보고자 합니다.

*의견 남겨주시면 정말 감사하겠습니다 😊

Humane AI pin

옷에 부착하는 작은 디바이스입니다. 내장된 카메라를 통해 사물을 인식하고 사용자와 음성으로 대화를 나눕니다. 특별한 점은 손에 빔을 쏴 가상 스크린을 만들어낸다는 것입니다. 자체 내장 컴퓨터를 사용하여 독립적으로 작동합니다.

Rabbit R1

가장 많은 사전 주문량을 기록한 R1은 강력한 자체 OS로 스마트폰을 대체할 것이라 주장하고 있습니다. R1 OS는 기존의 웹사이트와 앱을 분석하여 컨트롤할 수 있다는 점이 특징입니다. 마찬가지로 카메라가 달려 있고 음성과 간단한 스크린을 통해 사용자와 소통합니다.

스크린은 최소한의 정보와 선택지만을 제공하여 앱 기반의 스마트폰 UI를 LAM(Large Action Model)으로 대체한다고 합니다. 즉, 우리가 일반적으로 사용하는 앱 기반의 UI에서 벗어나, 시스템이 사용자가 원하는 결과만 알아서 보여준다는 것입니다. R1 또한 자체 내장 컴퓨터를 사용합니다.

Meta AI 레이반 안경

메타에서 오랫동안 개발해온 AI 안경으로, AR 기능이 내장되어 있습니다. 메타의 강력한 AI와 연동되어 스마트폰과 함께 사용됩니다.

Open Interpreter O1

비교적 최근 출시된 제품으로, 음성으로 사용자와 소통하는 모델입니다. 특징적인 점은 PC와 연결하여 사용한다는 것입니다. 사용자가 O1에 음성 명령을 내리면, 통신망을 통해 PC에 내장된 AI 모델이 작업을 수행한 후 결과를 다시 음성으로 출력해줍니다.

O1 OS는 PC에 설치된 다양한 앱을 제어할 수 있으며, 특정 작업을 학습시킬 수도 있습니다. 예를 들어, 슬랙을 통해 파일을 전송하는 방법을 한 번 보여주면, O1 OS가 이를 학습하여 해당 작업을 숙지합니다. 이후 같은 작업을 요청하면 슬랙 앱을 열어 컴퓨터의 파일을 찾아 전송해줍니다. 매우 신기한 기능이라 할 수 있겠습니다.

Rewind pendant

사용자가 하는 모든 대화를 듣고 있는 목걸이형 디바이스입니다. 내장된 마이크를 통해 대화 내용을 스마트폰 로컬 메모리에 저장한 후, 전용 앱에서 이를 바탕으로 다양한 질문에 답변을 제공합니다.

*현재 저는 Rabbit R1과 Rewind Pendant를 사전 예약해 놓은 상태입니다.

이처럼 스타트업과 대기업들이 다양한 형태의 멀티모달 AI 디바이스를 내놓고 있습니다. 각 디바이스마다 작동 방식, 형태, 목적이 다른데, 미래에는 이러한 디바이스들이 스마트폰처럼 획일화된 플랫폼으로 발전할지, 아니면 각자의 개성을 유지한 채로 진화할지 궁금해집니다.

이러한 상황 속에서 제가 생각하는 가장 이상적인 AI 디바이스의 모습과 이로인해 생겨날 미래의 문제점에 대해 글을 이어가 보도록 하겠습니다.

상황 인식을 위한 카메라와 마이크

사람이 AI에 비해 가진 가장 큰 강점은 맥락을 파악하고 있다는 점입니다. 예를들어 일을 시작할 때, 우리는 어떤 회사에서 어떤 프로젝트를 진행하는지, 고객의 취향은 어떠한지, 그동안 받은 피드백은 무엇이었는지, 주로 어떤 데이터 소스를 활용하는지 등 상황에 대한 이해를 바탕으로 업무에 임합니다.

그러나 현재의 AI는 이러한 상황(컨텍스트)에 대한 지식 없이 오직 프롬프트로만 일을 처리합니다. 상황을 이해하지 못하는 AI에게 일을 맡기면, 대학생 인턴처럼 큰 도움이 되지 않고 오히려 부실한 결과물로 인해 더 많은 일을 하게 되는 상황에 처할 수 있습니다. 즉, AI는 아직 '경험'이 부족한 일꾼인 셈입니다.

챗GPT를 사용하면서 실망했던 이유도 바로 이 때문일 것입니다. 챗GPT는 사용자의 전체적인 상황과 맥락을 이해하지 못합니다. 채팅창에 입력할 수 있는 글자 수에는 한계가 있어, 우리가 전달하고자 하는 진짜 의도와 정보를 모두 담아내기 어렵습니다.

하지만 카메라와 마이크가 상시적으로 사용자가 보고 듣는 것을 인식한다면 상황이 달라집니다. AI는 맥락을 이해할 수 있을 뿐만 아니라, 사용자가 잊어버린 부분까지 기억해낼 수 있을 것입니다. 다소 무서울 수 있지만, "카메라와 마이크로 컨텍스트를 이해하는 디바이스"가 바로 미래라고 생각합니다. 이를 실현하기 위해서는 AI 모델이 처리할 수 있는 입력(토큰)의 길이가 매우 길어져야 할 것입니다.

클라우드 기반의 AI 디바이스, 스마트폰과의 연동

이상적인 AI 디바이스의 핵심은 웨어러블에 있습니다. 메타의 AR 안경이나 Humaine사의 AI Pin처럼, 사용자의 모든 행동을 카메라와 마이크로 담아내고 음성을 통해 소통해야 하므로, 얼굴 가까이에 위치하면서도 가볍고 배터리 지속 시간이 길어야 합니다. 이는 많은 제약 조건을 동반합니다. 그중에서도 가장 중요한 점은 배터리 소모량과 무게를 줄이는 것입니다.

현재 Humaine과 Rabbit은 자체 컴퓨터와 내장 메모리를 탑재하고 있습니다. 그러나 5G 시대에 접어든 지금, 이는 오버스펙이라고 생각합니다. 이들은 스마트폰을 대체하려는 목적으로 이런 전략을 취하고 있지만, 스마트폰의 스크린 경험을 음성 기반 AI 모델로 완전히 대체하기는 어려울 것입니다.

따라서 미래에는 사람들이 웨어러블 AI 디바이스와 스마트폰, 두 가지를 모두 사용하게 될 것으로 예상됩니다. 이 경우, AI 디바이스가 무겁고 배터리 소모가 심한 로컬 컴퓨팅이나 메모리를 사용할 필요가 없어집니다. Rewind나 Open Interpreter O1처럼 스마트폰이나 PC와 연동하여 사용하는 것이 배터리 사용 시간을 늘리고 기기의 무게를 줄일 수 있는 방법입니다.

이는 곧 AI 디바이스가 본체(스마트폰, PC)의 제어를 받게 됨을 의미합니다. 삼성, 애플, 마이크로소프트, 구글 등은 AI 시대에도 강력한 플랫폼과 앱 제어 능력을 바탕으로 영향력을 발휘할 것입니다.

음성 인터페이스의 한계

과연 음성으로 소통하는 것이 얼마나 자유로울까요? 사무실이나 대중교통에서 위에서 언급한 AI 디바이스를 사용할 수 있을까요? 이어폰을 끼고 조용히 대화를 나눌 수는 있겠지만, 우리가 말하는 내용은 어느 정도 외부로 새어나가기 마련입니다. 여러분이 스마트폰으로 하는 일 중에서 공개적으로 음성을 사용하며 처리할 수 있는 것이 얼마나 될까요? 저 같은 경우는 문자 메시지, 인스타그램, 웹 서핑 등을 음성 명령으로 수행하기 어려울 것 같습니다.

이는 문화적 맥락에 따라서도 크게 다를 수 있습니다. 중국처럼 한자 입력이 어려워 음성 문자 입력을 선호하는 국가나, 남미의 일부 국가처럼 공공장소에서 큰 소리로 통화하는 것을 꺼리지 않는 문화권도 있습니다. 그러나 한국이나 유럽 등 대다수의 국가에서는 공공장소에서 말하는 것 자체가 민폐에 가깝습니다. 더욱이 개인 정보가 다른 사람에게 노출되는 것 같은 기분 때문에 쉽게 받아들이기 어려울 것입니다.

따라서 스크린을 통해 소통할 수 있는 스마트폰은 웨어러블 AI 디바이스로 완전히 대체되기 힘들 것입니다. 일부에서는 이를 스마트폰에서 벗어날 수 있는 기회로 여길 수 있겠지만, 스마트폰으로 많은 업무를 처리하는 대다수의 현대인들에게는 스마트폰이 없어서는 안 될 필수품으로 남을 것입니다.

우리는 선택의 기회를 점점 잃어갈 것이다

웨어러블 AI의 가장 큰 장점은 궁금한 점이 생기면 매우 빠르게 답을 얻을 수 있다는 것입니다. 기존에는 스마트폰을 꺼내 앱을 실행하고, 질문을 타이핑하며, 검색 결과를 하나하나 살펴보고, 내용을 읽어야 했습니다. 하지만 이제는 이 모든 과정이 사라지고 정확히 필요한 답변만 제공받을 수 있게 됩니다. 현재의 ChatGPT가 그러하듯 말이죠.

AI는 사용자의 질문에 대해 최적의 답을 내놓습니다. AI가 생각하기에 가장 적합한 답변인 것이죠. 대부분의 경우 AI의 판단은 정확할 것입니다. 그러나 질문이 모호하거나 AI 자체에 편향이 존재할 경우, 건강하지 않은 답변이 제시될 수 있습니다.

아무런 자격 심사도 거치지 않은 채 무엇이든 게시할 수 있는 인터넷 시대의 데이터를 학습한 AI가 항상 건전한 답변을 내놓을 것이라고 기대하기는 어렵습니다. 그럼에도 불구하고 인간은 어떤 정보를 접하게 되면 그것을 곧바로 믿어버리는 경향이 있죠. 그 정보의 신뢰성을 따져보는 일은 나중에야 이루어지는데, 그마저도 의심의 여지가 생길 때에나 가능합니다.

정보의 신뢰성을 사후에 검증하는 것은 사실상 의미가 없습니다. 이미 의사 결정이 내려졌거나, 확증 편향으로 인해 믿고 싶은 것만 믿게 될 테니까요.

인터넷 시대와 AI 시대를 함께 맞이하는 알파 세대(2010년부터 2025년 사이에 태어난 세대)는 정보를 찾는 데에는 아무런 어려움도 겪지 않을 것입니다. 하지만 정보를 해석하고 의심하는 능력은 상당히 떨어질 것으로 보입니다. 여러 연구에 따르면 십대들은 인터넷에서 읽은 내용을 그대로 받아들이는 경우가 많다고 합니다. 대부분의 십대들은 웹 페이지의 저자가 누구인지, 그들이 어떤 자격을 갖추고 있는지, 해당 정보를 뒷받침할 만한 다른 출처가 있는지 등을 거의 무시하거나 가끔씩만 확인한다는 것이죠.

현재에도 우리들은 인터넷을 정보의 일차적 출처로 활용하지만, 정보의 정확성에는 그다지 신경 쓰지 않는 편입니다. 심지어 소비자의 절반 가량은 웹사이트의 시각적 디자인, 즉 레이아웃, 글꼴, 글자 크기, 색상, 이미지 등에 부분적으로 현혹되어 사이트의 신뢰성을 평가하기도 합니다. 그렇다면 AI가 내놓은 답변은 어떨까요? 그저 믿을 수밖에 없을 것입니다.

AI는 웹 서핑이나 구글 검색과 달리 선택지를 제공하지 않습니다. 우리가 무엇을 읽을지 선택할 기회가 사라지고, 오직 AI가 판단한 답변만 전달받게 되는 것이죠. 물론 대화를 통해 반박하거나 의심을 제기할 수는 있겠지만, 대부분의 사람들은 그렇게 하지 않을 것입니다. AI가 대중화된 시대에는 아마도 위키피디아나 구글 이상으로 AI를 신뢰하게 될 것입니다.

우리는 웨어러블 AI에게 길을 물어보고, 궁금증을 해결하며, 역사에 대해 질문할 것입니다. 심지어 자신과 타인에 대한 평가마저 AI에게 맡기게 될지도 모릅니다. AI를 정보의 일차적 출처로 삼는 우리 인간은 비판적 사고와 함께 선택의 자유마저 빼앗길 수 있습니다.

이런 이유로 정치 집단에서는 자신들의 이념을 AI에 주입하기 위해 온갖 노력을 기울일 것이며, 반대 진영의 입장을 답변으로 제시하는 AI 기업을 상대로 소송을 제기할지도 모릅니다. 종교 단체 역시 마찬가지일 것이고, 대기업들도 자신들에게 유리한 답변을 내놓는 AI 모델을 만들거나 기존 모델에 영향력을 행사하려 들 것입니다.

결국 우리는 편리함을 얻는 대신, 선택과 비판, 그리고 사고의 자유를 거대 AI 기업들에게 내맡기게 되는 셈입니다.

우리는 다시 글을 읽지 않게 될 것이다

현재 우리는 AI 시대의 초창기를 살아가고 있습니다. 아직 ChatGPT는 부정확한 정보를 제공하고 불완전한 문장을 만들어내며, 인간이 상당한 노력을 기울여야만 쓸모 있는 답변과 글을 얻어낼 수 있습니다. 이로 인해 많은 사람들이 오히려 글을 쓰고 읽는 능력이 향상되었다고 생각합니다.

프롬프트를 제대로 작성하지 않으면 AI가 이해하지 못하고, AI가 생성한 답변을 잘 판단해야 하므로 자연스럽게 꼼꼼한 읽기와 어색하거나 잘못된 부분을 찾아내는 과정이 필요해졌기 때문입니다.

저 역시 그렇습니다. 유튜브나 숏폼 콘텐츠를 통해 정보를 습득하던 저에게 AI는 글을 더 정확하게 쓰도록 독려했고, 글을 꼼꼼히 읽어야 하는 상황 덕분에 읽기 능력도 크게 향상되었죠. 글을 읽지 않는 시대가 도래했음에도 불구하고, 일시적으로나마 다시 글을 읽고 쓰게 된 셈입니다. 하지만 미래에는 이런 실수들이 모두 극복된 LLM과 AI 디바이스로 인해 우리의 읽기와 쓰기 능력이 다시 퇴화할 수 있습니다.

AI 디바이스는 음성 명령을 통해 작업을 수행하므로, 우리는 구어체를 사용하여 지시를 내릴 것입니다. 상황을 이해하는 똑똑한 AI는 명령이 부정확하더라도 알아서 해석하여 사용자가 원하는 답변을 제공할 것입니다.

이는 사람들로 하여금 더욱 불친절하고 단순한 언어, 줄임말 등을 사용하게 만들 수 있고, 결과적으로 우리의 말하기와 쓰기 능력을 퇴화시킬 수 있습니다. 쓰기 역시 마찬가지입니다. 발전된 LLM은 인간이 대충 작성한 초안을 완벽한 글로 다듬어줄 것입니다. 이렇게 완성된 글은 다시 읽는 사람들로 하여금 AI를 활용해 핵심만 요약해서 읽도록 만들 것입니다.

디스토피아적인 미래 같아 보이지만, 이미 현재에도 이런 모습들을 심심치 않게 볼 수 있습니다. 저 스스로도 이 글을 쓰면서 Claude가 잘 첨삭해줄 거라 믿고 빠르고 단순한 언어로 초안을 작성하고 있습니다. 40분 만에 모든 글을 써내려가는 중이죠. 글을 마무리하면 Claude에게 가독성 좋게 다듬어달라고 요청할 것이고, 이 글을 읽는 여러분 중에는 AI에게 글을 요약해달라고 부탁하실 분도 계실 겁니다.

결론

AI 멀티모달 디바이스는 스마트폰만큼 널리 보급될 가능성이 높은 시장입니다.
이 디바이스가 제 역할을 다하려면 사용자의 맥락을 이해해야 하는데, 이는 사용자의 일상을 함께하는 카메라와 마이크가 필요함을 의미합니다.
디바이스와의 음성 소통에는 한계가 있기에, 우리는 스마트폰을 계속 사용할 것입니다. 애플, 삼성, 구글 등이 AI 웨어러블 디바이스를 출시한다면 시장을 빠르게 장악할 것으로 보입니다.
AI 디바이스가 스마트폰을 완전히 대체하지 못한다면, 디바이스 자체에 컴퓨터나 저장 장치를 내장하는 것은 큰 의미가 없어 보입니다.
AI 디바이스가 상용화되면 사람들은 AI가 제시하는 선택지에 따라 행동하고 그것을 그대로 믿을 가능성이 높습니다.
AI 디바이스의 보편화는 우리의 읽기와 쓰기 능력을 다시 퇴화시킬 것입니다.

읽어주셔서 감사합니다🤗

바이브코딩으로 전면 개편된 21기 스터디 살펴보기! 👀