ScreenAI는 구글 AI에서 개발한 비전-언어 모델(VLM)로, 사용자 인터페이스(UI)와 인포그래픽을 모두 이해할 수 있어요. 그래픽 기반의 질의응답, 요약, 화면 탐색, UI 맞춤형 질의응답 등 다양한 작업을 해낼 수 있습니다.
쉽게 말해, ScreenAI는 우리가 화면을 보고 이해하는 것처럼, 컴퓨터도 화면을 똑똑하게 읽고 이해할 수 있게 만들어주는 기술이라고 보면 돼요.
RLX5JqcxLL2cZsJu.mp4무엇을 할 수 있을지 볼까요?
1.질의응답
스크린샷의 내용에 관한 질문에 답할 수 있어요.
위 스크린샷을 주고 양복점의 이름이 무었인지 물어보는 예시입니다.
화면의 글을 읽고 올바른 정답을 줍니다.
2. 화면 탐색
모델은 자연어로 된 명령을 화면에서 실행 가능한 동작으로 바꿔요. 예를 들어 "검색 버튼을 클릭하세요"라고 하면 실제로 그 동작을 수행하죠.
3. 화면요약
화면에 있는 내용을 읽고 분석하여 요약할 수 있습니다.
Screen AI 는 아직 준비단계에 있습니다. 향후 추가적인 소식이 있으면 알려드리겠습니다 :)