ChtGPT로 UX를 개선하는 것은 아직 멀었습니다.
지난번 뉴스레터의 시작부분에 공유한것 처럼 OpenAI는 최근 ChatGPT-4에 이미지를 업로드하고 그것을 분석하는 것이 가능해 졌습니다.
아래 트위터에 공유된 예시처럼 상품 사진을 보여주고, 할로윈에 어울리는 소셜미디어 포스팅을 위해서 어떻게 사진을 찍어야 하는지 답변을 받고, 미드저니로 만들어서 다시 GPT에게 피드백을 받으면서 개선하는 과정을 함께할수도 있습니다.
직업이 디자이너 다 보니 이 예시를 보고 만약 UX, UI 같은 사용성에 영향을 주는 부분들에 대해서 피드백을 받을수도 있지 않을까 하는 궁금증이 생겼습니다.
제가 이런 생각을 했다면 누군가 먼저 시도해보지 않았을까? 싶어서 검색했는데…. 역시나 있었습니다.
UX 리서치를 전문적으로 가르치는 Baymard Institude에서 이와 관련해서 재미있는 실험을 진행하고 결과를 공유했습니다.
웹페이지의 스크린샷을 GPT에 업로드하고 "이 페이지를 보고 어떤 UX를 개선할 수 있을까요?"라고 질문을 했습니다. 그러면 업로드한 웹페이지 스크린샷을 분석해서 높은 신뢰감(?)을 주는 답변을 제공했습니다.
그래서 UX Audit을 수행할 수 있는 자격을 갖춘 전문가와 ChatGPT가 웹페이지의 UX 문제를 발견하는 데 있어 얼마나 차이가 나는지 확인하는 실험을 했습니다.
❝
ChatGPT vs UXer
주요 내용 요약
1/ 12개의 서로 다른 웹페이지에 대해 ChatGPT-4에게 UX 개선을 요청했고, 이것을 UX 전문가의 제안과 비교했습니다.
2/ 테스트 결과 ChatGPT-4의 UX 개선 제안은 무려 80% 가 잘못된 것이였고, 20% 정도만 쓸만했습니다.
3/ 인간 전문가와 비교해서 GPT-4는 스크린샷만 입력하고 질문했을때는 26%의 UX 문제를 발견했으며, 라이브 웹페이지에 대한 분석을 요청했을때는 UX 문제중 14%만 발견했습니다. (인터렉션에서 발생하는 문제에 대해서는 발견하지 못하는것 같습니다)
4/ 테스트한 12개의 웹페이지에서 GPT-4는 평균적으로 2.9개의 UX 문제를 정확하게 식별 했지만, 9.4개의 UX 문제를 놓쳤으며, UX에 해로울 수 있는 1.3개의 제안을 내놓았고, 10.6개의 시간 낭비에 가까운 엉뚱한 제안을 했습니다.
5/ 테스트에 사용된 인간 전문가는 Baymard에서 근무하는 6명의 고도로 훈련된 UX 전문가 입니다. (13만 시간 이상의 대규모 UX 연구 경험).
실험방법
12개의 서로 다른 이커머스 웹페이지 스크린샷을 GPT-4에 업로드하고 "이 페이지에서 어떤 UX를 개선할 수 있을까요?"라고 질문했습니다. 그런 다음 12개의 동일한 웹페이지에 대한 GPT-4의 응답을 6명의 UX 전문가가 작성한 결과와 수동으로 비교했습니다.
Baymard에서 근무하는 6명의 고도로 훈련된 UX 전문가들은 모두 4,400명 이상의 실제 사용자를 대상으로 130,000시간 이상 대규모 UX 테스트를 해본 경험이 있습니다.
12개의 웹페이지에 대한 분석은 난이도에 따라서 대략 2~10시간이 소요되었습니다. 사람이 제안한 257개의 UX 제안과 ChatGPT-4의 178개의 UX 제안을 한 줄 한 줄 자세히 비교하는 데 추가로 50시간이 더 소요되었습니다.
12개의 대상 웹페이지
결과
사람이 식별한 257개의 UX 이슈와 ChatGPT-4가 식별한 178개의 UX 이슈를 분석한 결과입니다.
GPT-4의 이슈 발견율, 정확도, 오류율 요약
스크린샷에 표시된 문제만 대상으로 한 UX 이슈 발견율 : 25.5%
라이브 웹 페이지를 대상으로 했을때 UX 이슈 발견율 : 14.1%
GPT 제안의 정확도 : 19.9%
GPT 제안의 오류율 : 80.1%
유해할 가능성이 있는 GPT 제안 : 8.9%
시간 낭비일 가능성이 있는 GPT 제안 : 71.1%
❝
GPT 제안의 80%가 쓸모 없었습니다.
baymard
GPT의 제안 중 1/8은 UX를 해칠수 있는 조언이었습니다.
GPT는 이미 풋터가 심플한 LEGO의 홈페이지를 보고 풋터를 더 심플하게(사실상 제거)할 것을 제안했습니다.
페이지네이션을 사용하는 Overstock에 대해 GPT는 "무한 스크롤을 사용하거나 '더보기'를 사용하라"고 제안했습니다 (무한 스크롤은 UX에 해로운 것으로 판단되지만, '더보기'는 좋은 제안이라고 판단됩니다)
GPT의 제안 중 7/8은 시간 낭비인 엉뚱한 제안이였습니다.
GPT는 스크린샷에서 볼 수 없는 내용을 기반으로 지나치게 일반적인 제안을 했습니다.
예를 들어, 12개 웹페이지 모두에 대해 데스크톱 스크린샷이 분명히 제공 되었음에도 불구하고 "사이트를 모바일 반응형으로 만들 것..."이라고 제안했습니다.
GPT는 관련 없는 제안을 했습니다.
예를 들어 Argos의 제품 페이지에 대한 제안 중 하나는 "현재 스크린샷에는 보이지 않지만 결제 프로세스를 최대한 간소화하고 간단하게 만들면 사용자 경험을 더욱 개선할 수 있습니다”였습니다.
GPT의 제안 중 일부는 매우 부정확하여 무슨 뜻인지 알 수 없는 경우도 있었습니다.
예를 들어, GPT는 TireRack의 제품 상세 페이지에 대해 다음과 같이 제안했습니다: "정적인 이미지 대신 타이어와 타이어의 특징에 대한 이미지 캐러셀이 더 매력적이고 효과적일 수 있습니다." (이 사이트에는 이미 이미지 갤러리가 있으므로 이 제안은 잘못 판단한것 입니다)
ChatGPT-4는 (아직) UX Audit에 유용하지 않습니다.
테스트한 12개의 웹페이지 중 GPT-4는 평균적으로 2.9개의 UX 문제를 정확하게 식별 했지만, 라이브 웹페이지에서 18.5개의 UX 문제를 놓쳤고, UX에 유해할수 있는 1.3개의 제안을 했고, 시간 낭비일 수 있는 10.6개의 제안을 했습니다.
(UX를 전문으로 다루는 회사에서 진행한 실험이라서 편향적인 내용이 있을수 있습니다.)
결과를 바탕으로 GPT가 아직까지 사용성을 다루기에는 적합하지 않다는 결론을 얻었습니다.
하지만 이미지를 GPT가 인식할수 있게 됨에 따라서 이미지 데이터가 많아지고, UX Audit 프롬프트를 구조적으로 작성하는 방법들이 개발된다면 UX Audit을 GPT로 하지 못할것도 없다고 생각합니다.
지금 당장이 안되는 것이지 영원히 안되는건 아니니까요.
발전속도를 본다면 몇달안에 가능한 케이스를 발견할수도 있을것 같다는 기대를 해봅니다.
실제로 제가 쓰는 서비스들을 테스트 해보았습니다.
ChatGPT에 Naver, Youtube 두개의 사이트 이미지를 넣고 사용성 개선에 대해서 제안을 10가지 요청했습니다.
Naver
2번 날씨 위젯의 크기 조절, 10번 뉴스 섹션의 더 보기 버튼 위치 조정 같은 부분은 참고하고 개선할만한 가치가 있어 보입니다.
Youtube
3번 구독 채널 목록 표시 개선에서 "Show 994 more"의 표현은 사용자에게 무한 스크롤의 느낌을 줄 수 있습니다.” 라는 답변은 꽤 괜찮았다고 생각합니다.
조회수, 게시일 정보가 있는데 추가하라고 하는건 이상했습니다.
9번 카테고리 분류 개선은은 실제로 유투브 사용하면서 너무 세분화되어 있어서 선택이 어려웠는데 개선사항으로 잘 선택한것 같습니다.
UX적 분석 및 심리학적 법칙을 기반으로 설명해달라고 추가하니 괜찮은 답변이 나왔습니다.
실제 디자인 피치나, 사용성 개선의 근거를 만들때 참고할수 있을것 같습니다.
오늘은 ChatGPT를 UX Audit에 사용하는 실험에 대해서 알아보았습니다.
아직 전문가 수준의 답변을 하기에는 갈길이 멀어보이지만 진화하는 속도를 본다면 곧 쓸만한 수준을 만날수 있을거라고 생각합니다.
만약 이 뉴스레터를 읽는 분이 디자이너라면 자신이 디자인하고 있는 제품이나, 웹사이트를 개선하는 질문을 GPT에서 던저보세요!
(디자이너가 아니라면 주변에 디자이너들에게 공유해주세요!)
GPT가 재미있는 동료가 되어줄겁니다!
최신 AI 뉴스, 도구 및 생산성 향상 방법을 매주 단 5분 만에 확인하세요.
네이버, 카카오, 토스, 삼성 등 400+명의 구독자가 함께하고 있습니다