최근 OpenAI의 Sora, Dall-e 등을 보면 AI의 성능이 굉장히 가파르게 발전하고 있다는걸 체감하게 됩니다. OpenAI의 AI와 로봇의 결합 영상을 보면 단순히 텍스트의 답 변을 생성하는걸 넘어서 스스로 물체와 상황을 인식하고, 해야 할 일을 한 후 스스로 평가까지 하는걸 볼 수 있죠.
그런데 왜? AI는 여전히 산업의 최종 결정권자가 될 수 없을까요? 사회적 인식, 책임 소재 등 여러 문제가 있겠지만 가장 큰건 ‘여전히 AI에게는 불안정한 부작용이 있다’가 아닐까 싶습니다.
AI가 발전하는 만큼 그걸 공격하고, 규칙을 어겨 원하는 답을 얻어내는 기술도 함께 발전하고 있습니다. 실제로 AI에게 비밀로 지켜져야 할 AI 내부 규율을 출력한다던가, 이미지 상의 글씨를 우선 인식해 25달러 수표를 1만 달러로 인식한다던가와 같은 문제는 외국에서도 지속해 제기돼왔죠.
LLM 서비스가 사람과 가까워질수록, 더 많은 기능을 연결해 가질수록 이런 리스크는 불어가기만 합니다. 그렇다면 이걸 어떻게 해결해야 할까요?
여러 답이 있겠지만 제가 생각하는 답은 수많은 공격 시도에 대한 데이터 학습과 안정성을 테스트해 지속적으로 개선할 수 있는 방법의 확보입니다. 내가 생각치도 못한 취약한 부분을 파악하고 개선할 수 있도록 보조해주는 것이죠. 실제로 LLM 모델을 탈옥시키는 레드팀 챌린지와 같은 대회가 점차 생겨나고 있습니다.
LLM 서비스 개발자 여러분은 어떤가요? 어떻게 보안에 대비하고 있고 보안의 필요성에 대해 어떻게 생각하시는지 의견을 남겨주세요!