StyleGAN, 이미지 레이아웃 편집을 위한 사용자 제어 기능

http://www.cgg.cs.tsukuba.ac.jp/~endo/projects/UserControllableLT/

- StyleGAN은 고화질 이미지 생성을 도와주는 기술. 잠재 코드(Latent Code)를 입력하면 그 코드를 StyleGAN이 변환시켜 그림을 만들어냄.

- 잠깐 잠재 공간(Latent Space)과 잠재 코드(Latent Code)를 설명하겠음. 잠재 공간이란 특정 색깔을 나타낼 때를 생각해보면 이해하기 쉬움.

- 어떠한 색깔이든 빨강, 파랑, 녹색의 조합으로 만들어질 수 있고, 이 세 가지 요소를 잘 조절하면 모든 색상을 만들 수 있음. 이러한 색상 공간이 잠재 공간과 유사함.

- 잠재 공간은 가능한 ‘것들’의 모든 조합을 포함하는 공간이라고 생각하면 됨. 이 ‘것들’ 에는 이미지, 음성, 텍스트 등 모든 것이 가능함.

- 잠재 코드는 잠재 공간 안의 특정한 위치를 나타냄. 즉, 위에서 잠재 코드를 입력한다는 말은 StyleGAN이 만들어 둔 잠재 공간 안의 특정 위치를 호출한다는 것.

- 기존에 StyleGAN은 드래그를 통한 이미지 변경이 불가능하지만, 이 논문에서는 유저의 드래그와 같은 인터랙션을 통해 기존 잠재 코드를 약간 변형해 인터랙션에 맞는 수정된 잠재 코드를 StyleGAN에 입력해 약간 변형된 이미지를 얻음.

- 그런데 이 경우 문제는 위치가 변하지 말아야 할 부분도 함께 움직인다는 것임. 이럴 때는 ‘AP’를 지정해 특정 부분의 위치를 고정시킬 수 있음.

- 또한 이러한 사진은 2D이기 때문에 3D적인 부분을 드래그를 통해 변형시킬 수 없다는 단점도 존재함. 하지만 이 경우 특정 키 입력(o, i)을 통해 3D적인 요소를 함께 변경할 수 있음.

출처 : https://t.me/thesedays_ai/220