SAM-PT (Segment Anything Meets Point Tracking) : 동적 비디오에 샘(SAM)을 적용한 연구

https://www.vis.xyz/pub/sam-pt/

Segment Anything Meets Point Tracking


세그먼트 애니씽 모델(SAM)은 포인트와 같은 대화형 프롬프트를 사용해 마스크를 생성하는 강력한 제로샷 이미지 세그먼트 모델로 자리 잡았습니다. 이 백서에서는 동적 비디오에서 무엇이든 추적하고 세그먼트화할 수 있도록 SAM의 기능을 확장한 방법인 SAM-PT를 소개합니다.

SAM-PT는 마스크 생성을 위해 강력하고 드문 드문 포인트 선택 및 전파 기술을 활용하여 SAM 기반 세그멘테이션 트래커가 DAVIS, YouTube-VOS, MOSE 등 널리 사용되는 비디오 오브젝트 세그멘테이션 벤치마크에서 강력한 제로샷 성능을 낼 수 있음을 보여줍니다. 기존의 오브젝트 중심 마스크 전파 전략과 비교할 때, 유니티는 포인트 전파를 사용하여 오브젝트 의미론과 무관한 로컬 구조 정보를 활용합니다. 유니티는 제로샷 오픈월드 미확인 비디오 오브젝트(UVO) 벤치마크에 대한 직접적인 평가를 통해 포인트 기반 추적의 장점을 강조합니다. 접근 방식을 더욱 개선하기 위해 포인트 초기화를 위해 K-메도이드 클러스터링을 활용하고 양수 및 음수 포인트를 모두 추적하여 대상 오브젝트를 명확하게 구분합니다. 또한 마스크 개선을 위해 다중 마스크 디코딩 패스를 사용하고 추적 정확도를 향상시키기 위해 포인트 재초기화 전략을 고안합니다.



깃허브 : https://github.com/SysCV/sam-pt

2
1개의 답글