[23.04.23] 금주의 Top ML Papers ( 04.17 ~ 04.23 )

nlpnews.substack.com 를 참조합니다. ( NLP Newsletter )

1. DINO V2 

  • 자기 지도 학습을 기반으로 고성능 컴퓨터 비전 모델을 훈련하는 새로운 방법
  • 감독 없이 풍부하고 강력한 시각적 특징을 학습 가능
  • Image-level 의 시각 작업과 pixel-level 의 작업 모두에 유용
  • 오픈 소스 코드와 대화형 데모를 모두 공개 ( 역시 OpenMeta!! )


2. Compressing Prompts with Gist Tokens

  • 언어모델을 학습시켜 컴퓨팅 효율성을 위해 재사용되는 기스트 토큰으로 압축
  • 기스트 토큰 = "요점 토큰", ( gisting )
  • 매우 간단하고 명령 튜닝에대한 추가비용이 없음
  • 프롬프트를 26배 압축하여 최대 40%의 FLOP 절감
  • 이를 통해 LM 추론 속도를 높이는 방법



3. Deep Learning for Large-Scale Biomolecular Dynamics ( 대규모 생체 분자 역학을 위한 딥러닝 )

  • 대규모 생체 분자 Simutlation을 위한 Framework 제공
  • 23,000개 원자의 DHFR부터 91,000개 원자의 인자 IX, 400,000개 원자의 셀룰로오스, 4,400만 개 원자의 전 원자 완전 용해 HIV 캡시드에 이르기까지 다양한 시스템에서 사전 학습된 대규모 Allegro model을 1억 개 이상의 원자까지 확장할 수 있도록 지원
  • 최대 100억개의 원자까지 스케일링




4. Verifiability in Generative Search Engines ( 생성 검색 엔진의 검증가능성 )

  • 빙 챗(Bing Chat), 니바AI(NeevaAI), perplexity.ai 및 유챗(YouChat)을 평가
  • 진술의 52%만이 인용에 의해 뒷받침, 인용의 75%만이 실제 진술을 뒷받침
  • Unsupported한 진술과 부정확한 인용이 자주 포함되어 있음
  • 더 유용해 보이는 응답일수록 근거가 없는 진술이나 부정확한 인용이 더 많은 경향이 있음


5. Generative Disco : Text - to - Video Generation for Music Visualization

  • LLM 및 Text to image 모델을 기반으로 음악시각화를 생성하는 Ai시스템
  • 사용자는 시각화할 음악 간격을 선택한 다음 이를 매개변수화
  • 시작 및 종료 프롬프트를 정의하여 시각화

6. 위상 신경망에 대한 설문 조사

7. Visual Instruction Tuning 

  • 언어 전용 GPT-4를 사용하여 멀티모달을 생성하려는 시도
  • 범용 시각 및 언어 이해를 위해 비전 인코더와 LLM을 연결하는 end-to-end trained 대형 멀티모달 모델인 대형 언어 및 비전 어시스턴트(LLaVa:Large Language and Vision Assistant)
  • LLaVA는 보이지 않는 이미지/지시에 대해 멀티모달 GPT-4의 동작을 보이는 등 인상적인 멀티모델 채팅 능력을 보여주었음.


8. ChatGPT : Applications, Opportunities, and Threats 에 대한 Overview

9. Chameleon: Plug-and-Play Compositional Reasoning with Large 

  • 문제를 해결하는 데 도움이 되도록 LLM을 보강하는 프레임워크
  • LLM 모델, 상용 비전 모델, 웹 검색 엔진, Python 함수, 사용자 관심사에 맞춘 규칙 기반 모듈 등 다양한 툴을 구성하는 프로그램을 합성
  • LLM을 기반으로 구축된 카멜레온은 최종 응답을 생성하기 위해 적절한 도구의 순서를 추론하여 구성하고 실행

10. Video Latent Diffusion Models

  • 이미지 데이터 세트에서 이미지 LDM을 사전 학습
  • 모델 비디오 프레임에 템포럴 레이어를 추가하여 이미지 LDM을 비디오 LDM으로 변환
  • 인코딩된 비디오 시퀀스에서 비디오 LDM을 미세 조정하여 비디오 제너레이터를 생성
  • 확산 모델 업샘플러를 시간적으로 정렬하여 고해상도 비디오를 생성
  • 512x1024 해상도의 실제 주행 비디오에서 비디오 LDM을 검증하여 최첨단 성능을 달성
  • 텍스트-비디오 모델링을 통해 창의적인 콘텐츠 제작에 접근 방식을 적용
    nlpnews.substack.com 를 참조합니다. ( NLP Newsletter )
2