최신 AI 소식

정준섭(나춘배)

🌿 뉴비 파트너

3년 전·최신 AI 소식에 게시됨

[23.04.23] 금주의 Top ML Papers ( 04.17 ~ 04.23 )

nlpnews.substack.com 를 참조합니다. ( NLP Newsletter )

1. DINO V2

자기 지도 학습을 기반으로 고성능 컴퓨터 비전 모델을 훈련하는 새로운 방법
감독 없이 풍부하고 강력한 시각적 특징을 학습 가능
Image-level 의 시각 작업과 pixel-level 의 작업 모두에 유용
오픈 소스 코드와 대화형 데모를 모두 공개 ( 역시 OpenMeta!! )

2. Compressing Prompts with Gist Tokens

언어모델을 학습시켜 컴퓨팅 효율성을 위해 재사용되는 기스트 토큰으로 압축
기스트 토큰 = "요점 토큰", ( gisting )
매우 간단하고 명령 튜닝에대한 추가비용이 없음
프롬프트를 26배 압축하여 최대 40%의 FLOP 절감
이를 통해 LM 추론 속도를 높이는 방법

3. Deep Learning for Large-Scale Biomolecular Dynamics ( 대규모 생체 분자 역학을 위한 딥러닝 )

대규모 생체 분자 Simutlation을 위한 Framework 제공
23,000개 원자의 DHFR부터 91,000개 원자의 인자 IX, 400,000개 원자의 셀룰로오스, 4,400만 개 원자의 전 원자 완전 용해 HIV 캡시드에 이르기까지 다양한 시스템에서 사전 학습된 대규모 Allegro model을 1억 개 이상의 원자까지 확장할 수 있도록 지원
최대 100억개의 원자까지 스케일링

4. Verifiability in Generative Search Engines ( 생성 검색 엔진의 검증가능성 )

빙 챗(Bing Chat), 니바AI(NeevaAI), perplexity.ai 및 유챗(YouChat)을 평가
진술의 52%만이 인용에 의해 뒷받침, 인용의 75%만이 실제 진술을 뒷받침
Unsupported한 진술과 부정확한 인용이 자주 포함되어 있음
더 유용해 보이는 응답일수록 근거가 없는 진술이나 부정확한 인용이 더 많은 경향이 있음

5. Generative Disco : Text - to - Video Generation for Music Visualization

LLM 및 Text to image 모델을 기반으로 음악시각화를 생성하는 Ai시스템
사용자는 시각화할 음악 간격을 선택한 다음 이를 매개변수화
시작 및 종료 프롬프트를 정의하여 시각화

6. 위상 신경망에 대한 설문 조사

7. Visual Instruction Tuning

언어 전용 GPT-4를 사용하여 멀티모달을 생성하려는 시도
범용 시각 및 언어 이해를 위해 비전 인코더와 LLM을 연결하는 end-to-end trained 대형 멀티모달 모델인 대형 언어 및 비전 어시스턴트(LLaVa:Large Language and Vision Assistant)
LLaVA는 보이지 않는 이미지/지시에 대해 멀티모달 GPT-4의 동작을 보이는 등 인상적인 멀티모델 채팅 능력을 보여주었음.

8. ChatGPT : Applications, Opportunities, and Threats 에 대한 Overview

9. Chameleon: Plug-and-Play Compositional Reasoning with Large

문제를 해결하는 데 도움이 되도록 LLM을 보강하는 프레임워크
LLM 모델, 상용 비전 모델, 웹 검색 엔진, Python 함수, 사용자 관심사에 맞춘 규칙 기반 모듈 등 다양한 툴을 구성하는 프로그램을 합성
LLM을 기반으로 구축된 카멜레온은 최종 응답을 생성하기 위해 적절한 도구의 순서를 추론하여 구성하고 실행

10. Video Latent Diffusion Models

이미지 데이터 세트에서 이미지 LDM을 사전 학습
모델 비디오 프레임에 템포럴 레이어를 추가하여 이미지 LDM을 비디오 LDM으로 변환
인코딩된 비디오 시퀀스에서 비디오 LDM을 미세 조정하여 비디오 제너레이터를 생성
확산 모델 업샘플러를 시간적으로 정렬하여 고해상도 비디오를 생성
512x1024 해상도의 실제 주행 비디오에서 비디오 LDM을 검증하여 최첨단 성능을 달성
텍스트-비디오 모델링을 통해 창의적인 콘텐츠 제작에 접근 방식을 적용
nlpnews.substack.com 를 참조합니다. ( NLP Newsletter )

2