알파폴드의 버전 별 할루시네이션 문제 극복 노력 사례

딥러닝을 이용한 단백질 구조 분석은 단백질 구조 기반의 신약 개발에 있어 후보 물질 선정에 큰 도움을 줄 수 있지만, 다른 AI 모델과 마찬가지로 실제 활용을 위해서는 '할루시네이션(hallucination)' 문제를 극복해야 합니다. 알파폴드는 이 문제를 어떻게 해결했는지에 대해 공부한 내용과 공부하면서 활용한 AI 툴 들에 대한 소개입니다

AlphaFold 1

  • 기술적 기반: 알파폴드 1은 다중 서열 정렬(MSA)과 CNN(합성곱 신경망)을 사용하여 아미노산 간의 거리를 예측했습니다. 그러나 이 모델은 원거리 아미노산 간의 상관관계를 충분히 반영하지 못해 할루시네이션 문제가 발생할 수 있었습니다. 단백질 구조 예측 모델인 로제타(Rosetta) 역시 이와 유사한 문제를 겪었습니다

AlphaFold 2

  • 어텐션 메커니즘 도입: 알파폴드 2는 Evoformer라는 새로운 구조를 통해 어텐션 메커니즘을 활용했습니다. 이를 통해 입력 데이터의 상관관계를 더 효과적으로 파악하고, 아미노산 쌍 간의 관계를 그래프 형태로 표현하여 할루시네이션을 줄였습니다. 참조: Nature 논문

    • 신뢰도 평가 지표 도입: 알파폴드 2부터는 예측의 신뢰도를 평가하기 위해 pLDDT (predicted Local Distance Difference Test) 점수를 도입했습니다. 이는 각 원자의 정확도를 평가하는 지표로, 이를 통해 연구자들은 구조의 신뢰성을 정량적으로 평가할 수 있습니다.

    • 반복적 개선: 모델은 결과물을 지속적으로 개선하는 end-to-end 학습 방식을 채택하여, 초기 예측에서 발생할 수 있는 오류를 최소화했습니다.

AlphaFold 3

  • 고해상도 예측: 알파폴드 3는 단백질뿐만 아니라 DNA와 RNA 등 다양한 생체 분자의 구조를 높은 정확도로 예측할 수 있게 되었습니다.

  • 디퓨전 프로세스 활용: 새로운 디퓨전 프로세스를 통해 모델이 더 정교하게 구조를 예측하도록 하여, 할루시네이션 문제를 더욱 효과적으로 해결하고 있습니다. 디퓨전 모델은 멀티스케일 학습을 통해 데이터의 전역적 패턴과 지역적 세부 사항을 동시에 학습할 수 있습니다. 신약 개발이나 분자 모델링에서 전체 구조와 세부 결합부의 정보를 동시에 학습하는 것은 매우 중요한데, 디퓨전 모델은 이를 효과적으로 수행합니다. 참조: Nature 논문

  • 디퓨전 프로세스의 한계

    다만, 디퓨전 모델은 특정 화학적 상호작용이나 생물학적 메커니즘을 반영하는 데 여전히 한계가 있습니다. 예를 들어, 단백질-리간드 결합 예측에서 분자 간의 미세한 전기적 상호작용이나 수소 결합을 정밀하게 반영하지 못할 수 있습니다. 이러한 미세한 상호작용이 신약 개발의 효율성과 성공 여부에 중요한 영향을 미치기 때문에 이 한계는 큰 영향을 미칠 수 있습니다. DeepMind도 이러한 문제에 문제의식을 가지고 있으며, 문제 해결을 위해 알파프로테오(AlphaProteo)를 개발 중입니다. 알파프로테오 소개 블로그

    순방향 회절 과정과 역회절 과정이라는 단어가 포함된 고양이 사진

    하지만 여전히 디퓨전 모델은 특정 화학적 상호작용이나 생물학적 메커니즘을 반영하는 데 한계가 있습니다. 예를 들어, 단백질-리간드 결합 예측에서는 분자 간의 미세한 전기적 상호작용이나 수소 결합을 정밀하게 반영하지 못할 수 있습니다. 이는 분자 단위에서의 미세한 상호작용이 신약개발의 효율성과 성공 여부에 중요한 영향을 미치기 때문에, 이 한계는 큰 영향을 미칠 수 있습니다.

  • 해당 문제에 대해서 딥마인드도 문제의식을 가지고 있고, 문제 해결을 위해 알파프로테오를 개발하고 있습니다. https://deepmind.google/discover/blog/alphaproteo-generates-novel-proteins-for-biology-and-health-research/

셀프 스터디 진행 방법

  1. "알파폴드 : AI 신약개발 혁신"을 읽고, 실제 산업에서 활용되기에 어려움이 있을 것이라 언급된 단백질 구조 예측의 할루시네이션 문제를 해결하기 위해 퍼플렉시티에 검색했습니다.

  2. DeepMind 네이처 논문을 주석으로 추가된 결과를 찾아 쉽게 논문에 접근하고, 딥마인드의 할루시네이션 문제 해결에 대한 노력을 조사했습니다.

  3. 스터디 소개 유튜브 영상를 통해 알파폴드 3이 디퓨전 모델을 사용하게 된 배경을 파악했습니다. 네이처 논문을 추가로 검색하여 내용 확인했습니다.

소소한 AI 툴 활용으로 공부 시간을 확 줄였습니다. 깊은 수준으로 이해한 것은 아니지만 대략적인 맥락을 이해하는데 시간 대비 효율이 좋았던 것 같습니다. 학문적인 이해를 공유하는 수준으로 AI 툴을 사용해 본 적이 없어서 연습이 필요하겠다는 생각이 들었습니다.

더 이상 어려운 논문이 무섭지 않아요.

친절하게(?) 설명된 그림을 이해하고 싶은 마음을 담아,

"고등학생 수준으로 설명해줘" 😊 프롬프트 주저하지 않고 입력 했습니다.

프로세스의 다양한 단계를 보여주는 다이어그램

한국어 텍스트가 포함된 한국어 문서
한국 구글애드워즈

유용한 영상 요약 도구

  • 크롬 익스텐션 SkipWatch: 영상 길이에 제약이 없어 긴 학회 영상도 요약할 수 있는 익스텐션이라 유료로 결제하여 사용하고 있습니다, 경쟁 어플에 비해서 저렴한 편이고, 속도가 빠르고 언어설정도 아주 다양합니다. 무료로 체험 할 수 있는 양이 꽤 되어 추천 드립니다.

  • Youtube Transcript 익스텐션 앱: 무료로 전체 스크립트를 빠르게 제공하여 영상 전체 내용이 필요할 때 활용하기 좋습니다. SkipWatch는 전체 스크립트는 제공하지 않는 단점이 있는데 그 부분을 보완하는 익스텐션입니다.

한국의 DNA RNA 101

스킵워치 연간 요금제 스크린샷

결과와 배운 점

  • 할루시네이션을 줄이기 위해 적용된 Evoformer의 어텐션 기법과 디퓨전 모델에 대해 더 깊이 이해할 수 있었습니다.

  • '설명 가능한 AI'의 중요성에 대해 생각하게 되었으며, 이러한 기술이 신약 개발 외 재료공학 등 다양한 분야에 활용될 수 있음을 인지하게 되었습니다.

3
1개의 답글

👉 이 게시글도 읽어보세요