End-to-End Representation Learning for Chemical-Chemical Interaction Prediction
Sunyoung Kwon, Sungroh Yoon
IEEE/ACM Trans Comput Biol Bioinform. Sep-Oct 2019;16(5):1436-1447.
Key terms: Chemical-chemical interaction, deep learning, neural network, CNN, commutative property, Siamese
Journal 소개
IEEE/ACM Trans Comput Biol BioinformIEEE/ACM Transactions on Computational Biology and Bioinformatics
- 생물정보학 및 계산생물학에 사용되는 알고리즘, 수학, 통계학 및 계산법
- 생물정보학에서 효과적으로 사용될 수 있는 컴퓨터 프로그램의 개발 및 시험
- 생물학적 데이터베이스 개발 및 최적화
- 여러 방법, 프로그램, DB를 사용하여 도출한 생물학 관련 주요 결과
- 복잡한 생물 시스템의 컴퓨터 기반 모델을 만들기 위해 많은 형태의 데이터가 사용되는 시스템 생물학의 신흥 분야
논문 소개
본 논문에서는 후보 약물, 독성, 치료 효과, 생물학적 기능 등을 예측하는 데에 핵심적인 역할을 하는 Chemical-chemical interaction (이하 CCI)에 대해 'DeepCCI'라는 학습 기반 접근법을 제안한다. Deep CCI는 SMILES로부터 숨겨진 표현들을 추출해내는 feature extraction을 통해 새로운 feature를 학습시켜 성능을 향상시키는 데에 기여하며, Siamese network를 기반으로 한다. 논문에서 제시된 기준에 따라 DeepCCI의 성능을 12가지의 fingerprint-method 조합의 각각의 성능과 비교한다. 더불어, DeepCCI를 통해 교환법칙 성립이 가능하다는 것을 실험적으로 검증하여, manual하게 진행되던 feature extraction이 자동으로 가능해지면서 적은 노력으로 예측 성능을 보다 향상시킬 수 있었다.
Introduction
최근 Chemical-chemical interaction (이하 CCI)가 발전을 이루며 화학적 독성 또는 부작용 예측 연구, 치료 정확성 예측 연구 등 다양한 분야에서의 연구가 CCI를 통해 진행되고 있다. 다른 약물 분석에서는 최근 딥러닝이 활발히 활용되고 있긴 하지만, CCI는 에서는 아직까지 학습기반 예측은 진행된 적이 없었다. 이 논문에서는 특징 추출 및 학습 기반 접근법을 포함하는 ‘DeepCCI’를 제안하며, 12가지의 fingerprint와 method 조합을 이용하여 DeepCCI의 성능을 비교한다.
CCI는 NLP (자연어처리) 기반 literature mining, 개별 물질의 용량-반응 곡선과 물질의 고정된 조합에 기초한 생물학적 실험, 화학 물질 간의 유사성은 유사성을 검출하기 자카드 지수(Jaccard index, 두 집합 사이의 유사도를 측정하는 방법 중 하나로 0과 1 사이의 값을 가지며, 두 집합이 동일하면 1의 값을 가지고, 공통의 원소가 하나도 없으면 0의 값을 가진다), 그리고 PubChem, ChEBI와 ChemDB 와 같은 데이터베이스 정보로부터 구축되었다. 하지만 CCI에 대해서 학습 기반 예측이 이루어진 적은 없었다.
일반적인 chemical analysis는 두 가지 단계에 의해 시행된다: feature engineering and predicting activity
(A) 신경망 기반 학습이 back-end에 적용되는 neural classifier
신경망 기반 분류기는 'Merck Molecular Activity Challenge'이라는 주제로 진행된 Kaggle competition과 구조-활성의 정량적 관계 (Quantitative structure–activity relationship, QSAR) 예측으로 인해 많은 관심을 끌었다. Neural network 기반의 multi-tasking techniques를 사용하여 예측 성능을 향상시켰으며, 더불어 신약 개발 (drug discovery), 네트워크 약리학 (network pharmacology) 등에 유용하게 쓰이는 chemical–protein간의 상호작용 (CPIs) 예측에 있어서도 향상된 결과를 가져왔다.
(B) 신경망 기반 학습을 front-end에 적용하는 neural generator
신경망 기반 학습은 약물 생성을 위한 front-end generator로 활용되기도 한다. 화학 물질에서 숨겨진 feature를 추출하고, 추출된 feature로부터 다시 화학 물질을 생성해내는 것이다. VAE (variational autoencoder)와 RNN (recurrent neural network)과 같은 generative neural network model들은 drug generation에 사용되어왔다. 숨겨진 feature를 추출해내기 위한 input으로 SMILES가 사용되며, feature로부터 chemical strings, 즉 SMILES를 재생성해낸다. 이 과정에서 neural network 기반 학습이 이용된다.
(C) 우리의 접근 방식인 신경망 기반 학습을 front-end에서 back-end로 적용시키는 End-to-End neural learner
신경망 기반 학습은 feature engineering에서 생물학적 활동을 예측에 이르는 전 과정을 포함하는 end-to-end learner로 활용된다. 본 학습 방법은 original chemical input에서부터 숨겨진 feature를 추출하고, 추출된 feature를 활용하여 생물학적 활동을 예측하는 방법이다. 이 framework를 사용하면 원래의 화학적 정보를 handle하는 것이 어렵기 때문에 적극적으로 이용되지 않았다. 화학적(약물)분석에서 neural network 기반 학습 접근법은 신경 분류기에 주로 사용된다 (A처럼). 그러나 Deep neural network는 분류(A)뿐만 아니라 숨겨진 feature를 하는 데도 잘 작동한다는 것이 이 논문에서 새롭게 주장하는 바이자, 제안하는 framework에 적용시킨 이론이다. 신경망에 의해 추출된 숨겨진 특징들은 도메인 전문가들에게 알려지지 않은 중요한 특징들을 포함할 수 있으며, 예측 성능을 향상시킬 수 있다. 이렇게 숨겨진 feature를 추출하고 학습하는 CCI 예측을 위한 DeepCCI end-to-end neural netowrk learning framework를 제안한다.
Background
1) SMILES
weight, molecular formula, rings, atoms, SMILES, InChI 등 화학 화합물의 모든 feature 정보는 end-to-end learning에서 중요하다. 그 중에서도 SMILES는 문자열로 나타낼 수 있으며, 화학구조의 1차원 표현이지만 2차원 또는 3차원 화학구조로 변환할 수 있을 만큼 충분한 구조정보를 담고 있다. 구조 정보를 기반으로 약물 생성과 화합물 간 유사성 파악에도 사용되며, 화학적 화합물의 기능을 명확히 하는 수단이 된다.
2) Convolutional Neural Networks
가장 널리 사용되는 딥러닝 아키텍처 중 하나인 convolutional neural network (CNN) 1차원 (1D) 생물학적 sequences, 언어적 문장, 2차원 영상 처리 등에도 탁월한 성능을 보였다. 본 방법론에서는 CNN을 사용하여 SMILES 문자열의 feature를 찾아낸다.
3) Commutative Property
수학에서 교환법칙은 순서를 변경해도 결과에 영향을 미치지 않는다는 것을 의미한다. 물체 A와 B 사이의 상호작용을 예측하는 것은 거리나 물체 사이의 유사성과 같은 순서와 무관하기 때문에, 교환법칙이 보장되어야 한다. 이러한 특성을 보장하기 위해 본 방법론에서는 대칭적 문제에 적합한 Siamese architecture를 사용한다.
Proposed Methodology
CCI를 위한 end-to-end SMILES learning를 제안한다. 제안된 DeepCCI의 개요는 3단계로 나누어져 다음 그림과 같이 나타낼 수 있다.
① SMILES inputs preprocessing
② weight-shared 1D-CNN을 통해 잠재된 숨은 표현을 학습
③ L1 요소별 거리 측정과 fully-connected layers (Fcls) 를 통해 거리(distance)와 상호작용(interaction)을 예측
④ 주어진 물질 A와 B의 SMILES를 통해 두 물질에 대한 상호작용 확률(interaction probability)을 output으로 출력한다.
SMILES 형태의 input을 학습시키기 위해서는 numerical expression 형태로 변환이 되어야 한다. 이때 가장 많이 사용되는 'One-hot Encoding' 방식을 채택하여 대응 문자를 "1"로, 다른 모든 문자를 "0"으로 설정하여 각 문자를 Xj-차원 이진 벡터로 변환하였다.
일반적으로, SMILES 문자열은 화학 구조의 복잡성에 따라 길이가 변한다. 숨겨진 표현을 효과적으로 학습하기