구희정 / ㈜스탠다임 영국지부장

[신약개발의 패러다임을 바꾸다]
오랜 시간 축적된 데이터는 인공지능의 양분이 돼 새로운 가치를 창출하고 있고, 이에 따라 수십 년이 걸린 신약 개발에도 새로운 패러다임이 등장하고 있다. 과연 인류의 평온한 삶을 존속시킬 대안이 될 수 있을까. 제약 산업의 혁신을 이끌어 낼 인공지능의 현주소를 살펴보고 다가올 미래를 그려보고자 한다. <편집자 주>


인공지능은 절말로 제약 산업을 혁신시킬 수 있을까


구희정 / ㈜스탠다임 영국지부장

 
 

  언제부터인가 인공지능은 첨단 기술 분야라면 적용되지 않는 곳을 찾기 어려울 정도로 흔해졌다. 이는 제약 산업에서도 예외가 아니며, 기존 신약 개발에 들어가는 시간적·경제적 개선을 위한 방법론으로 인공지능의 다양한 기술들이 주목받고 있다. 물론 인공지능이라는 용어는 방대한 개념을 포함하고 있고, 신약 개발 과정 또한 단순히 몇 단계로 끝나는 일은 아니다. 따라서 수많은 ‘인공지능’ 방법론을 적용한 신약 개발 혁신의 길은 매우 다양하다. 다시 말해 어떠한 기술과 노력을 어디에, 어떻게 적용해야 유의미한 효과를 얻을 수 있을지 치열한 고민이 필요하다는 것이다.


혁신을 위한 기술과 방법론의 필요성


  인공지능이라는 용어를 말 그대로 해석하면 인위적으로 가공한 지적 능력이 될 것이다. 조금 더 살을 붙이자면 인간의 지능을 흉내 내되 기계가 가진 장점을 활용해 ‘인간적인 면’. 즉, 필연적으로 지치고 실수하며 기존의 지식과 환경에 영향을 받는 ‘단점’을 보완할 것이 기대되는 도구 정도로 부연해 볼 수 있겠다. 이러한 이해를 바탕으로 제약 산업에서 인공지능을 논할만한 혁신 포인트는 신약 발굴에 소요되는 시간과 비용의 절감, 그리고 높은 성공률이다. 인류는 질병에 대한 이해를 기반으로 치료제 개발에 수많은 노력을 기울여왔고, 방대한 지식을 축적함과 동시에 새롭게 정보를 생산하는 실험 및 방법론에서도 엄청난 혁신을 이뤄 왔다. 특정 키워드로 검색되는 수많은 논문과 데이터베이스가 전자의 예이고, 인간 유전체 프로젝트를 통해 십여 년에 걸쳐 읽어내야만 했던 유전체 서열의 분석시간을 수 시간 단위로 단축시킨 ‘시퀀싱’의 발달이 후자의 예이다. 이러한 상황에서 경쟁력은 산재한 자원으로부터 양질의 데이터를 효율적으로 수집 및 사용하는 능력과, 가용한 데이터가 부족할 경우 정의된 문제를 풀기에 가장 적합한 방법을 디자인해 결과를 생산하는 능력으로부터 온다.
  신약 개발에서 신규 타겟 발굴은 인공지능이 활약할 여지가 많은 단계 중 하나이다. 신약 개발 파이프라인 중 절반 이상이 ‘약효 부족’으로 실패하며, 잘못된 타겟 선정이 그 이유로 많이 지목되기 때문이다. 실제로 인간 유전체 중 약물 타겟으로 활용될 가능성이 있는 부분(Druggable Genome)을 고려했을 때 오직 3%만이 알려진 메커니즘(Mechanism of Action)에 기반된 타겟으로 활용되고 있고, 활성을 가진 화합물이 보고된 경우가 9%가량, 생물학적 기능만 알고 있는 경우가 58%, 거의 정보가 없는 경우가 30%에 육박한다. 분명 인류는 질병을 이겨내기 위해 수많은 연구를 해 왔고 방대한 정보와 기술을 축적해 왔다고 생각했는데, 그런 것 치고는 초라한 성적이라 할 수 있다. 여러 이유가 있을 수 있겠지만 가장 먼저 떠오르는 원인은 우리가 과연 이 방대한 지식과 기술을 정말 잘 활용하고 있는가이다.
  정보를 특정 개념(노드)과 그 개념들 사이의 관계(엣지)로 나타내어 그래프 형태로 만든 지식 그래프(Knowledge Graph)는 수많은 정보 간의 관계 구조화뿐만 아니라, 개별 정보를 단편적으로 처리할 때는 볼 수 없었던 전체적 양상 파악 또한 할 수 있다는 장점이 있다. 신규 타겟을 발굴하기 위해 알려진 정보들을 수집하고 그들 간의 관계를 파악하는 것이 연구의 시작이라는 점을 생각했을 때, 이 분야에서 지식 그래프를 구축하고 인공지능 방법론을 통해 이해하는 것은 확실히 인공지능의 장점을 극대화할 수 있는 접근법이다. 지식 그래프 내에서 이미 알려진 질병-타겟 쌍을 찾으면 해당 두 노드를 직·간접적으로 연결하는 다양한 경로를 찾을 수 있다. 또한 각 노드가 그래프 내에서 가지고 있는 위상적 정보를 통해 해당 노드를 특징지을 수 있다. 인공지능 방법론을 활용해 기계가 이러한 정보를 학습하도록 하면 전체 그래프에 담겨 있는 정보를 통해, 특정 질병 노드를 지목했을 때 이 질병의 타겟이 될 만한 노드를 보여주는 모델을 만들 수 있다. 그리고 이 모델은 어떠한 노드를 특정 질병 노드의 타겟이라고 생각했을 때 활용한 정보를 경로의 형태로 가지고 있기 때문에 ‘왜 이렇게 생각했냐면’ 까지도 보여줄 수 있는 ‘설명력’을 지녔다는 점에서 상당히 매력적인 모델이라고 할 수 있다.


데이터, 성공적인 결과를 위한 기반


  물론 이 방법론은 지식 그래프가 맥락에 맞는 양질의 데이터로 구성돼 있다는 것을 전제한다. 생체 안에서 일어나는 생물학적 프로세스들은 외부 환경 및 자극, 질병 여부, 특정 행동 등 해당 개체가 처해 있는 상태에 따라 매우 다이나믹하게 변화한다. 예를 들어 ‘단백질 A와 단백질 B는 상호작용을 한다’는 정보와 이를 그래프의 형태로 나타낸 ‘단백질 A(노드)-상호작용(엣지)-단백질 B(노드)’는 상황 1에서는 진실이나 상황 2에서는 진실이 아닐 수도 있다. 그러므로 최적의 예측을 위해 데이터는 항상 데이터가 생산된 맥락을 정확하게 기록하고 이를 사용자에게 알려주는 형태로 제공돼야 한다. 이는 지식 그래프 구축뿐만 아니라
  모든 상황에서 활용되는 데이터에 해당하는 내용이며, 산업 전반에 걸쳐 생산되는 데이터를 최대한으로 활용하기 위한 노력은 다양한 형태로 나타나고 있다. 연구자들이 오믹스 데이터(Omics Data)를 활용해 연구한 결과를 논문으로 출판할 때 미국 국립생물공학정보센터(NCBI) 웹사이트에 해당 연구 관련 정보와 함께 미가공 데이터(Raw Data)를 업로드하는 것에서부터, 수십만 개인 건강 정보 및 유전체 정보를 동의하에 수집하고 승인 과정을 거쳐 연구자들에게 데이터 액세스 권한을 주는 영국의 프로젝트인 ‘UK Biobank’가 좋은 예시가 된다. 특히 UK Biobank의 경우 데이터를 활용한 연구자들이 그 연구 내용 및 결과를 자발적으로 공유할 수 있어서, 생산되는 데이터뿐만 아니라 2차 가공 데이터까지 축적되며 리포지토리(Repository)를 더욱 풍부하게 만든다.
  데이터는 모델의 구축을 위해서도 중요하지만, 이후 검증 단계에도 필수적이다. 앞서 언급한 신규 타겟 발굴 모델을 검증하는 것이 어려운 이유는 모델이 알려준 리스트를 눈으로 봤을 때 이것이 옳은 결과인지 알 수 없기 때문이다. 모든 후보 타겟을 가지고 검증 실험을 해 보면 좋겠으나 비용 측면에서 현실적이지 않고, 질병의 대다수가 다양한 생물학적 프로세스에서의 이슈를 동반하기에, 한두 가지 확인하는 정도의 실험 디자인으로는 총체적인 검증이 불가능하다. 믿을 수 있는 모델을 구축한다는 측면에서, ‘우리가 이미 알고 있는 질병-타겟 쌍을 어느 정도 잘 맞춘다면 후보 타겟 리스트 상위권에 우리가 모르는 타겟이 나타나도 이것은 일정 수준의 신뢰도를 가지는 정보일 것’이라는 개념을 메트릭(Metric)화 해 검증할 수 있으나 실제 나온 결과에서 특정 케이스가 정말 유의미한지를 보여줄 수 없고, 따라서 이후 약물 개발에 사용할 타겟을 특정할 수 없다는 한계가 있다. 결과적으로 이 메트릭과 함께 실제 사례를 축적하는 것이 필요하며 검증의 파이프라인화를 통한 패러다임의 전환을 꾀하는 것이 중요하다. 전체 과정을 이해하기 위한 몇 건의 성공 사례 또한 필요하겠으나, 최종적으로는 모델 구축과 이를 활용한 예측, 그리고 이 결과의 실험 검증까지가 하나의 파이프라인처럼 준비돼 반복적인 피드백을 통한 개선과 데이터 축적을 통한 검증 시스템이 마련된다면 가장 바람직할 것이다. 이는 다시 한번 여러 가지를 전제로 하는데, 인공지능 모델은 이후 검증 실험을 적절하게 디자인할 수 있는 근거를 제시하는 것, 모델이 제시하는 근거를 바탕으로 실험 자동화의 가능 여부와 검증의 깊이를 함께 고려해 적절한 검증 실험을 디자인하는 것이 필수적이다.
  결론적으로, 인공지능은 제약 산업을 혁신시킬 수 있다. 하지만 인공지능은 마법이 아니고, 마법이 아닌 인공지능을 통해 마법과 같은 효과를 누리기 위해서는 앞서 언급한 내용들이 전제돼야 한다. 눈부신 기술적 발전과 함께 연구자 개개인의 참여, 정부 및 관련 기관의 시스템적 뒷받침을 통해 기술이 더욱 꽃피우고 실질적 기여를 할 수 있는 환경이 조성된다면 머지않아 인공지능을 통해 신약 개발의 난이도가 낮아졌다고 말할 수 있는 날이 올 것이다.

저작권자 © 대학원신문 무단전재 및 재배포 금지