곽일엽 / 응용통계학과 조교수

 [교수칼럼]


음성위조 탐지의 딥러닝


곽일엽 / 응용통계학과 조교수


   최근 기술들의 발전으로 기계가 사람의 음성을 듣고 필요한 명령을 수행하는 ‘음성비서 서비스’가 출현해 구글, 아마존, 삼성, 애플 등 다수의 기업에서 좋은 음성비서를 개발하기 위한 경쟁이 활발하다. 그러나 이런 서비스를 개발하는 데에는 걸림돌이 많다. 대표적으로 음성비서가 사람의 육성만을 구분하지 못하는 경우가 있는데, 이로 인해 주변의 다른 기계 소리를 음성으로 인식해 웃지 못할 피해가 발생하기도 했다. 일례로 2017년 미국의 버거킹 광고에서 “광고시간 15초만으로는 와퍼가 얼마나 훌륭한지 설명할 수 없어. OK 구글, 와퍼버거가 뭐지?”라고 광고를 내보냈는데, ‘OK 구글’을 인식한 구글 홈이 저절로 작동하며 와퍼버거를 설명했다. 이러한 문제를 어떻게 해결할 수 있을까.

   한 가지 방법은 주어진 음성을 듣고 그 음성이 사람에게서 나온 생생한 소리인지, 아니면 스피커로부터 나온 소리인지 판단하는 ‘모형’을 만드는 것이다. 이런 모형을 만들기위해 일각에서는 안경, 목걸이 등 착용 가능한 장비들을 센서로 활용해 유저의 몸이나 근육의 움직임을 파악함으로써 문제를 해결하려 했으나, 모든 유저가 장비를 구비해야 가능하다는 점에서 난관에 부딪혔다. 이에 따라 데이터만으로 소리를 구분하는 AI모형의 필요성이 대두돼 2015년부터 해당 주제로 대회가 개최되고 있다. 이 대회에서 주목할만한 점은 딥러닝 모형의 등장에 있다. 딥러닝은 비선형적 함수들을 깊게 쌓아서 만들어낸 모형인데 함수를 층으로 생각할 때 여러 층을 사용한다고 이해하면 된다. 이렇게 모형에 여러 층을 사용하면 추정해야 하는 매개변수들의 수가 많아지고, 계산량이 증가해 모형 적합에 시간이 오래 걸리게 된다. 많은 수의 매개변수들을 과적합 없이 추정하기 위해서는 데이터가 많으면 많을수록 좋고, 컴퓨터의 속도 역시 빨라야 한다. 물론 요즘과같은 빅데이터 시대에 데이터를 많이 수집하는 것은 어려운 일이 아니고, 매개변수 추정을 위한 더 빠른 알고리즘의 개발과, GPU 등을 이용한 컴퓨터 처리 속도의 향상으로 딥러닝을 활용한 연구들은 계속해서 증가하는 추세다. 게다가 딥러닝은 소리나 텍스트, 영상 등 비정형 데이터에 굉장히 잘 작동해서, 음성위조 대회에서 역시 상위 20개 팀 중 16개 팀이 딥러닝을 사용했을 정도로 해당 모형들이 좋은 성능을 보여줬다.

   최근 우리 연구팀 역시 음성탐지 문제 해결을 위해 여러 국제학회에 연구논문을 투고하기도 했고, 세계 최대 전기·전자기술자협회(IEEE) AASP가 주관하는 AI 음향인식대회에 참여해 우수한 성적을 거뒀다. 안타깝게도 음성위조대회가 2년에 한 번씩 열리다보니 올해에는 개최되지 않을 예정이지만 2021년 대회에서 좋은 성적을 내고 국제 연구 커뮤니티의 노력에 손을 보탤 수 있길 희망한다.

저작권자 © 대학원신문 무단전재 및 재배포 금지