[인공지능 기술의 발달과 미래]

 

사람의 의사결정을 닮은 강화학습

 

  우리는 주변 환경과 영향을 주고받으며 의사결정을 내린다. 이러한 과정은 인간의 학습적 특성으로서 인간이 성장을 거듭하며 주어진 상황에서 최적의 대응을 할 수 있도록 한다. 강화학습은 이러한 인간의 의사결정 과정을 모방했다. 지도학습, 비지도학습 등 다른 학습들과 달리 강화학습은 주변 환경과 지속적인 상호작용 과정을 거치며 학습한다.

  따라서 다른 인공지능 분야가 컴퓨터 환경 내의 문제를 다루는 것과 달리 강화학습은 실제 환경에서의 문제를 해결한다. 다시 말해, 현실 내 물리법칙의 영향을 고려하는 공학적 분야와 결합해 문제를 해결하는 것이다. 이러한 분야별 특성에 따라, ‘Chat GPT’나 이미지 생성 서비스 ‘플레이그라운드’처럼 특정 알고리즘을 활용해 대중에게 직접 서비스를 제공하는 B2C 형식의 비즈니스에 활용되는 경우는 드물다. 대신, B2B 비즈니스에서 활용되며 전자제품을 만드는 로봇 팔과 차량 내 사물 인식 시스템 등에 해당 기술들이 녹아 있다.

  성인이 된 우리는 걷거나 뛰는 행동을 자연스럽게 하고 있다. 하지만 인간이 태어나 걸음을 떼기 위해서는 최소 9개월, 시간으로는 약 6,552시간이 소요된다. 그 기간에 걸쳐 근육을 사용하는 최적의 방법을 배우는 것이다. 인간의 학습을 닮은 강화학습 역시 여러 시행착오를 거치며 외부의 정보를 습득하고, 학습해 나간다. 이러한 강화학습이 발전한다면 사람만이 하던 위험한 일을 기계가 대체하는 것도 가능해질 것으로 보인다.

 

방상현 편집위원 | mm2068@naver.com

저작권자 © 대학원신문 무단전재 및 재배포 금지