새롭게 개발 중인 알고리즘은 인공지능이 사물을 시각적으로 인식할 뿐 아니라 인식한 사물을 해석할 수 있는 능력을 부여하는 것을 목표로 한다.
인간은 거의 모든 일에 시력을 사용하면서도 이를 종종 당연하게 여긴다. 하지만 이미지를 인식하고 이해하는 것은 매우 복잡한 과정이다. 사실, 일부 연구자들은 시각이 뇌의 약 절반을 사용한다고 추정한다.
옥스퍼드 대학의 컴퓨터 비전 및 기계학습학과 교수인 Andrea Vedaldi는 "이 복잡한 과정을 통해 우리는 단순하게 자동차를 보는 것이 아니라 파란색 자동차를 볼 수 있다. 그냥 사람이 아니라 빨간 티셔츠를 입은 남자를 볼 수 있다.”라고 말한다.
Vedaldi 교수에 의하면, 우리가 보는 것에 대한 이러한 상세한 이해는 의사 결정에 중요하다. "적색 신호등에 다른 차량이 속도를 낮추지 않는 것을 보면 즉시 이를 잠재적으로 위험한 상황으로 해석하고 그에 따라 조치를 취한다.”라고 말한다.
그리고 여기에 인공지능(AI)의 핵심 문제가 있다. AI는 물체를 시각적으로 인식하는데 상당히 능숙하지만, 보는 것을 해석하는 능력이 부족하다. 이는 자율 차량이나 무인 드론과 같은 애플리케이션에서 다소 문제가 될 수 있다.
"아기들은 외부 입력이 거의 또는 전혀 없이 스스로 이미지를 이해하는 법을 배울 수 있지만, AI는 광범위하고 상세한 수동적인 감독을 통해 이 기술을 가르쳐야 한다.”라고 Vedaldi는 설명한다.
Vedaldi와 그의 연구팀은 EU의 자금 지원을 받는 IDIU 프로젝트를 통해 시각 이미지를 이해할 수 있는 알고리즘을 개발했다. "우리의 목표는 인간의 시력에 더 가까운 강력하고 유연성을 갖춘 차세대 이미지 이해 알고리즘을 개발하는 것입니다.”라고 그는 말한다.
감독 불필요
유럽연구이사회(ERC)의 지원을 받은 IDIU 프로젝트는 현대 컴퓨터 비전의 주요 항목 중 하나인 감독의 필요성을 다룬다.
알고리즘은 복잡한 이미지 분석 작업을 수행하는 방법을 학습할 수 있지만, 그렇게 하려면 먼저 수천 개 - 수 백만개는 아니지만 - 레이블이 지정된 예제가 필요하다. 말할 필요도 없이 이것은 상당한 비용이 든다.
이 프로세스를 간소화하기 위해 연구원들은 몇 가지 새로운 기술을 개발 했는데‘자체 연구'를 수행할 수 있는 알고리즘이 그 중 하나이다.
연구원들은 Google 및 Wikipedia와 같은 인터넷 리소스를 자동으로 참조함으로써 또한 외부 감독 없이 이미지 및 비디오에서 물체의 기하학을 학습하는 새로운 수학적 접근 방식을 통해 이를 수행할 수 있다.
Vedaldi 교수는 "처음으로 외부 감독 없이 이미지를 보는 것만으로 물체의 공간 구조 학습이 가능하다는 것을 시연했다.”라고 말한다.
"즉, 한 알고리즘은 사람이 두 팔, 두 다리, 특정 자세를 가지고 있다는 것을 독립적으로 학습할 수 있다.”
인간과 같은 유연성
AI는 여전히 인간의 지능을 따라잡으려면 가야 할 길이 멀었지만 IDIU 프로젝트가 이룬 성과들은 인간과 같은 수준의 유연성을 제공한다.
그는 "이 프로젝트는 우리가 내부 학습이라고 부르는 AI의 새로운 하위 영역을 개척함으로써 미래 연구 및 산업에 중대한 영향을 미칠 것”이라고 덧붙이고 있다.
이러한 영향은 이미 일어나고 있는데, 프로젝트의 결과가 현재 ERC Consolidator Grant에서 활용되고 있다.
Vedaldi 교수는 "IDIU 연구결과를 기초로, 이제 우리는 우연하게 녹화된 이미지와 비디오를 분석함으로써, 궁극적으로는 완전히 자동으로 사물을 보는 법을 배울 수 있는 기계를 만들고 있다.”라고 결론짓고 있다.
"우리는 이 기술이 컴퓨터 비전을 훨씬 더 쉽게 적용할 수 있게 하여 미래의 많은 중요 응용 프로그램에 유연하고 유용하게 할 것으로 기대한다.”