딥러닝을 이용한 자동 번역의 한계 극복


전 세계가 서로 연결되어진 우리의 현실 세계는 더욱 스마트한 자동 번역 도구를 요구한다. 딥 러닝을 통해 한 연구팀이 통계적 기계 번역을 위한 솔루션을 제공한다.


유럽 ​​언어에 대한 즉각적인 번역은 EU의 효율적인 통솔과 학술 및 상업 활동에 중추적이다. 이를 위해 머신 러닝 기술을 기반으로 하는 데이터 기반 접근 방식이 널리 사용된다.

기본 지식은 텍스트와 번역의 평행 코퍼스에서 파생된다. 이는 국제 및 EU 조직과 같이 대규모 병렬 말뭉치가 있는 도메인에서 높은 수준의 번역 품질에 도달했음을 의미한다. 반대로, 의학 또는 법률 문헌과 같이 병렬 말뭉치가 많이 없는 수많은 다른 분야는 아직도 번역 품질이 고르지 않고 낮은 형편이다.

EU가 자금 지원한 DASMT 프로젝트는 두 가지 접근 방식을 사용하여 자동 번역을 위한 지식 습득을 개선했다. 도메인별 번역 시스템에서 대규모 도메인 외 병렬 말뭉치의 이점을 얻는 방법과 병렬 방식이 아니고 해당 도메인 내의 텍스트에서 얻을 수 있는 지식을 발굴하고 적절하게 평가하는 방법에 초점을 맞췄다.

 

딥 러닝: 도전과 기회

DASMT 팀은 처음에 소비자용 GPU가 있는 게임용 PC를 구입하여 GPU(그래픽 처리 장치)가 필요한 딥 러닝에 참여했다.

프로젝트 코디네이터 Alexander Fraser는 다음과 같이 말한다.

“이것들은 예를 들어 마치 외부 냉각수가 있는 게임머신 같기도 했지만, 우리들은 전체 검색 프로그램을 바꿔서 번역을 위한 딥 러닝 모델을 운용할 수 있도록 바꾸도록 신속한 결정을 내렸다. 프로젝트의 2년차 및 3년차에 들어서 이를 위해 많은 노력을 기울였고, 또한 상당한 규모의 서버 구매가 필요했다. 하지만 궁극적으로 우리의 성과에 있어서 큰 기여를 했다.”

도메인 적응은 모든 자연어 처리 시스템과 인공 지능 연구의 많은 영역에 적용되기 때문에 DASMT 솔루션은 학문적 영향뿐만 아니라 번역 서비스 제공자에게도 직접적인 영향을 미친다.

 

기계 번역 영역에서의 종합적인 결과

DASMT는 품사 분류사를 사용하는 형태학적으로 풍부한 언어들로의 번역을 개선했다. 이에 연구 방향은 기존의 최신 기술인 문장 기반의 통계적 기계 번역의 여러 가지 한계를 극복하는 새로운 기술인 신경 기계 번역(NMT)으로 전환되었다.

여기서 중요한 작업은 굴절 일반화와 언어 표현 개선, 그리고 빠른 훈련 알고리즘에 대해 수행되었다. 놀랍게도 연구원들은 자신들이 어떤 병렬 데이터를 사용하지 않고 기계 번역 시스템을 트레이닝 하고 있다는 사실을 알게 되었다. 또한 전체 컨텍스트를 사용하여 더 나은 번역 모델링을 만들어 내는 문서 번역을 연구하였다.

이 프로젝트는 또한 필리핀의 중요한 언어인 Hiligaynon과 같이 디지털 리소스가 거의 없는 리소스가 부족한 여러 언어에도 초점을 맞췄다. 어퍼 소르비아어(독일의 소수 민족 슬라브어)와 추바시어(러시아 소수 민족 언어) 같은 특별한 언어사례 연구를 통해 연구팀은 감독자 없이 NMT 단독 활용을 위하여 효과적인 사전 훈련에 대한 연구에도 집중했다.

마침내 DASMT는 고성능의 '편파적인 발언(Hate Speech)' 탐지 시스템을 만들었다.

DASMT 팀은 개선된 시스템을 오픈 소스로 제공했으며 결과를 기계 번역 및 다국어 자연어 처리 커뮤니티에 전달하기 위해 최선을 다하고 있다. “향후 우리는 유럽 및 국가 기관 모두로부터 추가 연구 자금 지원을 요청할 것이며, 개선된 다국어 모델에 대해 두 부문에서 모두 상당한 관심이 있기 때문에 상업 및 비영리 모두에 초점을 맞춘 응용 제품을 만들 것이다 "라고 프레이저가 밝혔다.

 

  • 기간 : 2015.12.01.~2021.11.30. (Horizon 2020)
  • 예산 : 123만 유로 (EU 지원 100%)
  • 조정 : LUDWIG-MAXIMILIANS-UNIVERSITAET MUENCHEN (Germany)

 

SOURCE : CORDIS

Print Friendly, PDF & Email
Facebook
Twitter
LinkedIn
Pinterest