“한국어에서 일본어 혹은 일본어에서 한국어로의 사례와 같이 시스템에 학습을 시킨 적이 없었는데도 한국어-일본어 간의 번역을 수행할 수 있었습니다”라고 구글의 AI 개발 프로젝트 팀 「구글 브레인」의 마이크 슈스터는 블로그를 통해 밝혔다.
“우리가 파악하는 한, 이것은 진정한 의미에서의 다국어 『제로 샷 번역』(번역할 때마다 영어가 개입되지 않는 번역 방법)을 제시한 첫 사례다.”
이 연구 논문의 가장 훌륭한 부분은 이 AI가 예문이 제공되지 않았던 언어를 번역할 수 있다는 점이 아니라 스스로 독자적인 「언어」를 구축한다는 점이다. “결과를 시각적으로 해석한 결과, 이들 모델은 번역 대상에 포함되는 모든 언어 쌍의 다언어 모델에 대해 인터링구아(interlingua)한 표현 형식을 학습한다는 점이 파악되었다”라고 논문은 밝힌다.
원래 인터링구아란 서유럽 주요 언어에 공통되는 어휘 등을 기초로 하여 간략화된 문법을 기반으로 삼아 구축된 국제 보조어를 말하는데, 기계 번역이 만들어내는 잠정적인 문장을 가리키기도 한다. 이번 논문에서 이 단어는 AI가 미지의 언어를 번역하는 시스템을 설명하기 위해 사용되었다.
“네트워크 내부의 데이터를 3차원 표현해 보니 이 시스템이 일본어, 한국어, 영어라는 3가지 언어로부터 발생할 수 있는 모든 언어 쌍 사이의 문장을 번역하고 있는 모습을 엿볼 수 있었습니다”라고 연구팀은 밝혔다. 네트워크 내의 데이터를 사용함으로써 신경망 네트워크가 문장끼리 비교해서 번역하는 것이 아니라 글의 의미를 “코드화하고 있음”이 드러났다고 한다. “우리는 이것을 네트워크에 인터링구아가 존재하고 있는 증거라고 해석했습니다”라고 연구팀은 말한다.