Chat with us, powered by LiveChat

맞춤 신경 기계 번역 개발 과정

Trusted Translations는 맞춤 기계 번역 엔진(CNMTE)을 런칭하기 위해 초기 교육과 설치 기간을 거칩니다. 다음은 새로운 NMT (신경 기계 번역) 엔진을 구축하는 일반적인 실행 과정입니다.

베이스라인 (기준) 엔진 선택

현재 아주 많은 콘텐츠가 여러 알고리즘에 걸쳐 개발되고 있습니다. 그러나 이 컨셉은 조금 더 통합적으로 바뀌어야 합니다. 예로 기술 솔루션의 민주화는 강력한 기준 엔진이 맞춤형 솔루션을 구축할 수 있는 좋은 기반이 될 수 있게 하고 있습니다. Google, Microsoft, 또는 Amazon의 서비스 제안은 이미 잘 교육된 엔진에 여러분의 정리된 데이터를 추가할 수 있게 도울 것입니다.

데이터 선택과 코퍼스 준비

맞춤 엔진을 구축하기 위한 교육 데이터 수집에는 여러 접근 방식이 있습니다.

  • 이미 번역된 콘텐츠:

    모든 맞춤 신경 기계 번역 엔진의 가장 이상적인 시작점은 번역해야 할 콘텐츠와 최대한 비슷한 콘텐츠를 포함하는, 이미 번역된 자료를 찾아 활용하는 것입니다. 이미 번역된 자료가 많으면 많을수록 절차도 더 빠르고 경제적입니다. 출처와 대상이 번역 메모리 단위와 관련되지 않은 경우에는 엔진의 성능을 향상시키기 위해 필요한 2개 국어 콘텐츠를 획득하는 일치 작업이 가능합니다.

  • 기존의 단일 언어 데이터:

    충분한 양의 대상 레퍼런스 콘텐츠가 확보된 경우에는 이를 시스템에 추가해 모든 스타일과 용어를 활용할 수 있습니다. 이러한 콘텐츠는 로컬 SME가 맨 처음부터 개발한 콘텐츠일 가능성이 높으며, 그 가치는 아주 높습니다. 두말할 필요 없이 특정 분야나 고객에게 맞는 용어는 주요 약점이 용어인 NMT 기술에 기반한 엔진을 맞춤화할 때 아주 중요한 자산입니다.

  • 다른 출처로 전문 코퍼스 만들기:

    저희는 단일 언어 데이터를 활용할 뿐만 아니라 웹에서 엔진에 추가될 콘텐츠와 최대한 비슷한 자료를 찾을 것입니다. 다시 한번 강조하자면 최고 품질의 코퍼스를 찾는 시간은 항상 투자 가치가 있는 작업입니다. 이는 데이터 마켓플레이스에서 얻을 수 있는 2개 국어 데이터의 경우에도 마찬가지입니다. 이 외부 병렬 데이터를 기계 번역 시스템의 교육 데이터로 사용하기 전에는 먼저 정리(스펠링 체크, 정렬 확인, 중복 사항 삭제 등)가 필요합니다. 이 시나리오의 경우, 고객이 처음부터 충분한 양의 고품질 데이터를 제공할 수 있는 경우보다 필요한 수동 작업이 훨씬 많습니다. 새로운 엔진 구축에는 4주에서 6주가 소요됩니다.

더 많은 출력물을 포스트 에디팅함에 따라 해당 데이터는 고품질의 기계 교육 데이터로 변환될 수 있습니다. 이 적응형 모델은 시스템 출력물의 품질이 시간이 지남에 따라 빠르게 개선될 수 있게 할 것입니다.

재교육: 새로운 CNMTE는 인간 포스트 에디팅 작업으로 개선됩니다

맞춤 신경 기계 번역 엔진을 사용하는 작업 흐름에는 여러 가지가 있습니다. 일반적인 구성 중 하나는 인간 포스트 에디터 과정을 통합하는 것입니다. 이러한 작업 흐름에서 본사의 전문 통·번역사들은 맞춤 신경 기계 번역 엔진의 출력물을 수정하여 현재 출력물의 품질을 개선하는 동시에 미래 번역을 위해 엔진을 재교육하게 됩니다. 교정자가 출력물을 수정해 품질을 개선하면 엔진은 동적 적응형 모델을 통해 더 똑똑해집니다. 게다가 해당 엔진은 엔진에 더 많은 번역이 추가되고 시간이 지나면서 더욱더 똑똑해집니다. 다시 말해서 완전 인간 번역과 해당 솔루션 간의 품질 차이가 크게 좁혀지는 동시에 처리 시간과 비용이 크게 절감된다는 뜻입니다. 저희는 이런 엔진이 특정 필요를 갖춘 고객에게 자산이자 시장에서의 차이가 될 수 있다고 생각합니다.