공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus
- Other Titles
- A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus
- Authors
- 박찬준; 임희석
- Issue Date
- 2020
- Publisher
- 한국디지털정책학회
- Keywords
- Machine Translation; Public Data; Parallel Corpus; Transformer; Neural Machine Translation; 기계번역; 공공데이터; 트랜스포머; 병렬 말뭉치; 인공신경망 기계번역
- Citation
- 디지털융복합연구, v.18, no.6, pp.271 - 277
- Indexed
- KCI
- Journal Title
- 디지털융복합연구
- Volume
- 18
- Number
- 6
- Start Page
- 271
- End Page
- 277
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/60373
- DOI
- 10.14400/JDC.2020.18.6.271
- ISSN
- 2713-6434
- Abstract
- 기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성을 알 수 있었다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Graduate School > Department of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.