Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus

Other Titles
A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus
Authors
박찬준임희석
Issue Date
2020
Publisher
한국디지털정책학회
Keywords
Machine Translation; Public Data; Parallel Corpus; Transformer; Neural Machine Translation; 기계번역; 공공데이터; 트랜스포머; 병렬 말뭉치; 인공신경망 기계번역
Citation
디지털융복합연구, v.18, no.6, pp.271 - 277
Indexed
KCI
Journal Title
디지털융복합연구
Volume
18
Number
6
Start Page
271
End Page
277
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/60373
DOI
10.14400/JDC.2020.18.6.271
ISSN
2713-6434
Abstract
기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성을 알 수 있었다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
Graduate School > Department of Computer Science and Engineering > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE