인공신경망 기계번역에서 말뭉치 간의 균형성을 고려한 성능 향상 연구A study on performance improvement considering the balance between corpus in Neural Machine Translation
- Other Titles
- A study on performance improvement considering the balance between corpus in Neural Machine Translation
- Authors
- 박찬준; 박기남; 문현석; 어수경; 임희석
- Issue Date
- 2021
- Publisher
- 한국융합학회
- Keywords
- Machine Translation; Parallel Corpus; Human Translation; High Quality Data; Deep Learning; Language Conversion; 기계번역; 병렬말뭉치; 휴먼번역; 고품질 데이터; 딥러닝; 언어융합
- Citation
- 한국융합학회논문지, v.12, no.5, pp.23 - 29
- Indexed
- KCI
- Journal Title
- 한국융합학회논문지
- Volume
- 12
- Number
- 5
- Start Page
- 23
- End Page
- 29
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/129728
- DOI
- 10.15207/JKCS.2021.12.5.023
- ISSN
- 2233-4890
- Abstract
- 최근 딥러닝 기반 자연언어처리 연구들은 다양한 출처의 대용량 데이터들을 함께 학습하여 성능을 올리고자 하는 연구들을 진행하고 있다. 그러나 다양한 출처의 데이터를 하나로 합쳐서 학습시키는 방법론은 성능 향상을 막게 될 가능성이 존재한다. 기계번역의 경우 병렬말뭉치 간의 번역투(의역, 직역), 어체(구어체, 문어체, 격식체 등), 도메인 등의 차이로 인하여 데이터 편차가 발생하게 되는데 이러한 말뭉치들을 하나로 합쳐서 학습을 시키게 되면 성능의 악영향을 미칠 수 있다. 이에 본 논문은 기계번역에서 병렬말뭉치 간의 균형성을 고려한 Corpus Weight Balance (CWB) 학습 방법론을 제안한다. 실험결과 말뭉치 간의 균형성을 고려한 모델이 그렇지 않은 모델보다 더 좋은 성능을 보였다. 더불어 단일 말뭉치로도 고품질의 병렬 말뭉치를 구축할 수 있는 휴먼번역 시장과의 상생이 가능한 말뭉치 구축 프로세스를 추가로 제안한다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Graduate School > Department of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.