병렬 말뭉치 필터링을 적용한 Filter-mBART기반 기계번역 연구Filter-mBART Based Neural Machine Translation Using Parallel Corpus Filtering
- Other Titles
- Filter-mBART Based Neural Machine Translation Using Parallel Corpus Filtering
- Authors
- 문현석; 박찬준; 어수경; 박정배; 임희석
- Issue Date
- 5월-2021
- Publisher
- 한국융합학회
- Keywords
- 딥러닝; 자연어처리; 기계번역; 병렬 말뭉치 필터링; 사전학습 모델; Deep Learning; Natural Language Process; Machine Translation; Parallel Corpus Filtering; Pretrained model
- Citation
- 한국융합학회논문지, v.12, no.5, pp.1 - 7
- Indexed
- KCI
- Journal Title
- 한국융합학회논문지
- Volume
- 12
- Number
- 5
- Start Page
- 1
- End Page
- 7
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/129059
- DOI
- 10.15207/JKCS.2021.12.5.001
- ISSN
- 2233-4890
- Abstract
- 최신 기계번역 연구 동향을 살펴보면 대용량의 단일말뭉치를 통해 모델의 사전학습을 거친 후 병렬 말뭉치로 미세조정을 진행한다. 많은 연구에서 사전학습 단계에 이용되는 데이터의 양을 늘리는 추세이나, 기계번역 성능 향상을 위해 반드시 데이터의 양을 늘려야 한다고는 보기 어렵다. 본 연구에서는 병렬 말뭉치 필터링을 활용한 mBART 모델 기반의 실험을 통해, 더 적은 양의 데이터라도 고품질의 데이터라면 더 좋은 기계번역 성능을 낼 수 있음을 보인다. 실험결과 병렬 말뭉치 필터링을 거친 사전학습모델이 그렇지 않은 모델보다 더 좋은 성능을 보였다. 본 실험결과를 통해 데이터의 양보다 데이터의 질을 고려하는 것이 중요함을 보이고, 해당 프로세스를 통해 추후 말뭉치 구축에 있어 하나의 가이드라인으로 활용될 수 있음을 보였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Graduate School > Department of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.