Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

한국어 인공신경망 기계번역의 서브 워드 분절 연구 및 음절 기반 종성 분리 토큰화 제안Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables

Other Titles
Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables
Authors
어수경박찬준문현석임희석
Issue Date
2021
Publisher
한국융합학회
Keywords
Machine Translation; Preprocessing; Subword Tokenization; Subword; Deep Learning; Convergence; 기계번역; 전처리; 서브 워드 분절; 서브 워드; 딥러닝; 융합
Citation
한국융합학회논문지, v.12, no.3, pp.1 - 7
Indexed
KCI
Journal Title
한국융합학회논문지
Volume
12
Number
3
Start Page
1
End Page
7
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/129868
DOI
10.15207/JKCS.2021.12.3.001
ISSN
2233-4890
Abstract
인공신경망 기계번역(Neural Machine Translation, NMT)은 한정된 개수의 단어만을 번역에 이용하기 때문에 사전에 등록되지 않은 단어들이 입력으로 들어올 가능성이 있다. 이러한 Out of Vocabulary(OOV) 문제를 완화하고자 고안된 방법이 서브 워드 분절(Subword Tokenization)이며, 이는 문장을 단어보다 더 작은 서브 워드 단위로 분할하여 단어를 구성하는 방법론이다. 본 논문에서는 일반적인 서브 워드 분절 알고리즘들을 다루며, 나아가 한국어의 무한한 용언 활용을 잘 다룰 수 있는 사전을 만들기 위해 한국어의 음절 중 종성을 분리하여 서브 워드 분절을 학습하는 새로운 방법론을 제안한다. 실험결과 본 논문에서 제안하는 방법론이 기존의 서브 워드 분리 방법론보다 높은 성능을 거두었다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
Graduate School > Department of Computer Science and Engineering > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE