Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks

Other Titles
A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks
Authors
김진성김경민손준영박정배임희석
Issue Date
2021
Publisher
한국융합학회
Keywords
Linguistic segmentation; Natural language processing; Pre-trained language model; Sentence classification; Tokenization; Word classification; 단어 분류; 문장 분류; 사전학습 언어모델; 언어학적 분절; 자연어 처리; 토큰화
Citation
한국융합학회논문지, v.12, no.12, pp.39 - 47
Indexed
KCI
Journal Title
한국융합학회논문지
Volume
12
Number
12
Start Page
39
End Page
47
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/138598
DOI
10.15207/JKCS.2021.12.12.039
ISSN
2233-4890
Abstract
효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 자모 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
Graduate School > Department of Computer Science and Engineering > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE