한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks
- Other Titles
- A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks
- Authors
- 김진성; 김경민; 손준영; 박정배; 임희석
- Issue Date
- 2021
- Publisher
- 한국융합학회
- Keywords
- Linguistic segmentation; Natural language processing; Pre-trained language model; Sentence classification; Tokenization; Word classification; 단어 분류; 문장 분류; 사전학습 언어모델; 언어학적 분절; 자연어 처리; 토큰화
- Citation
- 한국융합학회논문지, v.12, no.12, pp.39 - 47
- Indexed
- KCI
- Journal Title
- 한국융합학회논문지
- Volume
- 12
- Number
- 12
- Start Page
- 39
- End Page
- 47
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/138598
- DOI
- 10.15207/JKCS.2021.12.12.039
- ISSN
- 2233-4890
- Abstract
- 효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 자모 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Graduate School > Department of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.