Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구

Full metadata record
DC Field Value Language
dc.contributor.author김진성-
dc.contributor.author김경민-
dc.contributor.author손준영-
dc.contributor.author박정배-
dc.contributor.author임희석-
dc.date.accessioned2022-03-11T14:41:01Z-
dc.date.available2022-03-11T14:41:01Z-
dc.date.created2022-01-20-
dc.date.issued2021-
dc.identifier.issn2233-4890-
dc.identifier.urihttps://scholar.korea.ac.kr/handle/2021.sw.korea/138598-
dc.description.abstract효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 자모 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.-
dc.languageKorean-
dc.language.isoko-
dc.publisher한국융합학회-
dc.title한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구-
dc.title.alternativeA Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks-
dc.typeArticle-
dc.contributor.affiliatedAuthor임희석-
dc.identifier.doi10.15207/JKCS.2021.12.12.039-
dc.identifier.bibliographicCitation한국융합학회논문지, v.12, no.12, pp.39 - 47-
dc.relation.isPartOf한국융합학회논문지-
dc.citation.title한국융합학회논문지-
dc.citation.volume12-
dc.citation.number12-
dc.citation.startPage39-
dc.citation.endPage47-
dc.type.rimsART-
dc.identifier.kciidART002787030-
dc.description.journalClass2-
dc.description.journalRegisteredClasskci-
dc.subject.keywordAuthorLinguistic segmentation-
dc.subject.keywordAuthorNatural language processing-
dc.subject.keywordAuthorPre-trained language model-
dc.subject.keywordAuthorSentence classification-
dc.subject.keywordAuthorTokenization-
dc.subject.keywordAuthorWord classification-
dc.subject.keywordAuthor단어 분류-
dc.subject.keywordAuthor문장 분류-
dc.subject.keywordAuthor사전학습 언어모델-
dc.subject.keywordAuthor언어학적 분절-
dc.subject.keywordAuthor자연어 처리-
dc.subject.keywordAuthor토큰화-
Files in This Item
There are no files associated with this item.
Appears in
Collections
Graduate School > Department of Computer Science and Engineering > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE