BERT 기반의 사전 학습 언어 모형을 이용한 한국어 문서 추출 요약 베이스라인 설계
DC Field | Value | Language |
---|---|---|
dc.contributor.author | 박재언 | - |
dc.contributor.author | 김지호 | - |
dc.contributor.author | 이홍철 | - |
dc.date.accessioned | 2022-09-24T21:40:27Z | - |
dc.date.available | 2022-09-24T21:40:27Z | - |
dc.date.created | 2022-09-23 | - |
dc.date.issued | 2022 | - |
dc.identifier.issn | 1598-8619 | - |
dc.identifier.uri | https://scholar.korea.ac.kr/handle/2021.sw.korea/143929 | - |
dc.description.abstract | 디지털 문서가 기하급수적으로 증가한 현대 사회에서 문서 내 중요한 정보를 효율적으로 획득하는 것은 중요한 요구사항이 되었다. 그러나 방대한 디지털 문서의 양은 개별 문서의 중요 정보를 식별하고 축약하는 데 어려움을 야기하였다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 하지만 벤치마크로 사용하기에 적절한 한국어 문서 데이터의 부재와 베이스라인 없이 문서 요약 연구가 진행되어 발전이 미진한 상황이다. 본 논문에서는 데이터에 대한 검증과 접근성을 충족하고 글의 특성이 다른 두 개의 문서 집합을 선정하였다. BERT 기반의 다국어 및 한국어 사전 학습 언어 모형들을 선정하여 비교 및 실험하였다. 주요 결과로는 한국어 사전 학습 언어 모형이 ROUGE 점수에서 다국어 사전 학습 언어 모형을 능가하였으며, 이에 대한 원인을 추출된 요약 문장의 비율을 통해 분석하였다. | - |
dc.language | Korean | - |
dc.language.iso | ko | - |
dc.publisher | 한국정보기술학회 | - |
dc.title | BERT 기반의 사전 학습 언어 모형을 이용한 한국어 문서 추출 요약 베이스라인 설계 | - |
dc.title.alternative | Designing Baseline for Korean Document Summarizationusing BERT-based Pre-trained Encoder | - |
dc.type | Article | - |
dc.contributor.affiliatedAuthor | 이홍철 | - |
dc.identifier.doi | 10.14801/jkiit.2022.20.6.19 | - |
dc.identifier.bibliographicCitation | 한국정보기술학회논문지, v.20, no.6, pp.19 - 32 | - |
dc.relation.isPartOf | 한국정보기술학회논문지 | - |
dc.citation.title | 한국정보기술학회논문지 | - |
dc.citation.volume | 20 | - |
dc.citation.number | 6 | - |
dc.citation.startPage | 19 | - |
dc.citation.endPage | 32 | - |
dc.type.rims | ART | - |
dc.identifier.kciid | ART002849378 | - |
dc.description.journalClass | 2 | - |
dc.description.journalRegisteredClass | kci | - |
dc.subject.keywordAuthor | deep learning | - |
dc.subject.keywordAuthor | natural language processing | - |
dc.subject.keywordAuthor | Korean document summarization | - |
dc.subject.keywordAuthor | extractive summarization | - |
dc.subject.keywordAuthor | automatic evaluation metric | - |
dc.subject.keywordAuthor | . | - |
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.
145 Anam-ro, Seongbuk-gu, Seoul, 02841, Korea+82-2-3290-2963
COPYRIGHT © 2021 Korea University. All Rights Reserved.
Certain data included herein are derived from the © Web of Science of Clarivate Analytics. All rights reserved.
You may not copy or re-distribute this material in whole or in part without the prior written consent of Clarivate Analytics.