BERT 기반의 사전 학습 언어 모형을 이용한 한국어 문서 추출 요약 베이스라인 설계Designing Baseline for Korean Document Summarizationusing BERT-based Pre-trained Encoder
- Other Titles
- Designing Baseline for Korean Document Summarizationusing BERT-based Pre-trained Encoder
- Authors
- 박재언; 김지호; 이홍철
- Issue Date
- 2022
- Publisher
- 한국정보기술학회
- Keywords
- deep learning; natural language processing; Korean document summarization; extractive summarization; automatic evaluation metric; .
- Citation
- 한국정보기술학회논문지, v.20, no.6, pp.19 - 32
- Indexed
- KCI
- Journal Title
- 한국정보기술학회논문지
- Volume
- 20
- Number
- 6
- Start Page
- 19
- End Page
- 32
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/143929
- DOI
- 10.14801/jkiit.2022.20.6.19
- ISSN
- 1598-8619
- Abstract
- 디지털 문서가 기하급수적으로 증가한 현대 사회에서 문서 내 중요한 정보를 효율적으로 획득하는 것은 중요한 요구사항이 되었다. 그러나 방대한 디지털 문서의 양은 개별 문서의 중요 정보를 식별하고 축약하는 데 어려움을 야기하였다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 하지만 벤치마크로 사용하기에 적절한 한국어 문서 데이터의 부재와 베이스라인 없이 문서 요약 연구가 진행되어 발전이 미진한 상황이다. 본 논문에서는 데이터에 대한 검증과 접근성을 충족하고 글의 특성이 다른 두 개의 문서 집합을 선정하였다. BERT 기반의 다국어 및 한국어 사전 학습 언어 모형들을 선정하여 비교 및 실험하였다. 주요 결과로는 한국어 사전 학습 언어 모형이 ROUGE 점수에서 다국어 사전 학습 언어 모형을 능가하였으며, 이에 대한 원인을 추출된 요약 문장의 비율을 통해 분석하였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - College of Engineering > School of Industrial and Management Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.