최소거리법과 기계학습법에 의한 한국어 텍스트의 저자 판별Author Identification of Korean Texts by Minimum Distance and Machine Learning
- Other Titles
- Author Identification of Korean Texts by Minimum Distance and Machine Learning
- Authors
- 金明哲; 허명회
- Issue Date
- 2012
- Publisher
- 한국조사연구학회
- Keywords
- quantitative analysis of text corpus; author identification; minimum distance method; machine learning.; quantitative analysis of text corpus; author identification; minimum distance method; machine learning.; 코퍼스의 계량적 분석; 저자 판별; 최소거리법; 기계학습법
- Citation
- 조사연구, v.13, no.3, pp.175 - 190
- Indexed
- KCI
OTHER
- Journal Title
- 조사연구
- Volume
- 13
- Number
- 3
- Start Page
- 175
- End Page
- 190
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/110821
- ISSN
- 1229-9219
- Abstract
- 본 논문은 2개 코퍼스(A, B)의 문자와 기호, 어절, 형태소 태그, 형태소를 단위로 한 n-gram 통계 데이터를 5개의 거리 함수(유클리드 거리, 카이제곱 거리, 가중 유클리드 거리, 코사인 거리, 대칭적 Kullback-Leibler 거리)와 3개의 기계학습법(K-NN, SVM, RF)으로 분석한 한국어 텍스트 저자 판별의 실증적 연구결과를 보고한다. 연구의 결과, SVM(support vector machine)과 RF(random forests)의 판별율이 높았고 코퍼스 A는 최고 98%, 코퍼스 B는 몇 개의 방법이 완벽한 판별율을 기록하였다. 5개 거리 함수 중에서는 가중 유클리드 거리와 대칭적 Kullback-Leibler 거리가 나머지 거리 함수들에 비해 좋은 결과를 보였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - College of Political Science & Economics > Department of Statistics > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.