Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

최소거리법과 기계학습법에 의한 한국어 텍스트의 저자 판별Author Identification of Korean Texts by Minimum Distance and Machine Learning

Other Titles
Author Identification of Korean Texts by Minimum Distance and Machine Learning
Authors
金明哲허명회
Issue Date
2012
Publisher
한국조사연구학회
Keywords
quantitative analysis of text corpus; author identification; minimum distance method; machine learning.; quantitative analysis of text corpus; author identification; minimum distance method; machine learning.; 코퍼스의 계량적 분석; 저자 판별; 최소거리법; 기계학습법
Citation
조사연구, v.13, no.3, pp.175 - 190
Indexed
KCI
OTHER
Journal Title
조사연구
Volume
13
Number
3
Start Page
175
End Page
190
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/110821
ISSN
1229-9219
Abstract
본 논문은 2개 코퍼스(A, B)의 문자와 기호, 어절, 형태소 태그, 형태소를 단위로 한 n-gram 통계 데이터를 5개의 거리 함수(유클리드 거리, 카이제곱 거리, 가중 유클리드 거리, 코사인 거리, 대칭적 Kullback-Leibler 거리)와 3개의 기계학습법(K-NN, SVM, RF)으로 분석한 한국어 텍스트 저자 판별의 실증적 연구결과를 보고한다. 연구의 결과, SVM(support vector machine)과 RF(random forests)의 판별율이 높았고 코퍼스 A는 최고 98%, 코퍼스 B는 몇 개의 방법이 완벽한 판별율을 기록하였다. 5개 거리 함수 중에서는 가중 유클리드 거리와 대칭적 Kullback-Leibler 거리가 나머지 거리 함수들에 비해 좋은 결과를 보였다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
College of Political Science & Economics > Department of Statistics > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE