Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

점별 상호정보량을 이용한 LDA 토픽모형 추론Inference of Latent Dirichlet Allocation Topic Model using PMI

Other Titles
Inference of Latent Dirichlet Allocation Topic Model using PMI
Authors
남소희전수영
Issue Date
2019
Publisher
한국자료분석학회
Keywords
텍스트 마이닝; 토픽모형; 잠재 디리클래 할당; 마코브체인 몬테카를로; 점별상호정보.; text mining; topic model; latent Dirichlet allocation; Markov chain Monte Carlo; pointwise mutual information.
Citation
Journal of The Korean Data Analysis Society, v.21, no.6, pp.2789 - 2800
Indexed
KCI
Journal Title
Journal of The Korean Data Analysis Society
Volume
21
Number
6
Start Page
2789
End Page
2800
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/70204
DOI
10.37727/jkdas.2019.21.6.2789
ISSN
1229-2354
Abstract
LDA 토픽모형은 수많은 문서집합 내의 토픽을 추출하는 통계적 모형으로, 하나의 문서를 여러 단어들의 집합으로 간주하며 문서에서 높은 빈도로 동시에 발생하는 단어집합을 추출해주는 클러스터링기법의 일종이다. LDA 모형은 문서집합 내 단어들을 통해서 해당 토픽이 어떤 이슈인지 파악할 수 있으며 토픽들이 문서상에서 어떤 분포를 가지는지 계산할 수 있어 높은 성능과 편의성으로 토픽모형 분야에서 표준적인 방법으로 인식되고 있다. LDA 토픽모형추론을 위한 근사추론 연구는 Bag-of-Word 기반으로 각 단어의 가중치를 동등하게 보아 상대적 중요성을 고려하지 않는다. 본 연구는 단어의 상대적 중요성을 반영한 점별 상호정보량을 이용한 근사적인 사후분포를 이용하고, 사후분포로 부터 표본추출을 위해 깁스내 메트로폴리스-헤스팅스(PWMH-Gibbs) 알고리즘을 이용한 근사추론 방법을 제안하고자 한다. PWMH-Gibbs 알고리즘은 불용어 및 빈번하게 사용되는 단어를 제거하여 LDA 토픽모형의 성능을 향상시킨다. PWMH- Gibbs 알고리즘을 이용한 근사추론 방법은 실 자료 분석을 통해 제안된 방법이 더욱 정확한 결과를 제공하는 우수성을 보여 준다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
Graduate School > Department of Applied Statistics > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE