Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

점별 상호정보량을 이용한 LDA 토픽모형 추론

Full metadata record
DC Field Value Language
dc.contributor.author남소희-
dc.contributor.author전수영-
dc.date.accessioned2021-09-02T00:32:08Z-
dc.date.available2021-09-02T00:32:08Z-
dc.date.created2021-06-17-
dc.date.issued2019-
dc.identifier.issn1229-2354-
dc.identifier.urihttps://scholar.korea.ac.kr/handle/2021.sw.korea/70204-
dc.description.abstractLDA 토픽모형은 수많은 문서집합 내의 토픽을 추출하는 통계적 모형으로, 하나의 문서를 여러 단어들의 집합으로 간주하며 문서에서 높은 빈도로 동시에 발생하는 단어집합을 추출해주는 클러스터링기법의 일종이다. LDA 모형은 문서집합 내 단어들을 통해서 해당 토픽이 어떤 이슈인지 파악할 수 있으며 토픽들이 문서상에서 어떤 분포를 가지는지 계산할 수 있어 높은 성능과 편의성으로 토픽모형 분야에서 표준적인 방법으로 인식되고 있다. LDA 토픽모형추론을 위한 근사추론 연구는 Bag-of-Word 기반으로 각 단어의 가중치를 동등하게 보아 상대적 중요성을 고려하지 않는다. 본 연구는 단어의 상대적 중요성을 반영한 점별 상호정보량을 이용한 근사적인 사후분포를 이용하고, 사후분포로 부터 표본추출을 위해 깁스내 메트로폴리스-헤스팅스(PWMH-Gibbs) 알고리즘을 이용한 근사추론 방법을 제안하고자 한다. PWMH-Gibbs 알고리즘은 불용어 및 빈번하게 사용되는 단어를 제거하여 LDA 토픽모형의 성능을 향상시킨다. PWMH- Gibbs 알고리즘을 이용한 근사추론 방법은 실 자료 분석을 통해 제안된 방법이 더욱 정확한 결과를 제공하는 우수성을 보여 준다.-
dc.languageKorean-
dc.language.isoko-
dc.publisher한국자료분석학회-
dc.title점별 상호정보량을 이용한 LDA 토픽모형 추론-
dc.title.alternativeInference of Latent Dirichlet Allocation Topic Model using PMI-
dc.typeArticle-
dc.contributor.affiliatedAuthor전수영-
dc.identifier.doi10.37727/jkdas.2019.21.6.2789-
dc.identifier.bibliographicCitationJournal of The Korean Data Analysis Society, v.21, no.6, pp.2789 - 2800-
dc.relation.isPartOfJournal of The Korean Data Analysis Society-
dc.citation.titleJournal of The Korean Data Analysis Society-
dc.citation.volume21-
dc.citation.number6-
dc.citation.startPage2789-
dc.citation.endPage2800-
dc.type.rimsART-
dc.identifier.kciidART002545750-
dc.description.journalClass2-
dc.description.journalRegisteredClasskci-
dc.subject.keywordAuthor텍스트 마이닝-
dc.subject.keywordAuthor토픽모형-
dc.subject.keywordAuthor잠재 디리클래 할당-
dc.subject.keywordAuthor마코브체인 몬테카를로-
dc.subject.keywordAuthor점별상호정보.-
dc.subject.keywordAuthortext mining-
dc.subject.keywordAuthortopic model-
dc.subject.keywordAuthorlatent Dirichlet allocation-
dc.subject.keywordAuthorMarkov chain Monte Carlo-
dc.subject.keywordAuthorpointwise mutual information.-
Files in This Item
There are no files associated with this item.
Appears in
Collections
Graduate School > Department of Applied Statistics > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE