자질 보강과 양방향 LSTM-CNN-CRF 기반의 한국어 개체명 인식 모델Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation
- Other Titles
- Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation
- Authors
- 이동엽; 유원희; 임희석
- Issue Date
- 2017
- Publisher
- 한국융합학회
- Keywords
- Named Entity Recognition; Natural Language Processing; Deep Learning; Feature Augmentation; 개체명 인식; 자연어 처리; 딥러닝; 자질 보강
- Citation
- 한국융합학회논문지, v.8, no.12, pp.55 - 62
- Indexed
- KCI
- Journal Title
- 한국융합학회논문지
- Volume
- 8
- Number
- 12
- Start Page
- 55
- End Page
- 62
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/85751
- DOI
- 10.15207/JKCS.2017.8.12.055
- ISSN
- 2233-4890
- Abstract
- 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식을 하기위한 전통적인 연구방법으로는 hand-craft된 자질(feature)을 기반으로 모델을 학습하는 통계 기반의 모델이 있다. 최근에는 딥러닝 기반의 RNN(Recurrent Neural Networks), LSTM(Long-short Term Memory)과 같은 모델을 이용하여 문장을 표현하는 자질을 구성하고 이를 개체명 인식과 같이 순서 라벨링(sequence labeling) 문제 해결에 이용한 연구가 제안되었다. 본 연구에서는 한국어 개체명 인식 시스템의 성능 향상을 위해, end-to-end learning 방식이 가능한 딥러닝 기반의 모델에 미리 구축되어 있는 hand-craft된 자질이나 품사 태깅 정보 및 기구축 사전(lexicon) 정보를 추가로 활용하여 자질을 보강(augmentation)하는 방법을 제안한다. 실험 결과 본 논문에서 제안하는 방법에 따라 자질을 보강한 한국어 개체명 인식 시스템의 성능 향상을 확인하였다. 또한 본 연구의 결과를 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통해 공개하였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Graduate School > Department of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.