사전학습 언어모델을 활용한 범죄수사 도메인 개체명 인식A Named Entity Recognition Model in Criminal Investigation Domain using Pretrained Language Model
- Other Titles
- A Named Entity Recognition Model in Criminal Investigation Domain using Pretrained Language Model
- Authors
- 김희두; 임희석
- Issue Date
- 2022
- Publisher
- 한국융합학회
- Keywords
- Crime Prevention; Criminal Investigation; Pretrained Language Model; Crime Domain Text; Named Entity Recognition; KoELECTRA; 범죄예방; 범죄수사; 사전학습 언어모델; 범죄 도메인 텍스트; 개체명 인식; KoELECTRA
- Citation
- 한국융합학회논문지, v.13, no.2, pp.13 - 20
- Indexed
- KCI
- Journal Title
- 한국융합학회논문지
- Volume
- 13
- Number
- 2
- Start Page
- 13
- End Page
- 20
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/141140
- DOI
- 10.15207/JKCS.2022.13.02.013
- ISSN
- 2233-4890
- Abstract
- 본 연구는 딥러닝 기법을 활용하여 범죄 수사 도메인에 특화된 개체명 인식 모델을 개발하는 연구이다. 본 연구를 통해 비정형의 형사 판결문·수사 문서와 같은 텍스트 기반의 데이터에서 자동으로 범죄 수법과 범죄 관련 정보를 추출하고 유형화하여, 향후 데이터 분석기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있는 시스템을 제안한다. 본 연구에서는 범죄 수사 도메인 텍스트를 수집하고 범죄 분석의 관점에서 필요한 개체명 분류를 새로 정의하였다. 또한 최근 자연어 처리에서 높은 성능을 보이고 있는 사전학습 언어모델인 KoELECTRA를 적용한 제안 모델은 본 연구에서 정의한 범죄 도메인 개체명 실험 데이터의 9종의 메인 카테고리 분류에서 micro average(이하 micro avg) F1-score 99%, macro average(이하 macro avg) F1-score 96%의 성능을 보이고, 56종의 서브 카테고리 분류에서 micro avg F1-score 98%, macro avg F1-score 62%의 성능을 보인다. 제안한 모델을 통해 향후 개선 가능성과 활용 가능성의 관점에서 분석한다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Graduate School > Department of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.