한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩Utilizing Local Bilingual Embeddings on Korean-English Law Data
- Other Titles
- Utilizing Local Bilingual Embeddings on Korean-English Law Data
- Authors
- 최순영; Andrew Stuart Matteson; 임희석
- Issue Date
- 2018
- Publisher
- 한국융합학회
- Keywords
- 이중 언어 워드 임베딩; 자연어처리; 영역 특수적; 법률 영역; 단어집; 반지도 학습; 단락 정렬; 단어 유사도; skip-gram; 로컬 임베딩; Bilingual word embedding; natural language processing; domain-specific; law domain; dictionary seed; semi-supervised training; paragraph-aligned; word similarity; skip-gram; local embedding
- Citation
- 한국융합학회논문지, v.9, no.10, pp.45 - 53
- Indexed
- KCI
- Journal Title
- 한국융합학회논문지
- Volume
- 9
- Number
- 10
- Start Page
- 45
- End Page
- 53
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/79018
- DOI
- 10.15207/JKCS.2018.9.10.045
- ISSN
- 2233-4890
- Abstract
- 최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Graduate School > Department of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.