Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩Utilizing Local Bilingual Embeddings on Korean-English Law Data

Other Titles
Utilizing Local Bilingual Embeddings on Korean-English Law Data
Authors
최순영Andrew Stuart Matteson임희석
Issue Date
2018
Publisher
한국융합학회
Keywords
이중 언어 워드 임베딩; 자연어처리; 영역 특수적; 법률 영역; 단어집; 반지도 학습; 단락 정렬; 단어 유사도; skip-gram; 로컬 임베딩; Bilingual word embedding; natural language processing; domain-specific; law domain; dictionary seed; semi-supervised training; paragraph-aligned; word similarity; skip-gram; local embedding
Citation
한국융합학회논문지, v.9, no.10, pp.45 - 53
Indexed
KCI
Journal Title
한국융합학회논문지
Volume
9
Number
10
Start Page
45
End Page
53
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/79018
DOI
10.15207/JKCS.2018.9.10.045
ISSN
2233-4890
Abstract
최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
Graduate School > Department of Computer Science and Engineering > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE