漢字結構情報를 이용한 漢字檢索 시스템 연구The Study of Ideographic Characters Searching System, Using IDS(Ideographic Description Sequence)
- Other Titles
- The Study of Ideographic Characters Searching System, Using IDS(Ideographic Description Sequence)
- Authors
- 신상현
- Issue Date
- 2008
- Publisher
- 국어문학회
- Keywords
- 한자검색 시스템; 한자결구; 결구형태; 한자분해; 한자조합; 한자결구정보 데이터베이스; Ideographic Characters Searching System; IDS(Ideographic Description Sequence); IDC(Ideographic Description Characters); Ideographic Characters analysis; Ideographic Characters union; IDS Database; Ideographic Characters Searching System; IDS(Ideographic Description Sequence); IDC(Ideographic Description Characters); Ideographic Characters analysis; Ideographic Characters union; IDS Database
- Citation
- 국어문학, v.44, no.1, pp.55 - 88
- Indexed
- KCI
OTHER
- Journal Title
- 국어문학
- Volume
- 44
- Number
- 1
- Start Page
- 55
- End Page
- 88
- URI
- https://scholar.korea.ac.kr/handle/2021.sw.korea/125002
- ISSN
- 1229-3946
- Abstract
- 이 논문은 현대 漢字學의 構形學 이론에서 제시하고 있는 漢字結構와 한자의 分解와 組合에 대한 이론을 바탕으로 한자검색 시스템을 연구한 것이다. 한자는 일정한 結構에 의하여 일정한 개수의 部件으로 분해할 수 있으며, 분해된 부건은 이미 알고 있는 특정 한자[부수자 포함]일 수도 있고, 의미를 가지지 않는 하나의 필획일 수도 있다. 그리고 이렇게 분해된 부건을 구조적으로 데이터베이스화하며, 이 데이터베이스를 이용하여 자음과 자의를 모르는 한자를 분해된 부건의 組合만으로 편리하게 검색할 수 있다.이와 같은 이론적 근거를 바탕으로 한자의 部件과 부호화된 조합 규칙인 結構形態를 이용하여 모든 한자를 구조적으로 데이터베이스화하며, 이를 ‘漢字結構情報 데이터베이스’로 정의한다. 데이터베이스 구축에는 몇 가지 원칙을 적용하였는데, ① 데이터베이스 구축 범위는 유니코드에 등록된 한자 74,474자로 하고, ② 모든 한자를 부수자[변형된 部首字 포함]를 포함하여 字音과 字義를 가지는 하나 이상 N개의 部件으로 분해하며, ③ 부건은 기본 운영체계에서 한글 음가로 입력 가능한 유니코드 Ext.A 영역의 한자까지로 제한하며, ④ ‘[心], [川], [乙], [牛]’ 등과 같이 변형된 部首字인 경우에만 별도의 입력창을 통해 입력한다. 이상과 같은 방식으로 구성된 한자결구정보 데이터베이스를 바탕으로 한자검색 시스템을 구축할 수 있는데, ① 검색하고자 하는 한자를 구성하는 최소한 하나 이상의 부건과 결구형태를 입력하는 부분과, ② 입력 요청된 결구정보를 분석하는 부분, ③ 한자를 구성하는 부건을 결구형태와 함께 구조화한 한자결구정보 데이터베이스 부분, ④ 한자결구정보 데이터베이스로부터 검색 결과를 출력하는 부분으로 구성된다.이렇게 구성된 한자검색 시스템은 ① 검색하고자 하는 한자를 구성하는 최소한 하나 이상의 부건과 결구형태를 입력하는 제1단계, ② 입력 요청된 결구정보를 분석하여 검색용 결구형태 정보로 변경하거나 결구형태 정보를 분리하는 제2단계, ③ 분석된 결구형태 정보를 바탕으로 SQL문을 생성하여 데이터베이스에 질의(Query)를 하는 제3단계, ④ 데이터베이스로부터 질의 결과를 받아 부수와 획수 순으로 정렬하여 복수 개의 한자를 화면상에 출력하는 제4단계로 검색을 진행한다.이 한자검색 모델은 한자의 字音과 字義를 정확하게 모르더라도 기본적인 한자의 분해와 조합에 대한 개념만 알고 있으면, 손쉽게 한자를 검색할 수 있는 것이 특징이다. 이러한 특징으로 인해 신출한자를 비롯하여 異體字簡體字略字, 또는 草書나 古漢字 등과 같이 표준 코드체계에 등록되지 않는 비표준한자를 이미지 형태로 데이터베이스화한 자료로부터 원하는 한자를 검색하는 데에 유용하게 이용할 수 있을 것이다. 뿐만 아니라 한자의 조합에 의한 폰트 제작 시스템이나 전자사전, 그리고 한자 입력기와 같은 각종 소프트웨어에도 응용할 수 있을 것이다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Associate Research Center > Research Institute of Korean Studies > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.