메뉴 건너뛰기


Computer Science > Language Processing

Korean 한국어의 Soundex 연구

2013.11.29 00:45

푸우 조회 수:12410

한글 SOUNDEX



1. Soundex?

 

  Soundex 발음이 유사한 서로다른 철자의 단어를 그룹화하여 철자 입력 오류를 보정하기 위한 색인시스템으로 초기에는 주로 사람이름을 검색하기 위한 용도로 사용되었으나 인터넷 검색이 활성화되면서 다양한 분야에서 응용되고 있다대표적인 Soundex Appliation “US Bureau of the Censu s” 것이며AT&T Standard soundex algorithm도 있다.

 

2. Basic Algorithm

All Soundex codes have 4 alphanumeric characters [no more, no less]

o        1 Letter , 3 Digits

The Letter of the name is the first character of the Soundex code.

The 3 digits are defined sequentially from the name using the Soundex Key below.

o        Adjacent letters in the name which belong to the same Soundex Key code number are assigned a single digit.

o        If the end of the name is reached prior to filling 3 digits, use zeroes to complete the code.

o        All codes have only 4 characters, even if the name is long enough to yield more.

1

b p f v

2

c s k g j q x z

3

d t

4

l

5

m n

6

r

no code

a e h I o u y w

 

 

3. 한글 Soundex 구현방안

 

   한글 Soundex Code 마찬가지로 1 letter 3digit으로 구성하고 있다영어와는 달리 자소별로 encoding 하는데 자소하나당 4bit 처리하므로 단어의 시작으로부터 7개의 자소에 대해서 encoding된다이때 모든 모음은 encoding대상에서 제외되므로 글자수로 산정하면 평균 4~6글자에 대해서 encoding 이루워지게 된다.

 

Soundex Key

 

Key

Sound

Key

Sound

1

 

2

(종성(종성)

3

4

(종성)

5

6

(초성

7

(초성

8

 

9

a

b

 (종성)

인터넷 – 인너네트

c

(초성)

d

e

(종성(종성)

f

(초성(초성)

0

Not Use

no code

모든 모음

 

예제)

인터네트 -> i2bfb

인터넷 -> i2bfb

 

4. 문제점

 

                  아래의 유형에 대해서는 지원이 안됨.

 

유형1) <(종성)+(초성) : (초성)> 텔레비전 : 테레비젼

유형2) <한자어에서 ’ : ‘’> 진학율 : 진학률

 

Creative Commons License
Creative Commons License이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-동일조건변경허락 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
Copyright 조희창(Nicholas Jo). Some rights reserved. http://bbs.nicklib.com