메뉴 건너뛰기


Computer Science > Language Processing

Japanese 일본어 처리시 고려해야 할 사항

2013.11.29 00:43

푸우 조회 수:14667

 
1. 일본 문자들의 정렬
 
- 히라가나와 카타가나는 가나 음절의 순서로 정렬된다.
- 영문 글자들은 알파벳순으로 정렬될 것이다. 대문자와 소문자 간의 구별을 하지 않는다.
- 숫자들은 내림차순으로 정렬된다. (?)
- 반각과 전각 문자들과 심볼문자들을 구별하지 않는다.
- 그밖의 칸지(한자)와 심볼 등등은 그들의 Shift-JIS 코드들의 순서로 정렬된다.
- 장모음(ー)은 앞 음절의 모음과 같이 취급한다. 예를 들어 “データベース(데-타베-스)”는 “データベース(데에타베에스)”로 취급한다.
- 반복 기호(々)는 선행문자와 같은 것으로 취급한다. 예를 들어 " :namespace prefix = v /> :namespace prefix = o />"은 " ".으로 취급한다.
- 탁음(Voiced), 청음(unvoiced)은 다음의 순서로 정렬된다. : 청음(unvoiced), 탁음(Voiced), 반탁음(semi-voiced)
- 히라가나와 전각 가타가나 그리고 반각 가타가나는 구별하지 않는다.


 
 
Creative Commons License
Creative Commons License이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-동일조건변경허락 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
Copyright 조희창(Nicholas Jo). Some rights reserved. http://bbs.nicklib.com
  
번호 제목 글쓴이 날짜 조회 수
33 가타가나, 히라가나 표 file 푸우 2013.11.28 32355
32 일본어 코드 변환(EUC, JIS, Shift-Jis) 푸우 2013.11.28 26784
31 3장. 윈도우즈(C++)에서 문자열 사용법 1부(_bstr_t, _variant_t, CComBSTR) 푸우 2013.11.29 25923
30 2장. 윈도우즈(C/C++)에서 문자열 사용법(BSTR, VARIANT) 푸우 2013.11.29 21833
29 한글 한자 변환용 코드 테이블 file 푸우 2013.11.29 19176
28 한글 초성 추출 프로그램 file 푸우 2013.11.29 17366
27 WIN32 API로 Shift-JIS ==> Unicode 푸우 2013.11.28 17300
26 1장. 윈도우즈(VC++)에서 문자열 타입 및 문자코드 변환 file 푸우 2013.11.29 16923
25 다국어 스태밍 라이브러리 snowball file 푸우 2013.11.29 15754
24 불규칙 동사표 file 푸우 2013.11.29 15172
23 3장. 윈도우즈(C++)에서 문자열 사용법 2부(basic_string, CString) 푸우 2013.11.29 15161
22 초성검색시 자음을 연달아 입력시 문제점 file 푸우 2013.11.29 15018
» 일본어 처리시 고려해야 할 사항 [1] file 푸우 2013.11.29 14667
20 한글 초성 추출을 위한 기초 자료 file 푸우 2013.11.29 14366
19 한국어의 Soundex 연구 file 푸우 2013.11.29 13630
18 한글 맞춤법(1988) 규정, 1995년 수정판 색인 file 푸우 2013.12.30 12148
17 UTF 코드 간의 변환 file 푸우 2013.11.28 11606
16 일본어 Soundex를 위한 기초 자료 file 푸우 2013.11.29 11521
15 A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia file 푸우 2013.11.29 10862
14 ICU(International Components for Unicode) file 푸우 2013.11.27 10781