메뉴 건너뛰기


Computer Science > Language Processing

Japanese 일본어 처리시 고려해야 할 사항

2013.11.29 00:43

푸우 조회 수:11201

 
1. 일본 문자들의 정렬
 
- 히라가나와 카타가나는 가나 음절의 순서로 정렬된다.
- 영문 글자들은 알파벳순으로 정렬될 것이다. 대문자와 소문자 간의 구별을 하지 않는다.
- 숫자들은 내림차순으로 정렬된다. (?)
- 반각과 전각 문자들과 심볼문자들을 구별하지 않는다.
- 그밖의 칸지(한자)와 심볼 등등은 그들의 Shift-JIS 코드들의 순서로 정렬된다.
- 장모음(ー)은 앞 음절의 모음과 같이 취급한다. 예를 들어 “データベース(데-타베-스)”는 “データベース(데에타베에스)”로 취급한다.
- 반복 기호(々)는 선행문자와 같은 것으로 취급한다. 예를 들어 " :namespace prefix = v /> :namespace prefix = o />"은 " ".으로 취급한다.
- 탁음(Voiced), 청음(unvoiced)은 다음의 순서로 정렬된다. : 청음(unvoiced), 탁음(Voiced), 반탁음(semi-voiced)
- 히라가나와 전각 가타가나 그리고 반각 가타가나는 구별하지 않는다.


 
 
Creative Commons License
Creative Commons License이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-동일조건변경허락 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
Copyright 조희창(Nicholas Jo). Some rights reserved. http://bbs.nicklib.com
  
번호 제목 글쓴이 날짜 조회 수
33 가타가나, 히라가나 표 file 푸우 2013.11.28 28805
32 3장. 윈도우즈(C++)에서 문자열 사용법 1부(_bstr_t, _variant_t, CComBSTR) 푸우 2013.11.29 20713
31 일본어 코드 변환(EUC, JIS, Shift-Jis) 푸우 2013.11.28 19964
30 2장. 윈도우즈(C/C++)에서 문자열 사용법(BSTR, VARIANT) 푸우 2013.11.29 18716
29 한글 한자 변환용 코드 테이블 file 푸우 2013.11.29 15026
28 1장. 윈도우즈(VC++)에서 문자열 타입 및 문자코드 변환 file 푸우 2013.11.29 14014
27 한글 초성 추출 프로그램 file 푸우 2013.11.29 13892
26 불규칙 동사표 file 푸우 2013.11.29 12722
25 3장. 윈도우즈(C++)에서 문자열 사용법 2부(basic_string, CString) 푸우 2013.11.29 12338
24 WIN32 API로 Shift-JIS ==> Unicode 푸우 2013.11.28 12224
23 다국어 스태밍 라이브러리 snowball file 푸우 2013.11.29 11951
22 초성검색시 자음을 연달아 입력시 문제점 file 푸우 2013.11.29 11792
» 일본어 처리시 고려해야 할 사항 [1] file 푸우 2013.11.29 11201
20 한국어의 Soundex 연구 file 푸우 2013.11.29 11032
19 한글 초성 추출을 위한 기초 자료 file 푸우 2013.11.29 10926
18 한글 맞춤법(1988) 규정, 1995년 수정판 색인 file 푸우 2013.12.30 9707
17 일본어 Soundex를 위한 기초 자료 file 푸우 2013.11.29 8905
16 UTF 코드 간의 변환 file 푸우 2013.11.28 8543
15 일본어에서의 조사 푸우 2013.11.28 8107
14 A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia file 푸우 2013.11.29 8054