메뉴 건너뛰기


Computer Science > Language Processing


우선 다음의 Site에 가셔서 다운로드 받으십시오.
 
 
소스를 다운 받으시려면 mecab-0.95.tar.gz를 다운 받으시고....
MeCab을 정상적으로 사용하기 위해서는 일어 사전이 필요한데 mecab-ipadic-2.7.0-20060707.tar.gz 파일을 다운 받으셔서 컴파일하여 사용하면 됩니다.
 
컴파일하기 귀찮거나 어려울 것 같다면 그리고 Windows에서만 사용하시려면 mecab-0.95.exe를 다운 받아서 그냥 설치하십시오. 이 파일 안에는 사전도 컴파일 되어 함께 들어 있습니다.
 
C언어 외의 스크립트 언어(Java, Perl, Ruby, Python)에서 사용하실려면 해당 파일을 추가로 다운 받아 사용하 실 수 있습니다. 여기서는 C언어로만 사용하는 것을 이야기 하도록 하겠습니다.
 
우선 소스를 컴파일 하려면 g++이 필요하며 libiconv 라이브러리가 설치되어 있어야 합니다.
 
다음과 같은 방법으로 우선 MeCab소스를 컴파일 하고 설치합니다.
 

 % tar zxfv mecab-0.95.tar.gz
 % cd mecab-0.95
 % ./configure 
 % make
 % make check
 % su
 # make install

 
만약 mecab이 사용하는 사전과 입력을 UTF8 문자 코드만을 사용하는 경우 ./configure명령 수행시 다음과 같이 하여 생성되는 바이러리를 좀 더 작고 빠르게 만들 수 있습니다.
 
./configure --enable-utf8-only
 
 
그리고 사전을 다음과 같이 컴파일하고 설치합니다. (단, 문자 코드를 EUC-JP로 사용하고 싶은 경우)
 
 % tar zxfv mecab-ipadic-2.7.0-20060707.tar.gz
 % cd mecab-ipadic-2.7.0-20060707
 % ./configure
 % make
 % su
 # make install
 
EUC-JP가 아닌 SHIFT_JIS나 UTF8로 사전을 컴파일 하고 싶은 경우 configure명령 수행시 다음과 같이 사용하고 싶은 문자 코드를 지정합니다.
 
./configure --with-charset=sjis
혹은
./configure --with-charset=utf8
 
특정 문자코드로 컴파일된 사전이라 하더라도 mecab에서 제공하는 mecab-dict-index툴을 사용하여 다른 문자코드로 쉽게 변환 할 수 있습니다.
 
다음은 EUC-JP로 컴파일 된 사전을 UTF8로 변환하는 예입니다.
 
% cd mecab-ipadic-2.7.0-20060707
% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
# make install 
 
위와 같은 과정에 의해 mecab은 기볹적으로 /usr/local/libexec/mecab이라는 디렉토리에 설치되게 되며 사전은 /usr/loca/libexec/mecab/dic/ipadic에 설치되게 됩니다.
 
사전으로 ipadic만 사용할 수 있는 것은 아니며 필요한 형식을 갖춘 사전이라면 다른 것도 가능합니다.
 
MeCab 홈페이지에서는 이미 mecab-jumandic-5.1-20070304.tar.gz 이라는 juman사전을 다운 받을 수 있게 해 주고 있습니다. 또한 Canna 사전도 공개할 예정이라고 합니다.
 
이 게시물에 언급한 파일들을 첨부파일로 올려 놓습니다.
 
하지만 최신버전의 확인 차 실제 URL에 가셔서 다운 받으시기 바랍니다. 

Creative Commons License
Creative Commons License이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-동일조건변경허락 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
Copyright 조희창(Nicholas Jo). Some rights reserved. http://bbs.nicklib.com