MeCab: Yet Another Part-of-Speech and Morphological Analyzer

$Id: index.html 119 2007-03-11 15:17:23Z taku-ku $;

MeCab ( 화포무) (이)란

MeCab 하 쿄토 대학 정보 학연구과-일본 전신전화 주식회사 커뮤니케이션 과학 기초 연구소 공동 연구 유닛 프로젝트 (을)를 통해서 개발된 오픈 소스 형태소 해석 엔진입니다. 언어, 사전, 코파스에 의존하지 않는 범용적인 설계를 기본방침으로 하고 있습니다. 파라미터의 추정에 Conditional Random Fields (CRF) (을)를 용 있고 있어, ChaSen 하지만 채용하고 있다 숨어 마르코후모델에 비해 성능이 향상하고 있습니다.또, 평균적으로 ChaSen, Juman, KAKASI 보다 고속으로 동작합니다. 덧붙여서 화포무( 째하부) 하, 작자의 좋아하는 것입니다.

목차

특징

비교

MeCab ChaSen JUMAN KAKASI
해석 모델 bi-gram 마르코후모델 가변장 마르코후모델 bi-gram 마르코후모델 최장 일치
코스트 추정 코파스로부터 학습 코파스로부터 학습 일손 코스트라고 하는 개념 없음
학습 모델 CRF ( 식별 모델) HMM ( 생성 모델)
사전찾기 알고리즘 Double Array Double Array 파트리시아목 Hash?
해탐색 알고리즘 Viterbi Viterbi Viterbi 결정적?
연접표의 실장 2 차원 Table 자동 장치 2 차원 Table? 연접표 없음?
품사의 계층 무제한다계층 품사 무제한다계층 품사 2 단계 고정 품사라고 하는 개념 없음?
미지어 처리 자종 ( 동작 정의를 변경 가능) 자종 ( 변경 불가능) 자종 ( 변경 불가능)
제약 다해 해석 가능 2.4.0 그리고 가능 불가능 불가능
N-best 해 가능 불가능 불가능 불가능

MeCab 에 이르기까지의 형태소 해석기 개발의 역사등은 이쪽 (을)를 봐 주세요

메일링 리스트

신착 정보

다운로드

인스톨

UNIX

Windows

바이너리를 인스톨 하는 경우는, 자기 해동 인스톨러 (mecab-X.X.exe) (을)를 실행해 주세요. 사전도 동시에 인스톨 됩니다.

사용법

우선 해석해 본다

mecab (을)를 기동해, 생문을 표준 입력으로부터 입력해 보세요.MeCab 그럼, 일행일문을 전제로 해서 해석을 행합니다.

% mecab

자두도 모모도 모모의 집

자두  
명사,
일반,*,*,*,*,
자두,
자두,
자두

도      
조사,
계조사,*,*,*,*,
도,
모,
모

모모    
명사,
일반,*,*,*,*,
모모,
복숭아,
복숭아

도      
조사,
계조사,*,*,*,*,
도,
모,
모

모모    
명사,
일반,*,*,*,*,
모모,
복숭아,
복숭아

의      
조사,
연체화,*,*,*,*,
의,
노,
노

집    
명사,
비자립,
부사 가능,*,*,*,
집,
안,
안
EOS

출력 포맷은, ChaSen 의 그것과 크게 다릅니다. 왼쪽에서,

표층형t
품사,
품사 세분류1,
품사 세분류2,
품사 세분류3,
활용형,
활용형,
원형,
읽기,
발음

되고 있습니다.

인수에 파일을 주면, 그 파일이 해석 대상이 됩니다. 또, -o 옵션에서, 다른 파일에 결과를 출력하는 것도 가능합니다.

% mecab INPUT -o OUTPUT

원승리 쓰기를 한다

이하와 같이 -O 옵션을 사용합니다.

% mecab -O wakati

타로는 이 책을 지로우를 본 여성에게 건네주었다.

타로 
하 
이 
본 
(을)를 
지로우 
(을)를 
봐 
 
여성 
에 
인도 
 
.

출력 포맷의 변경

이하와 같이 -O 옵션을 사용합니다.

% mecab -Oyomi (
요미 부여)
% mecab -Ochasen (ChaSen
호환)
% mecab -Odump (
전정보를 출력)

이러한 출력 포맷은, /usr/local/lib/mecab/ipadic/dicrc 에 정의되고 있습니다. 한층 더, 유저가 이러한 포맷을 자유롭게 정의하는 것이 가능합니다. 이쪽 (을)를 봐 주세요.

고도의 사용법

문자 코드 변경

특히 지정하지 않는 한, euc 하지만 사용됩니다. 만약, shift-jis (이)나 utf8 (을)를 사용하고 싶은 경우는, 사전의 configure 옵션에서 charset (을)를 변경해, 사전을 재구축 해 주세요. 이것으로, shift-jis (이)나, utf8 의 사전이 작성됩니다.

% tar zxfv mecab-ipadic-2.7.0-xxxx
% cd mecab-ipadic-2.7.0-xxxx
% ./configure --with-charset=sjis
% make

% tar zxfv mecab-ipadic-2.7.0-xxxx
% ./configure --with-charset=utf8
% make

또, mecab-dict-index 의 -t 옵션을 사용해 직접 문자 코드가 다르다 사전을 재구축 할 수 있습니다. -f 옵션은 오리지날의 텍스트 사전의 문자 코드입니다.

% cd mecab-ipadic-2.7.0-xxxx
% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
# make install

UTF-8 only mode

configure option 그리고 --enable-utf8-only (을)를 지정하면. MeCab 하지만 취급한다 문자 코드를 utf8 에 고정합니다. euc-jp (이)나 shift-jis (을)를 서포트하는 경우, MeCab 내부에 변환용의 테이블을 묻어 넣습니다. --enable-utf8-only (을)를 지정하는 것으로 테이블이 묻어 포함을 억제해, 결과적으로 실행 바이너리를 작게 할 수 있습니다.

미지어 추정

MeCab 하, 사전에 단어가 미등록의 경우에서도 적당하게 그 품사를 추정합니다.

호리에몬시

호리에몬      
명사,
고유 명사,
지역,
일반,*,*,*

시      
명사,
접미,
지역,*,*,*,
시,
시,
시
EOS

호리에몬씨

호리에몬      
명사,
고유 명사,
인명,
일반,*,*,*

씨    
명사,
접미,
인명,*,*,*,
씨,
산,
산

다만, 그 정도는 정확하지는 않습니다. 품사 추정을 그만두어, 미지어는 항상 " 미지어" 품사를 출력하고 싶은 경우는 -x (--unk-feature) 옵션을 사용합니다. 옵션으로 지정된 문자열이 품사로서 사용됩니다.

%mecab --unk-feature "
미지어" 

호리에몬씨

호리에몬      
미지어

씨    
명사,
접미,
인명,*,*,*,
씨,
산,
산

N-Best 해의 출력

-N #NUM 옵션을 사용하는 것으로, 확실한 것 같은 것으로부터#NUM 개해석 결과를 출력 합니다. 이론적으로는 모든 가능한 해석해를 출력하는 것이 가능합니다만, 출력 버퍼의 균형으로부터, -N 의 최대치를 512 에 제한하고 있습니다.

% mecab -N2

오늘도 하지 않으면.

오늘    
명사,
부사 가능,*,*,*,*,
오늘,
쿄우,
쿄

도      
조사,
계조사,*,*,*,*,
도,
모,
모

해      
동사,
자립,*,*,
사행 변격활용·술,
미연형,
한다,
시,
시

없다    
조동사,*,*,*,
특수·나이,
기본형,
없다,
나이,
나이

(와)과      
조사,
접속 조사,*,*,*,*,
(와)과,
트,
트

그런데      
조사,
종조사,*,*,*,*,
그런데,
네,
네

.      
기호,
구두점,*,*,*,*,
.,
.,
.
EOS

오늘    
명사,
부사 가능,*,*,*,*,
오늘,
쿄우,
쿄

만약    
부사,
일반,*,*,*,*,
만약,
모시,
모시

없다    
형용사,
자립,*,*,
형용사·아워단,
기본형,
없다,
나이,
나이

(와)과      
조사,
접속 조사,*,*,*,*,
(와)과,
트,
트

그런데      
조사,
종조사,*,*,*,*,
그런데,
네,
네

.      
기호,
구두점,*,*,*,*,
.,
.,
.
EOS

사례

CRF 의 파라미터 추정에 Jorge Nocedal 씨가 고안 했다 L-BFGS (와)과 동씨가 공개하고 있다 FORTRAN 실장을 사용하게 해주고 있습니다.감사합니다.

http://www.ece.northwestern.edu/nocedal/lbfgs.html


$Id: index.html 119 2007-03-11 15:17:23Z taku-ku $;