MeCab: Yet Another Part-of-Speech and Morphological Analyzer

$Id: index.html 119 2007-03-11 15:17:23Z taku-ku $;

MeCab ( È­Æ÷¹«) (ÀÌ)¶õ

MeCab ÇÏ ÄìÅä ´ëÇÐ Á¤º¸ Çבּ¸°ú-ÀϺ» Àü½ÅÀüÈ­ ÁÖ½Äȸ»ç Ä¿¹Â´ÏÄÉÀÌ¼Ç °úÇÐ ±âÃÊ ¿¬±¸¼Ò °øµ¿ ¿¬±¸ À¯´Ö ÇÁ·ÎÁ§Æ® (À»)¸¦ ÅëÇؼ­ °³¹ßµÈ ¿ÀÇ ¼Ò½º ÇüÅÂ¼Ò Çؼ® ¿£ÁøÀÔ´Ï´Ù. ¾ð¾î, »çÀü, ÄÚÆĽº¿¡ ÀÇÁ¸ÇÏÁö ¾Ê´Â ¹ü¿ëÀûÀÎ ¼³°è¸¦ ±âº»¹æħÀ¸·Î ÇÏ°í ÀÖ½À´Ï´Ù. ÆĶó¹ÌÅÍÀÇ ÃßÁ¤¿¡ Conditional Random Fields (CRF) (À»)¸¦ ¿ë ÀÖ°í ÀÖ¾î, ChaSen ÇÏÁö¸¸ ä¿ëÇÏ°í ÀÖ´Ù ¼û¾î ¸¶¸£ÄÚÈĸ𵨿¡ ºñÇØ ¼º´ÉÀÌ Çâ»óÇÏ°í ÀÖ½À´Ï´Ù.¶Ç, Æò±ÕÀûÀ¸·Î ChaSen, Juman, KAKASI º¸´Ù °í¼ÓÀ¸·Î µ¿ÀÛÇÕ´Ï´Ù. µ¡ºÙ¿©¼­ È­Æ÷¹«( °ÇϺÎ) ÇÏ, ÀÛÀÚÀÇ ÁÁ¾ÆÇÏ´Â °ÍÀÔ´Ï´Ù.

¸ñÂ÷

Ư¡

ºñ±³

MeCab ChaSen JUMAN KAKASI
Çؼ® ¸ðµ¨ bi-gram ¸¶¸£ÄÚÈĸ𵨠°¡º¯Àå ¸¶¸£ÄÚÈĸ𵨠bi-gram ¸¶¸£ÄÚÈĸ𵨠ÃÖÀå ÀÏÄ¡
ÄÚ½ºÆ® ÃßÁ¤ ÄÚÆĽº·ÎºÎÅÍ ÇнÀ ÄÚÆĽº·ÎºÎÅÍ ÇнÀ ÀÏ¼Õ ÄÚ½ºÆ®¶ó°í ÇÏ´Â °³³ä ¾øÀ½
ÇнÀ ¸ðµ¨ CRF ( ½Äº° ¸ðµ¨) HMM ( »ý¼º ¸ðµ¨)
»çÀüã±â ¾Ë°í¸®Áò Double Array Double Array ÆÄÆ®¸®½Ã¾Æ¸ñ Hash?
ÇØŽ»ö ¾Ë°í¸®Áò Viterbi Viterbi Viterbi °áÁ¤Àû?
¿¬Á¢Ç¥ÀÇ ½ÇÀå 2 Â÷¿ø Table ÀÚµ¿ ÀåÄ¡ 2 Â÷¿ø Table? ¿¬Á¢Ç¥ ¾øÀ½?
Ç°»çÀÇ °èÃþ ¹«Á¦ÇÑ´Ù°èÃþ Ç°»ç ¹«Á¦ÇÑ´Ù°èÃþ Ç°»ç 2 ´Ü°è °íÁ¤ Ç°»ç¶ó°í ÇÏ´Â °³³ä ¾øÀ½?
¹ÌÁö¾î ó¸® ÀÚÁ¾ ( µ¿ÀÛ Á¤ÀǸ¦ º¯°æ °¡´É) ÀÚÁ¾ ( º¯°æ ºÒ°¡´É) ÀÚÁ¾ ( º¯°æ ºÒ°¡´É)
Á¦¾à ´ÙÇØ Çؼ® °¡´É 2.4.0 ±×¸®°í °¡´É ºÒ°¡´É ºÒ°¡´É
N-best ÇØ °¡´É ºÒ°¡´É ºÒ°¡´É ºÒ°¡´É

MeCab ¿¡ À̸£±â±îÁöÀÇ ÇüÅÂ¼Ò Çؼ®±â °³¹ßÀÇ ¿ª»çµîÀº ÀÌÂÊ (À»)¸¦ ºÁ ÁÖ¼¼¿ä

¸ÞÀϸµ ¸®½ºÆ®

½ÅÂø Á¤º¸

´Ù¿î·Îµå

ÀνºÅç

UNIX

Windows

¹ÙÀ̳ʸ®¸¦ ÀνºÅç ÇÏ´Â °æ¿ì´Â, ÀÚ±â Çص¿ ÀνºÅç·¯ (mecab-X.X.exe) (À»)¸¦ ½ÇÇàÇØ ÁÖ¼¼¿ä. »çÀüµµ µ¿½Ã¿¡ ÀνºÅç µË´Ï´Ù.

»ç¿ë¹ý

¿ì¼± Çؼ®ÇØ º»´Ù

mecab (À»)¸¦ ±âµ¿ÇØ, »ý¹®À» Ç¥ÁØ ÀÔ·ÂÀ¸·ÎºÎÅÍ ÀÔ·ÂÇØ º¸¼¼¿ä.MeCab ±×·³, ÀÏÇàÀϹ®À» ÀüÁ¦·Î Çؼ­ Çؼ®À» ÇàÇÕ´Ï´Ù.

% mecab

Àڵεµ ¸ð¸ðµµ ¸ð¸ðÀÇ Áý

ÀڵΠ 
¸í»ç,
ÀϹÝ,*,*,*,*,
ÀÚµÎ,
ÀÚµÎ,
ÀÚµÎ

µµ      
Á¶»ç,
°èÁ¶»ç,*,*,*,*,
µµ,
¸ð,
¸ð

¸ð¸ð    
¸í»ç,
ÀϹÝ,*,*,*,*,
¸ð¸ð,
º¹¼þ¾Æ,
º¹¼þ¾Æ

µµ      
Á¶»ç,
°èÁ¶»ç,*,*,*,*,
µµ,
¸ð,
¸ð

¸ð¸ð    
¸í»ç,
ÀϹÝ,*,*,*,*,
¸ð¸ð,
º¹¼þ¾Æ,
º¹¼þ¾Æ

ÀÇ      
Á¶»ç,
¿¬Ã¼È­,*,*,*,*,
ÀÇ,
³ë,
³ë

Áý    
¸í»ç,
ºñÀÚ¸³,
ºÎ»ç °¡´É,*,*,*,
Áý,
¾È,
¾È
EOS

Ãâ·Â Æ÷¸ËÀº, ChaSen ÀÇ ±×°Í°ú Å©°Ô ´Ù¸¨´Ï´Ù. ¿ÞÂÊ¿¡¼­,

Ç¥ÃþÇüt
Ç°»ç,
Ç°»ç ¼¼ºÐ·ù1,
Ç°»ç ¼¼ºÐ·ù2,
Ç°»ç ¼¼ºÐ·ù3,
È°¿ëÇü,
È°¿ëÇü,
¿øÇü,
Àбâ,
¹ßÀ½

µÇ°í ÀÖ½À´Ï´Ù.

Àμö¿¡ ÆÄÀÏÀ» ÁÖ¸é, ±× ÆÄÀÏÀÌ Çؼ® ´ë»óÀÌ µË´Ï´Ù. ¶Ç, -o ¿É¼Ç¿¡¼­, ´Ù¸¥ ÆÄÀÏ¿¡ °á°ú¸¦ Ãâ·ÂÇÏ´Â °Íµµ °¡´ÉÇÕ´Ï´Ù.

% mecab INPUT -o OUTPUT

¿ø½Â¸® ¾²±â¸¦ ÇÑ´Ù

ÀÌÇÏ¿Í °°ÀÌ -O ¿É¼ÇÀ» »ç¿ëÇÕ´Ï´Ù.

% mecab -O wakati

Ÿ·Î´Â ÀÌ Ã¥À» Áö·Î¿ì¸¦ º» ¿©¼º¿¡°Ô °Ç³×ÁÖ¾ú´Ù.

Ÿ·Î 
ÇÏ 
ÀÌ 
º» 
(À»)¸¦ 
Áö·Î¿ì 
(À»)¸¦ 
ºÁ 
 
¿©¼º 
¿¡ 
Àεµ 
 
.

Ãâ·Â Æ÷¸ËÀÇ º¯°æ

ÀÌÇÏ¿Í °°ÀÌ -O ¿É¼ÇÀ» »ç¿ëÇÕ´Ï´Ù.

% mecab -Oyomi (
¿ä¹Ì ºÎ¿©)
% mecab -Ochasen (ChaSen
ȣȯ)
% mecab -Odump (
ÀüÁ¤º¸¸¦ Ãâ·Â)

ÀÌ·¯ÇÑ Ãâ·Â Æ÷¸ËÀº, /usr/local/lib/mecab/ipadic/dicrc ¿¡ Á¤Àǵǰí ÀÖ½À´Ï´Ù. ÇÑÃþ ´õ, À¯Àú°¡ ÀÌ·¯ÇÑ Æ÷¸ËÀ» ÀÚÀ¯·Ó°Ô Á¤ÀÇÇÏ´Â °ÍÀÌ °¡´ÉÇÕ´Ï´Ù. ÀÌÂÊ (À»)¸¦ ºÁ ÁÖ¼¼¿ä.

°íµµÀÇ »ç¿ë¹ý

¹®ÀÚ ÄÚµå º¯°æ

ƯÈ÷ ÁöÁ¤ÇÏÁö ¾Ê´Â ÇÑ, euc ÇÏÁö¸¸ »ç¿ëµË´Ï´Ù. ¸¸¾à, shift-jis (ÀÌ)³ª utf8 (À»)¸¦ »ç¿ëÇÏ°í ½ÍÀº °æ¿ì´Â, »çÀüÀÇ configure ¿É¼Ç¿¡¼­ charset (À»)¸¦ º¯°æÇØ, »çÀüÀ» À籸Ãà ÇØ ÁÖ¼¼¿ä. ÀÌ°ÍÀ¸·Î, shift-jis (ÀÌ)³ª, utf8 ÀÇ »çÀüÀÌ ÀÛ¼ºµË´Ï´Ù.

% tar zxfv mecab-ipadic-2.7.0-xxxx
% cd mecab-ipadic-2.7.0-xxxx
% ./configure --with-charset=sjis
% make

% tar zxfv mecab-ipadic-2.7.0-xxxx
% ./configure --with-charset=utf8
% make

¶Ç, mecab-dict-index ÀÇ -t ¿É¼ÇÀ» »ç¿ëÇØ Á÷Á¢ ¹®ÀÚ Äڵ尡 ´Ù¸£´Ù »çÀüÀ» À籸Ãà ÇÒ ¼ö ÀÖ½À´Ï´Ù. -f ¿É¼ÇÀº ¿À¸®Áö³¯ÀÇ ÅؽºÆ® »çÀüÀÇ ¹®ÀÚ ÄÚµåÀÔ´Ï´Ù.

% cd mecab-ipadic-2.7.0-xxxx
% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
# make install

UTF-8 only mode

configure option ±×¸®°í --enable-utf8-only (À»)¸¦ ÁöÁ¤Çϸé. MeCab ÇÏÁö¸¸ Ãë±ÞÇÑ´Ù ¹®ÀÚ Äڵ带 utf8 ¿¡ °íÁ¤ÇÕ´Ï´Ù. euc-jp (ÀÌ)³ª shift-jis (À»)¸¦ ¼­Æ÷Æ®ÇÏ´Â °æ¿ì, MeCab ³»ºÎ¿¡ º¯È¯¿ëÀÇ Å×À̺íÀ» ¹¯¾î ³Ö½À´Ï´Ù. --enable-utf8-only (À»)¸¦ ÁöÁ¤ÇÏ´Â °ÍÀ¸·Î Å×À̺íÀÌ ¹¯¾î Æ÷ÇÔÀ» ¾ïÁ¦ÇØ, °á°úÀûÀ¸·Î ½ÇÇà ¹ÙÀ̳ʸ®¸¦ ÀÛ°Ô ÇÒ ¼ö ÀÖ½À´Ï´Ù.

¹ÌÁö¾î ÃßÁ¤

MeCab ÇÏ, »çÀü¿¡ ´Ü¾î°¡ ¹Ìµî·ÏÀÇ °æ¿ì¿¡¼­µµ Àû´çÇÏ°Ô ±× Ç°»ç¸¦ ÃßÁ¤ÇÕ´Ï´Ù.

È£¸®¿¡¸ó½Ã

È£¸®¿¡¸ó      
¸í»ç,
°íÀ¯ ¸í»ç,
Áö¿ª,
ÀϹÝ,*,*,*

½Ã      
¸í»ç,
Á¢¹Ì,
Áö¿ª,*,*,*,
½Ã,
½Ã,
½Ã
EOS

È£¸®¿¡¸ó¾¾

È£¸®¿¡¸ó      
¸í»ç,
°íÀ¯ ¸í»ç,
Àθí,
ÀϹÝ,*,*,*

¾¾    
¸í»ç,
Á¢¹Ì,
Àθí,*,*,*,
¾¾,
Ȑ,
Ȑ

´Ù¸¸, ±× Á¤µµ´Â Á¤È®ÇÏÁö´Â ¾Ê½À´Ï´Ù. Ç°»ç ÃßÁ¤À» ±×¸¸µÎ¾î, ¹ÌÁö¾î´Â Ç×»ó " ¹ÌÁö¾î" Ç°»ç¸¦ Ãâ·ÂÇÏ°í ½ÍÀº °æ¿ì´Â -x (--unk-feature) ¿É¼ÇÀ» »ç¿ëÇÕ´Ï´Ù. ¿É¼ÇÀ¸·Î ÁöÁ¤µÈ ¹®ÀÚ¿­ÀÌ Ç°»ç·Î¼­ »ç¿ëµË´Ï´Ù.

%mecab --unk-feature "
¹ÌÁö¾î" 

È£¸®¿¡¸ó¾¾

È£¸®¿¡¸ó      
¹ÌÁö¾î

¾¾    
¸í»ç,
Á¢¹Ì,
Àθí,*,*,*,
¾¾,
Ȑ,
Ȑ

N-Best ÇØÀÇ Ãâ·Â

-N #NUM ¿É¼ÇÀ» »ç¿ëÇÏ´Â °ÍÀ¸·Î, È®½ÇÇÑ °Í °°Àº °ÍÀ¸·ÎºÎÅÍ#NUM °³Çؼ® °á°ú¸¦ Ãâ·Â ÇÕ´Ï´Ù. ÀÌ·ÐÀûÀ¸·Î´Â ¸ðµç °¡´ÉÇÑ Çؼ®Çظ¦ Ãâ·ÂÇÏ´Â °ÍÀÌ °¡´ÉÇÕ´Ï´Ù¸¸, Ãâ·Â ¹öÆÛÀÇ ±ÕÇüÀ¸·ÎºÎÅÍ, -N ÀÇ ÃÖ´ëÄ¡¸¦ 512 ¿¡ Á¦ÇÑÇÏ°í ÀÖ½À´Ï´Ù.

% mecab -N2

¿À´Ãµµ ÇÏÁö ¾ÊÀ¸¸é.

¿À´Ã    
¸í»ç,
ºÎ»ç °¡´É,*,*,*,*,
¿À´Ã,
Äì¿ì,
Äì

µµ      
Á¶»ç,
°èÁ¶»ç,*,*,*,*,
µµ,
¸ð,
¸ð

ÇØ      
µ¿»ç,
ÀÚ¸³,*,*,
»çÇà º¯°ÝÈ°¿ë¡¤¼ú,
¹Ì¿¬Çü,
ÇÑ´Ù,
½Ã,
½Ã

¾ø´Ù    
Á¶µ¿»ç,*,*,*,
Ư¼ö¡¤³ªÀÌ,
±âº»Çü,
¾ø´Ù,
³ªÀÌ,
³ªÀÌ

(¿Í)°ú      
Á¶»ç,
Á¢¼Ó Á¶»ç,*,*,*,*,
(¿Í)°ú,
Æ®,
Æ®

±×·±µ¥      
Á¶»ç,
Á¾Á¶»ç,*,*,*,*,
±×·±µ¥,
³×,
³×

.      
±âÈ£,
±¸µÎÁ¡,*,*,*,*,
.,
.,
.
EOS

¿À´Ã    
¸í»ç,
ºÎ»ç °¡´É,*,*,*,*,
¿À´Ã,
Äì¿ì,
Äì

¸¸¾à    
ºÎ»ç,
ÀϹÝ,*,*,*,*,
¸¸¾à,
¸ð½Ã,
¸ð½Ã

¾ø´Ù    
Çü¿ë»ç,
ÀÚ¸³,*,*,
Çü¿ë»ç¡¤¾Æ¿ö´Ü,
±âº»Çü,
¾ø´Ù,
³ªÀÌ,
³ªÀÌ

(¿Í)°ú      
Á¶»ç,
Á¢¼Ó Á¶»ç,*,*,*,*,
(¿Í)°ú,
Æ®,
Æ®

±×·±µ¥      
Á¶»ç,
Á¾Á¶»ç,*,*,*,*,
±×·±µ¥,
³×,
³×

.      
±âÈ£,
±¸µÎÁ¡,*,*,*,*,
.,
.,
.
EOS

»ç·Ê

CRF ÀÇ ÆĶó¹ÌÅÍ ÃßÁ¤¿¡ Jorge Nocedal ¾¾°¡ °í¾È Çß´Ù L-BFGS (¿Í)°ú µ¿¾¾°¡ °ø°³ÇÏ°í ÀÖ´Ù FORTRAN ½ÇÀåÀ» »ç¿ëÇÏ°Ô ÇØÁÖ°í ÀÖ½À´Ï´Ù.°¨»çÇÕ´Ï´Ù.

http://www.ece.northwestern.edu/nocedal/lbfgs.html


$Id: index.html 119 2007-03-11 15:17:23Z taku-ku $;