$Id: index.html 119 2007-03-11 15:17:23Z taku-ku $;
MeCab ÇÏ ÄìÅä ´ëÇÐ Á¤º¸ Çבּ¸°ú-ÀϺ» Àü½ÅÀüÈ ÁÖ½Äȸ»ç Ä¿¹Â´ÏÄÉÀÌ¼Ç °úÇÐ ±âÃÊ ¿¬±¸¼Ò °øµ¿ ¿¬±¸ À¯´Ö ÇÁ·ÎÁ§Æ® (À»)¸¦ ÅëÇؼ °³¹ßµÈ ¿ÀÇ ¼Ò½º ÇüÅÂ¼Ò Çؼ® ¿£ÁøÀÔ´Ï´Ù. ¾ð¾î, »çÀü, ÄÚÆĽº¿¡ ÀÇÁ¸ÇÏÁö ¾Ê´Â ¹ü¿ëÀûÀÎ ¼³°è¸¦ ±âº»¹æħÀ¸·Î ÇÏ°í ÀÖ½À´Ï´Ù. ÆĶó¹ÌÅÍÀÇ ÃßÁ¤¿¡ Conditional Random Fields (CRF) (À»)¸¦ ¿ë ÀÖ°í ÀÖ¾î, ChaSen ÇÏÁö¸¸ ä¿ëÇÏ°í ÀÖ´Ù ¼û¾î ¸¶¸£ÄÚÈĸ𵨿¡ ºñÇØ ¼º´ÉÀÌ Çâ»óÇÏ°í ÀÖ½À´Ï´Ù.¶Ç, Æò±ÕÀûÀ¸·Î ChaSen, Juman, KAKASI º¸´Ù °í¼ÓÀ¸·Î µ¿ÀÛÇÕ´Ï´Ù. µ¡ºÙ¿©¼ ÈÆ÷¹«( °ÇϺÎ) ÇÏ, ÀÛÀÚÀÇ ÁÁ¾ÆÇÏ´Â °ÍÀÔ´Ï´Ù.
MeCab | ChaSen | JUMAN | KAKASI | |
Çؼ® ¸ðµ¨ | bi-gram ¸¶¸£ÄÚÈĸ𵨠| °¡º¯Àå ¸¶¸£ÄÚÈĸ𵨠| bi-gram ¸¶¸£ÄÚÈĸ𵨠| ÃÖÀå ÀÏÄ¡ |
ÄÚ½ºÆ® ÃßÁ¤ | ÄÚÆĽº·ÎºÎÅÍ ÇнÀ | ÄÚÆĽº·ÎºÎÅÍ ÇнÀ | ÀÏ¼Õ | ÄÚ½ºÆ®¶ó°í ÇÏ´Â °³³ä ¾øÀ½ |
ÇнÀ ¸ðµ¨ | CRF ( ½Äº° ¸ðµ¨) | HMM ( »ý¼º ¸ðµ¨) | ||
»çÀüã±â ¾Ë°í¸®Áò | Double Array | Double Array | ÆÄÆ®¸®½Ã¾Æ¸ñ | Hash? |
ÇØŽ»ö ¾Ë°í¸®Áò | Viterbi | Viterbi | Viterbi | °áÁ¤Àû? |
¿¬Á¢Ç¥ÀÇ ½ÇÀå | 2 Â÷¿ø Table | ÀÚµ¿ ÀåÄ¡ | 2 Â÷¿ø Table? | ¿¬Á¢Ç¥ ¾øÀ½? |
Ç°»çÀÇ °èÃþ | ¹«Á¦ÇÑ´Ù°èÃþ Ç°»ç | ¹«Á¦ÇÑ´Ù°èÃþ Ç°»ç | 2 ´Ü°è °íÁ¤ | Ç°»ç¶ó°í ÇÏ´Â °³³ä ¾øÀ½? |
¹ÌÁö¾î ó¸® | ÀÚÁ¾ ( µ¿ÀÛ Á¤ÀǸ¦ º¯°æ °¡´É) | ÀÚÁ¾ ( º¯°æ ºÒ°¡´É) | ÀÚÁ¾ ( º¯°æ ºÒ°¡´É) | |
Á¦¾à ´ÙÇØ Çؼ® | °¡´É | 2.4.0 ±×¸®°í °¡´É | ºÒ°¡´É | ºÒ°¡´É |
N-best ÇØ | °¡´É | ºÒ°¡´É | ºÒ°¡´É | ºÒ°¡´É |
MeCab ¿¡ À̸£±â±îÁöÀÇ ÇüÅÂ¼Ò Çؼ®±â °³¹ßÀÇ ¿ª»çµîÀº ÀÌÂÊ (À»)¸¦ ºÁ ÁÖ¼¼¿ä
ÀϹÝÀûÀÎ ÇÁ¸® ¼ÒÇÁÆ®¿þ¾î¿Í °°Àº ¼ø¼·Î ÀνºÅç ÇÒ ¼ö ÀÖ½À´Ï´Ù.
% tar zxfv mecab-X.X.tar.gz % cd mecab-X.X % ./configure % make % make check % su # make install
»çÀüÀÇ ÀνºÅç
% tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz % mecab-ipadic-2.7.0-XXXX % ./configure % make % su # make install
¹ÙÀ̳ʸ®¸¦ ÀνºÅç ÇÏ´Â °æ¿ì´Â, ÀÚ±â Çص¿ ÀνºÅç·¯ (mecab-X.X.exe) (À»)¸¦ ½ÇÇàÇØ ÁÖ¼¼¿ä. »çÀüµµ µ¿½Ã¿¡ ÀνºÅç µË´Ï´Ù.
mecab (À»)¸¦ ±âµ¿ÇØ, »ý¹®À» Ç¥ÁØ ÀÔ·ÂÀ¸·ÎºÎÅÍ ÀÔ·ÂÇØ º¸¼¼¿ä.MeCab ±×·³, ÀÏÇàÀϹ®À» ÀüÁ¦·Î Çؼ Çؼ®À» ÇàÇÕ´Ï´Ù.
% mecab Àڵεµ ¸ð¸ðµµ ¸ð¸ðÀÇ Áý ÀڵΠ¸í»ç, ÀϹÝ,*,*,*,*, ÀÚµÎ, ÀÚµÎ, ÀڵΠµµ Á¶»ç, °èÁ¶»ç,*,*,*,*, µµ, ¸ð, ¸ð ¸ð¸ð ¸í»ç, ÀϹÝ,*,*,*,*, ¸ð¸ð, º¹¼þ¾Æ, º¹¼þ¾Æ µµ Á¶»ç, °èÁ¶»ç,*,*,*,*, µµ, ¸ð, ¸ð ¸ð¸ð ¸í»ç, ÀϹÝ,*,*,*,*, ¸ð¸ð, º¹¼þ¾Æ, º¹¼þ¾Æ ÀÇ Á¶»ç, ¿¬Ã¼È,*,*,*,*, ÀÇ, ³ë, ³ë Áý ¸í»ç, ºñÀÚ¸³, ºÎ»ç °¡´É,*,*,*, Áý, ¾È, ¾È EOS
Ãâ·Â Æ÷¸ËÀº, ChaSen ÀÇ ±×°Í°ú Å©°Ô ´Ù¸¨´Ï´Ù. ¿ÞÂÊ¿¡¼,
Ç¥ÃþÇüt Ç°»ç, Ç°»ç ¼¼ºÐ·ù1, Ç°»ç ¼¼ºÐ·ù2, Ç°»ç ¼¼ºÐ·ù3, È°¿ëÇü, È°¿ëÇü, ¿øÇü, Àбâ, ¹ßÀ½
µÇ°í ÀÖ½À´Ï´Ù.
Àμö¿¡ ÆÄÀÏÀ» ÁÖ¸é, ±× ÆÄÀÏÀÌ Çؼ® ´ë»óÀÌ µË´Ï´Ù. ¶Ç, -o ¿É¼Ç¿¡¼, ´Ù¸¥ ÆÄÀÏ¿¡ °á°ú¸¦ Ãâ·ÂÇÏ´Â °Íµµ °¡´ÉÇÕ´Ï´Ù.
% mecab INPUT -o OUTPUT
ÀÌÇÏ¿Í °°ÀÌ -O ¿É¼ÇÀ» »ç¿ëÇÕ´Ï´Ù.
% mecab -O wakati Ÿ·Î´Â ÀÌ Ã¥À» Áö·Î¿ì¸¦ º» ¿©¼º¿¡°Ô °Ç³×ÁÖ¾ú´Ù. Ÿ·Î ÇÏ ÀÌ º» (À»)¸¦ Áö·Î¿ì (À»)¸¦ ºÁ ¿©¼º ¿¡ Àεµ .
ÀÌÇÏ¿Í °°ÀÌ -O ¿É¼ÇÀ» »ç¿ëÇÕ´Ï´Ù.
% mecab -Oyomi ( ¿ä¹Ì ºÎ¿©) % mecab -Ochasen (ChaSen ȣȯ) % mecab -Odump ( ÀüÁ¤º¸¸¦ Ãâ·Â)
ÀÌ·¯ÇÑ Ãâ·Â Æ÷¸ËÀº, /usr/local/lib/mecab/ipadic/dicrc ¿¡ Á¤Àǵǰí ÀÖ½À´Ï´Ù. ÇÑÃþ ´õ, À¯Àú°¡ ÀÌ·¯ÇÑ Æ÷¸ËÀ» ÀÚÀ¯·Ó°Ô Á¤ÀÇÇÏ´Â °ÍÀÌ °¡´ÉÇÕ´Ï´Ù. ÀÌÂÊ (À»)¸¦ ºÁ ÁÖ¼¼¿ä.
ƯÈ÷ ÁöÁ¤ÇÏÁö ¾Ê´Â ÇÑ, euc ÇÏÁö¸¸ »ç¿ëµË´Ï´Ù. ¸¸¾à, shift-jis (ÀÌ)³ª utf8 (À»)¸¦ »ç¿ëÇÏ°í ½ÍÀº °æ¿ì´Â, »çÀüÀÇ configure ¿É¼Ç¿¡¼ charset (À»)¸¦ º¯°æÇØ, »çÀüÀ» À籸Ãà ÇØ ÁÖ¼¼¿ä. ÀÌ°ÍÀ¸·Î, shift-jis (ÀÌ)³ª, utf8 ÀÇ »çÀüÀÌ ÀÛ¼ºµË´Ï´Ù.
% tar zxfv mecab-ipadic-2.7.0-xxxx % cd mecab-ipadic-2.7.0-xxxx % ./configure --with-charset=sjis % make % tar zxfv mecab-ipadic-2.7.0-xxxx % ./configure --with-charset=utf8 % make
¶Ç, mecab-dict-index ÀÇ -t ¿É¼ÇÀ» »ç¿ëÇØ Á÷Á¢ ¹®ÀÚ Äڵ尡 ´Ù¸£´Ù »çÀüÀ» À籸Ãà ÇÒ ¼ö ÀÖ½À´Ï´Ù. -f ¿É¼ÇÀº ¿À¸®Áö³¯ÀÇ ÅؽºÆ® »çÀüÀÇ ¹®ÀÚ ÄÚµåÀÔ´Ï´Ù.
% cd mecab-ipadic-2.7.0-xxxx % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8 # make install
configure option ±×¸®°í --enable-utf8-only (À»)¸¦ ÁöÁ¤Çϸé. MeCab ÇÏÁö¸¸ Ãë±ÞÇÑ´Ù ¹®ÀÚ Äڵ带 utf8 ¿¡ °íÁ¤ÇÕ´Ï´Ù. euc-jp (ÀÌ)³ª shift-jis (À»)¸¦ ¼Æ÷Æ®ÇÏ´Â °æ¿ì, MeCab ³»ºÎ¿¡ º¯È¯¿ëÀÇ Å×À̺íÀ» ¹¯¾î ³Ö½À´Ï´Ù. --enable-utf8-only (À»)¸¦ ÁöÁ¤ÇÏ´Â °ÍÀ¸·Î Å×À̺íÀÌ ¹¯¾î Æ÷ÇÔÀ» ¾ïÁ¦ÇØ, °á°úÀûÀ¸·Î ½ÇÇà ¹ÙÀ̳ʸ®¸¦ ÀÛ°Ô ÇÒ ¼ö ÀÖ½À´Ï´Ù.
MeCab ÇÏ, »çÀü¿¡ ´Ü¾î°¡ ¹Ìµî·ÏÀÇ °æ¿ì¿¡¼µµ Àû´çÇÏ°Ô ±× Ç°»ç¸¦ ÃßÁ¤ÇÕ´Ï´Ù.
È£¸®¿¡¸ó½Ã È£¸®¿¡¸ó ¸í»ç, °íÀ¯ ¸í»ç, Áö¿ª, ÀϹÝ,*,*,* ½Ã ¸í»ç, Á¢¹Ì, Áö¿ª,*,*,*, ½Ã, ½Ã, ½Ã EOS È£¸®¿¡¸ó¾¾ È£¸®¿¡¸ó ¸í»ç, °íÀ¯ ¸í»ç, Àθí, ÀϹÝ,*,*,* ¾¾ ¸í»ç, Á¢¹Ì, Àθí,*,*,*, ¾¾, »ê, »ê
´Ù¸¸, ±× Á¤µµ´Â Á¤È®ÇÏÁö´Â ¾Ê½À´Ï´Ù. Ç°»ç ÃßÁ¤À» ±×¸¸µÎ¾î, ¹ÌÁö¾î´Â Ç×»ó " ¹ÌÁö¾î" Ç°»ç¸¦ Ãâ·ÂÇÏ°í ½ÍÀº °æ¿ì´Â -x (--unk-feature) ¿É¼ÇÀ» »ç¿ëÇÕ´Ï´Ù. ¿É¼ÇÀ¸·Î ÁöÁ¤µÈ ¹®ÀÚ¿ÀÌ Ç°»ç·Î¼ »ç¿ëµË´Ï´Ù.
%mecab --unk-feature " ¹ÌÁö¾î" È£¸®¿¡¸ó¾¾ È£¸®¿¡¸ó ¹ÌÁö¾î ¾¾ ¸í»ç, Á¢¹Ì, Àθí,*,*,*, ¾¾, »ê, »ê
-N #NUM ¿É¼ÇÀ» »ç¿ëÇÏ´Â °ÍÀ¸·Î, È®½ÇÇÑ °Í °°Àº °ÍÀ¸·ÎºÎÅÍ#NUM °³Çؼ® °á°ú¸¦ Ãâ·Â ÇÕ´Ï´Ù. ÀÌ·ÐÀûÀ¸·Î´Â ¸ðµç °¡´ÉÇÑ Çؼ®Çظ¦ Ãâ·ÂÇÏ´Â °ÍÀÌ °¡´ÉÇÕ´Ï´Ù¸¸, Ãâ·Â ¹öÆÛÀÇ ±ÕÇüÀ¸·ÎºÎÅÍ, -N ÀÇ ÃÖ´ëÄ¡¸¦ 512 ¿¡ Á¦ÇÑÇÏ°í ÀÖ½À´Ï´Ù.
% mecab -N2 ¿À´Ãµµ ÇÏÁö ¾ÊÀ¸¸é. ¿À´Ã ¸í»ç, ºÎ»ç °¡´É,*,*,*,*, ¿À´Ã, Äì¿ì, Äì µµ Á¶»ç, °èÁ¶»ç,*,*,*,*, µµ, ¸ð, ¸ð ÇØ µ¿»ç, ÀÚ¸³,*,*, »çÇà º¯°ÝÈ°¿ë¡¤¼ú, ¹Ì¿¬Çü, ÇÑ´Ù, ½Ã, ½Ã ¾ø´Ù Á¶µ¿»ç,*,*,*, Ư¼ö¡¤³ªÀÌ, ±âº»Çü, ¾ø´Ù, ³ªÀÌ, ³ªÀÌ (¿Í)°ú Á¶»ç, Á¢¼Ó Á¶»ç,*,*,*,*, (¿Í)°ú, Æ®, Æ® ±×·±µ¥ Á¶»ç, Á¾Á¶»ç,*,*,*,*, ±×·±µ¥, ³×, ³× . ±âÈ£, ±¸µÎÁ¡,*,*,*,*, ., ., . EOS ¿À´Ã ¸í»ç, ºÎ»ç °¡´É,*,*,*,*, ¿À´Ã, Äì¿ì, Äì ¸¸¾à ºÎ»ç, ÀϹÝ,*,*,*,*, ¸¸¾à, ¸ð½Ã, ¸ð½Ã ¾ø´Ù Çü¿ë»ç, ÀÚ¸³,*,*, Çü¿ë»ç¡¤¾Æ¿ö´Ü, ±âº»Çü, ¾ø´Ù, ³ªÀÌ, ³ªÀÌ (¿Í)°ú Á¶»ç, Á¢¼Ó Á¶»ç,*,*,*,*, (¿Í)°ú, Æ®, Æ® ±×·±µ¥ Á¶»ç, Á¾Á¶»ç,*,*,*,*, ±×·±µ¥, ³×, ³× . ±âÈ£, ±¸µÎÁ¡,*,*,*,*, ., ., . EOS
CRF ÀÇ ÆĶó¹ÌÅÍ ÃßÁ¤¿¡ Jorge Nocedal ¾¾°¡ °í¾È Çß´Ù L-BFGS (¿Í)°ú µ¿¾¾°¡ °ø°³ÇÏ°í ÀÖ´Ù FORTRAN ½ÇÀåÀ» »ç¿ëÇÏ°Ô ÇØÁÖ°í ÀÖ½À´Ï´Ù.°¨»çÇÕ´Ï´Ù.
http://www.ece.northwestern.edu/nocedal/lbfgs.html
$Id: index.html 119 2007-03-11 15:17:23Z taku-ku $;