Python:MeCab:lxml: クロールして分解

hdknr@deb09:~/curara/tagger$ more test.py
from lxml.html import fromstring
import urllib2
import codecs
#
import MeCab
#
html=urllib2.urlopen('http://d.hatena.ne.jp/hdknr').read()
lx=fromstring(html)
txt=''+lx.text_content()
txt=txt.encode('utf-8')
m=MeCab.Tagger()
ret=m.parseToNode(txt)
n=ret
while(n!=None):
    if len(n.surface) > 0 :
        print n.surface,":",n.feature,":",n.cost
    n=n.next

hdknr@deb09:~/curara/tagger$ python test.py  | more
hdknr : 名詞,固有名詞,組織,*,*,*,* : 12857
の : 助詞,連体化,*,*,*,*,の,ノ,ノ : 13479
はてな : 感動詞,*,*,*,*,*,はてな,ハテナ,ハテナ : 20427
a : 名詞,一般,*,*,*,*,* : 35152
. : 名詞,サ変接続,*,*,*,*,* : 52180
k : 名詞,一般,*,*,*,*,* : 65778
. : 名詞,サ変接続,*,*,*,*,* : 82806
a : 名詞,一般,*,*,*,*,* : 96404
まず : 副詞,一般,*,*,*,*,まず,マズ,マズ : 101596
日刊 : 名詞,一般,*,*,*,*,日刊,ニッカン,ニッカン : 107373
hdknr : 名詞,一般,*,*,*,*,* : 120833
: 記号,一般,*,*,*,*,* : 124252
<!– : 名詞,サ変接続,*,*,*,*,* : 141565
: 記号,一般,*,*,*,*,* : 144962
: 記号,一般,*,*,*,*,* : 151431
–> : 名詞,サ変接続,*,*,*,*,* : 168744
: 記号,一般,*,*,*,*,* : 172141

 
 

カテゴリー: 未分類 パーマリンク

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中