以前、 LMDE 2 上で Ruby を使って形態素解析 MeCab をする方法を紹介しました。
今回は Python で形態素解析 MeCab を使用してみましたので、その記録です。
0. 前提条件
- LMDE 3 (Linux Mint Debian Edition 3; 64bit) での作業を想定。(Ubuntu, Debian でも同様)
- ソースをビルドしてインストールした Python 3.7.0 での作業を想定。
- RAM 容量が充分にあること。(最低:1.5GB, 推奨:5GB)
- 辞書には、最近の語を網羅している mecab-ipadic-NEologd を使用する。
- 当方、 Python は複数のバージョンの共存環境であり、
python3.7
,pip3.7
で 3.7 系を使用するようにしている。(適宜、置き換えて考えること)
1. MeCab と辞書のインストール
MeCab と辞書(UTF-8)を Synaptic パッケージマネージャか apt-get
等でインストールする。
apt-get
でインストールするなら以下のようにする。
1 2 3 |
|
MeCab 0.996 がインストールできている。
さらに、 mecab-ipadic-NEologd のインストールには git, make, curl, xz-utils, file も必要なので、未インストールならインストールしておく。
2. mecab-ipadic-neologd のインストール
Git リポジトリのクローン。
1
|
|
インストール。(途中、インストールするかどうか問われたら yes
で応答する)
1 2 |
|
インストールディレクトリの確認。(後述のテスト用 Python スクリプト内に設定するもの)
1 2 |
|
その他、コマンドラインオプションの確認は、
1
|
|
3. MeCab 単体での動作確認
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
|
4. mecab-python のインストール
1
|
|
5. テスト用 Python スクリプトの作成
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
|
6. テスト
作成した Python スクリプトを実行して動作を確認してみる。
まず、実行権限を付与。
1
|
|
そして、実行。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
|
問題ないようだ。
ちなみに、出力フォーマットは以下の通り。
1
|
|
※コスト(出現頻度)の取得方法は不明。(現時点)
7. 参考サイト
以上。