CentOS7のPython3でJUMAN++のインストールと利用 - 株式会社CoLabMix

CentOS7のPython3でJUMAN++のインストールと利用

Python3で形態素解析を行えるツールの「JUMAN++」のインストールを行います。

Pythonで形態素解析といえば「Janome」や「MeCab」が有名ですが、そちらに比べ単語の並びの意味的な自然さを考慮した解析を行います。

開発は「京都大学の黒橋・河原研究室」で行われています。
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++

今回はCentOS7のpython3.6の環境に導入を行なっています。

尚、インストールにあたっては以下を参考にさせていただきました。

★Python3からJUMAN++を使う@CentOS7
https://umiushizn.blogspot.com/2017/09/python3jumancentos7_9.html

 

インストールの準備

インストールにあたっては「gcc」と「c++」が必要になります。

 

Boost C++ Libraries のインストール

また、インストールにあたっては「Boost C++」が必要になります。

cpuのコア数を確認し、インストール時にj4オプション(コア数に応じて数を変更)をつけないと軽くはまります。

 

JUMAN++のインストール

インストールはソースから以下のように実施します。

 

無事インストールできたらテストを行います。

はい。無事「人参」というキーワードで分かれずに「外国」「人」「参政」「権」というキーワードで分かれてますね。

 

Python環境のインストール

さて、無事コマンドから利用できたところでPython環境のインストールを行います。

 

それではサンプルのファイルを準備します。

 

それでは実行してみます。

先ほどのコマンドと結果は変わらないです。

形態素解析も複数ありますが、それぞれ性能も異なり結果も随分変わってきます。

辞書などによっても結果は変わってきますので、こちらは用途によってで。

今回はこの辺で。

 

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

     

     

    関連記事

    1. Tableau Serverで基本的なチャートの作成(前編)

    2. Elasticsearch 6 を使ったデータ検証 その4(チュートリ…

    3. RedHatLinux8でのxfsdumpを使ったRDXへのフルバック…

    4. CentOS7にSwaggerのインストール

    5. Ajax での複数項目の JSON ファイルの取得と読み込みについて

    6. python-twitterのライブラリを使用して、pythonでtw…