CentOS7のPython3でJUMAN++のインストールと利用 - 株式会社CoLabMix

CentOS7のPython3でJUMAN++のインストールと利用

Python3で形態素解析を行えるツールの「JUMAN++」のインストールを行います。

Pythonで形態素解析といえば「Janome」や「MeCab」が有名ですが、そちらに比べ単語の並びの意味的な自然さを考慮した解析を行います。

開発は「京都大学の黒橋・河原研究室」で行われています。
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++

今回はCentOS7のpython3.6の環境に導入を行なっています。

尚、インストールにあたっては以下を参考にさせていただきました。

★Python3からJUMAN++を使う@CentOS7
https://umiushizn.blogspot.com/2017/09/python3jumancentos7_9.html

 

インストールの準備

インストールにあたっては「gcc」と「c++」が必要になります。

 

Boost C++ Libraries のインストール

また、インストールにあたっては「Boost C++」が必要になります。

cpuのコア数を確認し、インストール時にj4オプション(コア数に応じて数を変更)をつけないと軽くはまります。

 

JUMAN++のインストール

インストールはソースから以下のように実施します。

 

無事インストールできたらテストを行います。

はい。無事「人参」というキーワードで分かれずに「外国」「人」「参政」「権」というキーワードで分かれてますね。

 

Python環境のインストール

さて、無事コマンドから利用できたところでPython環境のインストールを行います。

 

それではサンプルのファイルを準備します。

 

それでは実行してみます。

先ほどのコマンドと結果は変わらないです。

形態素解析も複数ありますが、それぞれ性能も異なり結果も随分変わってきます。

辞書などによっても結果は変わってきますので、こちらは用途によってで。

今回はこの辺で。

 

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

     

     

    関連記事

    1. Dockerの基本的な動作(Dockerfileを使わない)

    2. WordPressでRESTAPIを使った画像の投稿と記事の投稿

    3. CentOS7系でmongodb4.0のインストール

    4. terraform構築手順〜EC2編〜

    5. CentOS8 + Apache2.4 を 無料 の SSL 「Let…

    6. AWSのLambdaでScrapyを動かす その1