機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる（mecabを利用）

ホーム
BLOG
技術ブログ
機械学習のfastTextをCentOS7環境のPyth…

技術ブログ
2019.06.13

機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる（mecabを利用）

今回は自然言語解析をfastTextを使って実施してみます。

fastTextはfacebookが公開している自然言語処理用のライブラリで、単語のベクトル化と文章分類を実施します。

ソースコードはこちらになります。
https://github.com/facebookresearch/fastText

fastTextの利用方法は二つあり、「単語表現学習（Word representation learning）」と「文章分類（Text classification）」です。

単語表現学習（Word representation learning）では、単語をひたすら学習させて、似ている単語などを抽出します。

この単語に近いものや、（「国王」－「男」＋「女」＝？）といったアナロジー分析も実施できます。

単語自体の間違いなどの発見などにも利用できます。

UTF-8でエンコードされた文章を「skipgram」で学習させます。

文章分類（Text classification）では分類された文章を学習させます。

文章がどのカテゴリに属するかや、タグの設定、感情分析などで利用されます。

「__label__」のプレフィックスをつけた分類で文章を、「supervised」で学習させます。

どちらも学習時や文章の判定などでは「分かち書きした文章」が必要になります。

そこで今回はmecabのインストールを行い、mecab-ipadic-NEologd辞書を利用してみます。

尚、環境はCentOS7で構築しています。

mecabとmecab-ipadic-NEologdのインストール

インストールについての詳細は以前の記事にあります。

・CentOS7のPython3でMeCabのmecab-ipadic-neologdのインストールと利用
https://colabmix.co.jp/tech-blog/centos7-python3-mecab-ipadic-neologd/

まず、mecabのインストールを行います。

pythonのライブラリも一緒に入れてしまいます。


# rpm -ivh http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm
# yum -y makecache

# yum -y install mecab mecab-ipadic
# yum -y install mecab-devel
# pip install mecab-python3

# rpm -ivh http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm

# yum -y makecache

# yum -y install mecab mecab-ipadic

# yum -y install mecab-devel

# pip install mecab-python3

続いて、mecab-ipadic-NEologdをインストールします。


# cd /usr/local/src
# git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
# cd mecab-ipadic-neologd
# ./bin/install-mecab-ipadic-neologd -n -y

# cd /usr/local/src

# git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

# cd mecab-ipadic-neologd

# ./bin/install-mecab-ipadic-neologd -n -y

上記でインストール完了です。

mecabの標準辞書を変更したい場合は「/etc/mecabrc」に辞書のパスを設定します。


# vi /etc/mecabrc
----------------- 以下を追加
dicdir = /usr/lib64/mecab/dic/mecab-ipadic-neologd
-----------------

# vi /etc/mecabrc

----------------- 以下を追加

dicdir = /usr/lib64/mecab/dic/mecab-ipadic-neologd

-----------------

fastTextのインストール

続いてfastTextのインストールを行います。


# cd /usr/local/src

# git clone https://github.com/facebookresearch/fastText.git
# cd fastText

# mkdir build && cd build && cmake ..
# make && make install

# which fasttext
/usr/local/bin/fasttext

# cd /usr/local/src

# git clone https://github.com/facebookresearch/fastText.git

# cd fastText

# mkdir build && cd build && cmake ..

# make && make install

# which fasttext

/usr/local/bin/fasttext

無事インストールできているのが確認できました。

また、pythonのライブラリもこのタイミングでインストールします。


# cd  /usr/local/src/fastText
# pip install .

# cd /usr/local/src/fastText

# pip install .

こちらで利用環境が整いました。

ソースからpythonのライブラリをインストールしているので、コマンドラインで作成したモデルを利用することができます。

文章分類（Text classification）での分類のテスト

fastTextで分類を行うために文章の教師データの作成を行う必要があります。

今回は「livedoorグルメDataSets」を使ってモデルの作成を行います。

・livedoorグルメDataSets
http://blog.livedoor.jp/techblog/archives/65836960.html


# wget https://github.com/livedoor/datasets/archive/master.zip
# unzip master.zip
# cd datasets-master/
# gzip -d ldgourmet.tar.gz
# tar xvf ldgourmet.tar

# wget https://github.com/livedoor/datasets/archive/master.zip

# unzip master.zip

# cd datasets-master/

# gzip -d ldgourmet.tar.gz

# tar xvf ldgourmet.tar

ここで以下のプログラムで前処理をしつつデータセットの作成を行いました。

前処理はこちらを参考にさせていただきました。

・形態素解析前の日本語文書の前処理 (Python)：け日記
https://ohke.hateblo.jp/entry/2019/02/09/141500


import csv
import MeCab
import neologdn
import re
import emoji

mecab = MeCab.Tagger ('-Owakati -d /usr/lib64/mecab/dic/mecab-ipadic-neologd/')

with open('ratings.csv') as f:
    reader = csv.reader(f)
    next(reader)
    for row in reader:
        label = "__label__{0}".format(row[3])

        ## テキストの前処理
        ## 全角・半角の統一と重ね表現の除去
        text1 = neologdn.normalize(row[9])
        ## URLの除去
        text2 = re.sub(r'https?://[\w/:%#\$&\?\(\)~\.=\+\-]+', '', text1)
        ## 絵文字の除去
        text3 = ''.join(['' if c in emoji.UNICODE_EMOJI else c for c in text2])
        ## 桁区切りの除去と数字の置換
        tmp = re.sub(r'(\d)([,.])(\d+)', r'\1\3', text3)
        text4 = re.sub(r'\d+', '0', tmp)
        # 半角記号の置換
        tmp = re.sub(r'[!-/:-@[-`{-~]', r' ', text4)
        # 全角記号の置換 (ここでは0x25A0 - 0x266Fのブロックのみを除去)
        text5 = re.sub(u'[■-♯]', ' ', tmp)

        text = mecab.parse(text5).rstrip('\n')
        print( label + " , " + text)

import csv

import MeCab

import neologdn

import re

import emoji

mecab = MeCab.Tagger ('-Owakati -d /usr/lib64/mecab/dic/mecab-ipadic-neologd/')

with open('ratings.csv') as f:

reader = csv.reader(f)

next(reader)

for row in reader:

label = "__label__{0}".format(row[3])

## テキストの前処理

## 全角・半角の統一と重ね表現の除去

text1 = neologdn.normalize(row[9])

## URLの除去

text2 = re.sub(r'https?://[\w/:%#\$&\?~\.=\+\-]+', '', text1)

## 絵文字の除去

text3 = ''.join(['' if c in emoji.UNICODE_EMOJI else c for c in text2])

## 桁区切りの除去と数字の置換

tmp = re.sub(r'(\d)([,.])(\d+)', r'\1\3', text3)

text4 = re.sub(r'\d+', '0', tmp)

# 半角記号の置換

tmp = re.sub(r'[!-/:-@[-`{-~]', r' ', text4)

# 全角記号の置換 (ここでは0x25A0 - 0x266Fのブロックのみを除去)

text5 = re.sub(u'[■-♯]', ' ', tmp)

text = mecab.parse(text5).rstrip('\n')

print( label + " , " + text)

できた学習用のファイルはこんな形です。


__label__5 , 名前 は 忘れ まし た が 、 札幌 で 食べ た お 店 より も 、 全然 こっち の 方 が 美味しかっ た ので 、 載せ まし た 。 お 店 も 綺麗 新規 オープン ・ ・ で ランチ は 結構 混ん で い ます 。 個人的 に は ゆったり と 食事 できる ので 夜 の 方 が オススメ です 。 辛さ が 0倍 から 0倍 まで 選べる の も GOOD 、 スープ も 0種類 みたい で 、 友達 は 黄色 が オススメ と 言っ て い まし た が 、 自分 は 赤 の 方 を 食べ まし た 。 かなり 美味しかっ た です 。 店長 も 好感 の もてる お 兄さん でし た 。 駅 近く な ので 一度 お 試し あれ です
__label__1 , 味 的 に は 別 に 取り立て て おいしい と 言う こと も ない 。 けど まずく も ない 。 ギリシア 料理 と いも の 自体 が あまり 特徴 が ない という こと も ある と 思う 。 でも 0 を 付け て しまっ た の は サービス の 悪さ から 。 夜 に 行っ た の です けど 、 何 の 説明 も なく パン を 出さ れ た 。 本当は おかわり自由 らしい けど 、 それ について も 何 も 言っ て くれ なかっ た ので 当然 こちら は 催促 し ない し 、 「 パン の お かわり いかが です か 」 の 一言 も なかっ た 。 女 二人 で 料理 0 品 と ドリンク 0 つづ つ で ￥ 0 って かなり 高い ん じゃ ない 場所 は いい けど 、 かなり 後悔 。 せめて 笑顔 と 最低限 の 説明 は 欲しい ところ 。

__label__5 , 名前は忘れましたが、札幌で食べたお店よりも、全然こっちの方が美味しかったので、載せました。お店も綺麗新規オープン・・でランチは結構混んでいます。個人的にはゆったりと食事できるので夜の方がオススメです。辛さが 0倍から 0倍まで選べるのも GOOD 、スープも 0種類みたいで、友達は黄色がオススメと言っていましたが、自分は赤の方を食べました。かなり美味しかったです。店長も好感のもてるお兄さんでした。駅近くなので一度お試しあれです

__label__1 , 味的には別に取り立てておいしいと言うこともない。けどまずくもない。ギリシア料理といもの自体があまり特徴がないということもあると思う。でも 0 を付けてしまったのはサービスの悪さから。夜に行ったのですけど、何の説明もなくパンを出された。本当はおかわり自由らしいけど、それについても何も言ってくれなかったので当然こちらは催促しないし、「パンのおかわりいかがですか」の一言もなかった。女二人で料理 0 品とドリンク 0 つづつで￥ 0 ってかなり高いんじゃない場所はいいけど、かなり後悔。せめて笑顔と最低限の説明は欲しいところ。

データは「205,833」件ほどあります。

さて、学習用のファイルを「input.txt」として保存します。

モデルの作成とテスト

準備が整いましたのでモデルの作成とテストを行います。

文章分類（Text classification）のモデルの作成は「fasttext supervised」コマンドで行いますが、分類されたモデルファイルで、元の文章がどの程度一致するかの適合率、再現率という値が重要になります。

まず、モデルファイルを作成してみます。


# fasttext supervised -dim 300 -thread 2 -epoch 20 -input input.txt -output model

# fasttext supervised -dim 300 -thread 2 -epoch 20 -input input.txt -output model

こちらでテストを行い、適合率、再現率を確認してみます。


# fasttext test model.bin input.txt
N	205832
P@1	0.599
R@1	0.599

# fasttext test model.bin input.txt

N 205832

P@1 0.599

R@1 0.599

値としては以下の意味になります。

P@1は適合率（fastText により予測されたラベル内で正しいラベルの数）
R@1は再現率（実際のラベルの中で、成功的に予測されたラベルの数）

以下のサイトにもありますように適合率と再現率が高いほど良いモデルと言えます。

・fastText : Tutorials: テキスト分類：PyTorch
http://torch.classcat.com/2018/07/06/fasttext-tutorials-text-classification/

現状、0.6を下回っていてあまり良いモデルとは言えないのでエポックを増やしてモデルの作成とテストを再度行います。


# fasttext supervised -dim 300 -thread 2 -epoch 200 -input input.txt -output model

# fasttext test model.bin input.txt
N	205832
P@1	0.765
R@1	0.765

# fasttext supervised -dim 300 -thread 2 -epoch 200 -input input.txt -output model

# fasttext test model.bin input.txt

N 205832

P@1 0.765

R@1 0.765

適合率、再現率は向上しています。

さらにエポックを増やしてモデルの作成とテストを再度行います。


# fasttext supervised -dim 300 -thread 2 -epoch 2000 -input input.txt -output model

# fasttext test model.bin input.txt
N	205832
P@1	0.91
R@1	0.91

# fasttext supervised -dim 300 -thread 2 -epoch 2000 -input input.txt -output model

# fasttext test model.bin input.txt

N 205832

P@1 0.91

R@1 0.91

実際にはコマンドでかかっている時間もあるのでまとめます。

エポック	適合率、再現率	モデル作成時間
20	0.599	10分11秒
200	0.765	1時間36分1秒
2000	0.91	16時間4分5秒

上記のようにエポックの数を大きくするとモデルの作成に非常に大きな時間がかかっています。

この辺りを調整しながらモデルの作成を実施する必要があります。

尚、コマンドのオプションなどはこちらが参考になります。

・fastTextの実装を見てみた
https://www.slideshare.net/shirakiya/fasttext-71760059

テキスト分類

さて、このモデルを使用して評価を実施します。

評価で使用したプログラムは以下になります。


import fastText as ft
import MeCab
import neologdn
import re
import emoji

mecab = MeCab.Tagger ('-Owakati -d /usr/lib64/mecab/dic/mecab-ipadic-neologd/')
classifier = ft.load_model('./model.bin')

my_text = '''
評価用テキスト
'''


## テキストの前処理
## 全角・半角の統一と重ね表現の除去
text1 = neologdn.normalize(my_text)
## URLの除去
text2 = re.sub(r'https?://[\w/:%#\$&\?\(\)~\.=\+\-]+', '', text1)
## 絵文字の除去
text3 = ''.join(['' if c in emoji.UNICODE_EMOJI else c for c in text2])
## 桁区切りの除去と数字の置換
tmp = re.sub(r'(\d)([,.])(\d+)', r'\1\3', text3)
text4 = re.sub(r'\d+', '0', tmp)
# 半角記号の置換
tmp = re.sub(r'[!-/:-@[-`{-~]', r' ', text4)
# 全角記号の置換 (ここでは0x25A0 - 0x266Fのブロックのみを除去)
text5 = re.sub(u'[■-♯]', ' ', tmp)

text = mecab.parse(text5).rstrip('\n')

estimate = classifier.predict([text], k=2)

print(estimate)

import fastText as ft

import MeCab

import neologdn

import re

import emoji

mecab = MeCab.Tagger ('-Owakati -d /usr/lib64/mecab/dic/mecab-ipadic-neologd/')

classifier = ft.load_model('./model.bin')

my_text = '''

評価用テキスト

'''

## テキストの前処理

## 全角・半角の統一と重ね表現の除去

text1 = neologdn.normalize(my_text)

## URLの除去

text2 = re.sub(r'https?://[\w/:%#\$&\?~\.=\+\-]+', '', text1)

## 絵文字の除去

text3 = ''.join(['' if c in emoji.UNICODE_EMOJI else c for c in text2])

## 桁区切りの除去と数字の置換

tmp = re.sub(r'(\d)([,.])(\d+)', r'\1\3', text3)

text4 = re.sub(r'\d+', '0', tmp)

# 半角記号の置換

tmp = re.sub(r'[!-/:-@[-`{-~]', r' ', text4)

# 全角記号の置換 (ここでは0x25A0 - 0x266Fのブロックのみを除去)

text5 = re.sub(u'[■-♯]', ' ', tmp)

text = mecab.parse(text5).rstrip('\n')

estimate = classifier.predict([text], k=2)

print(estimate)

ここで実際にコメントを入れて評価をするのですが、元のサービスが点数をつける形ではないので、有名な食べログさんのコメントと点数で試してみます。

なんとなく評価がかなり違いそうですが。

最初の文章はこちら。

大好きな鰻やさんです。

美味しい鰻やさんが奈良の方にあると教えてもらって
お邪魔しました。

この鰻やさんにお邪魔するために初めて富雄駅に降りました。

人気店とお伺いしてたので、1時に予約してお邪魔したんですが、ほぼ満席状態でした。

カウンター席に案内されて、鰻重と肝焼きを注文。

鰻重は1尾入って2500円です。
肝焼きは2串で 800円やったかな

鰻1尾でこの値段は驚きです！

まずは肝焼きが来ました。
めっちゃ香ばしくて美味しい〜！

それからしばらくして鰻重が到着！

このお店のご飯は一手間かけてます。

まずは丼にご飯とタレを絡ませてきれいに混ざってからお重にそのご飯を装い直してくれます。空気ぐ含まれるので、ご飯はふわっとしていてタレが染み込んでめちゃくちゃ美味しいです！

まさに無限スパイラルです。
そこにのせられた香ばしく焼き上げた鰻は本当にお箸が止まりません！

このお店の山椒がまた鰻にあう！
今日も美味しいご馳走をありがとうございました！

点数は「4.0」でした。

さて、試してみると。


# python3.6 ./test.py
([['__label__5', '__label__4']], array([[0.77460986, 0.22519936]]))

# python3.6 ./test.py

([['__label__5', '__label__4']], array([[0.77460986, 0.22519936]]))

より「5」のラベルに近い数値が出ました。

次です。

まず、ここはデートではいけません。笑
アル中に近い呑んべい女子、以外は立ち寄れません。

いつ行っても、おっさん、男だからです！
女子トイレってあるのか？笑

DISってるわけではないです（笑）
ここの魅力だからです。

野郎だらけの徹マンの前に寄ったり
飲み会の朝帰りに寄ったり
用途は様々。安いですしね。

1品300円ちょい。
マクドナルド感覚で寄れちゃう居酒屋さん。
これからも利用させて頂きますね〜

点数は「2.3」でした。

さて、試してみると。


# python3.6 ./test.py
([['__label__3', '__label__4']], array([[0.85430491, 0.14571451]]))

# python3.6 ./test.py

([['__label__3', '__label__4']], array([[0.85430491, 0.14571451]]))

4よりの「3」のラベルの数値になっております。

さて最後に。

土曜日のお昼時に来店。
運良くお客さんが帰るタイミングだったのか、6.7人並んでいましたが、それほど待たずに
席につくことができました。

ただ、入り口のなんとも言えない席でしたが。笑
できれば奥がよかった。

ランチメニューをみて、彼女はヘルシープレート？的な奴を
私はグリーンカレーと辛いヌードルの奴を。

待っている間に周りを見渡すと、女子会ばかり。。
男同士では、まず入れないですね。

ちょっと待っていると到着。
彼女のも私のも構成は似ていて、
メインがあって、パクチーのサラダがある感じ。
私は、パクチー好きなので、とてもいい感じ♪
彼女は嫌いなので、ちょっといやそうでしたね笑
よくパクチー嫌いなのにタイ料理好きと言えるなと思う笑

私のグリーンカレーはそこそこの辛さ。
味はシンプルで美味しいです。
もう少し辛くてもいいかも。
グリーンカレーがそれほどでもなかったので、
トムヤムクンのヌードルは完全に油断しましたが、
なかなかの辛さ。というか結構辛いです。
苦手な方は注意が必要。

とは言え、具沢山でプレートの上に様々メニューが乗っているので、
最後まで楽しめます。
もう少し安ければ、普段から行きたいですね〜〜

点数は「3.8」です。

さて、試してみると。


# python3.6 ./test.py
([['__label__3', '__label__4']], array([[0.92572951, 0.07428543]]))

# python3.6 ./test.py

([['__label__3', '__label__4']], array([[0.92572951, 0.07428543]]))

4よりの「3」のラベルの数値でした。

まぁなんとなくそれっぽい数値が出るようなので検証は実施できたということで。

ある程度の前処理とテストでより精度の高いモデルと使ったデータの検証ができそうです。

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

制作実績一覧

PAGE TOP