Scrapyでデータの保存をmongodbにしてみる(Scrapy その4) - 株式会社CoLabMix

Scrapyでデータの保存をmongodbにしてみる(Scrapy その4)

★関連記事
CentOS環境の python3.6(pyenv環境)で Scrapy を利用してみる(Scrapy その1)
Scrapyでデータ取得でクローリングで取得したURLから検索する(Scrapy その2)
CentOS7でscrapy-splashを使ってJavaScriptの解析(Scrapy その3)
CentOS7でscrapy-splashを使ってJavaScriptの解析 その2(Scrapy その5)

Scrapyでデータの保存先をmongodbにしてみます。

mongodbのインストールはこちらから。
CentOS7系でmongodb4.0のインストール

scrapyでmongodbを接続するのに便利なライブラリをインストールします。

 

設定は「settings.py」に以下を設定するだけとなります。

 

この設定だけで結果の保存をmongodbに実施してくれます。

Scrapyの設定はシンプルに実施しています。

 

 

こちらでscapyを起動します。

 

無事以下のような行のログが出ています。

 

折角なので結果をmongodb側で確認してみます。

 

無事登録されていました。

この状態だと複数のデータを入れてしまうため、URLなどで一意のキーを設定し、ユニークインデックスを設定することでデータの重複などを防ぐこともできます。

 

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

関連記事

  1. CentOS7 + Apache2.4 を 無料 の SSL 「Let…

  2. WordPress導入手順

  3. Django2.1.1 を使ってログインを実装する

  4. さくらVPS の CentOS7 サーバに Elasticsearch…

  5. CentOS6 + Apache2 を無料のSSL「Let’…

  6. Firefoxの「RESTClient」からPOSTの値の送信