Scrapyでデータの保存をmongodbにしてみる(Scrapy その4)

★関連記事
CentOS環境の python3.6(pyenv環境)で Scrapy を利用してみる(Scrapy その1)
Scrapyでデータ取得でクローリングで取得したURLから検索する(Scrapy その2)
CentOS7でscrapy-splashを使ってJavaScriptの解析(Scrapy その3)
CentOS7でscrapy-splashを使ってJavaScriptの解析 その2(Scrapy その5)

Scrapyでデータの保存先をmongodbにしてみます。

mongodbのインストールはこちらから。
CentOS7系でmongodb4.0のインストール

scrapyでmongodbを接続するのに便利なライブラリをインストールします。

 

設定は「settings.py」に以下を設定するだけとなります。

 

この設定だけで結果の保存をmongodbに実施してくれます。

Scrapyの設定はシンプルに実施しています。

 

 

こちらでscapyを起動します。

 

無事以下のような行のログが出ています。

 

折角なので結果をmongodb側で確認してみます。

 

無事登録されていました。

この状態だと複数のデータを入れてしまうため、URLなどで一意のキーを設定し、ユニークインデックスを設定することでデータの重複などを防ぐこともできます。

 

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

関連記事

  1. オープンソース全文検索サーバーの「Fess」をCentOS7にインスト…

  2. ZABBIXのアラートをSlackに飛ばす

  3. CentOS7系でmongodb4.0のインストール

  4. DockerでRails5.2の環境を構築する その1

  5. CentOS7にLAMP環境(PHP7.2)のインストール

  6. AWS CLIのインストールについて(Ubuntu 16.04.4)