Scrapyでデータの保存をmongodbにしてみる(Scrapy その4) - 株式会社CoLabMix

Scrapyでデータの保存をmongodbにしてみる(Scrapy その4)

★関連記事
CentOS環境の python3.6(pyenv環境)で Scrapy を利用してみる(Scrapy その1)
Scrapyでデータ取得でクローリングで取得したURLから検索する(Scrapy その2)
CentOS7でscrapy-splashを使ってJavaScriptの解析(Scrapy その3)
CentOS7でscrapy-splashを使ってJavaScriptの解析 その2(Scrapy その5)

Scrapyでデータの保存先をmongodbにしてみます。

mongodbのインストールはこちらから。
CentOS7系でmongodb4.0のインストール

scrapyでmongodbを接続するのに便利なライブラリをインストールします。

 

設定は「settings.py」に以下を設定するだけとなります。

 

この設定だけで結果の保存をmongodbに実施してくれます。

Scrapyの設定はシンプルに実施しています。

 

 

こちらでscapyを起動します。

 

無事以下のような行のログが出ています。

 

折角なので結果をmongodb側で確認してみます。

 

無事登録されていました。

この状態だと複数のデータを入れてしまうため、URLなどで一意のキーを設定し、ユニークインデックスを設定することでデータの重複などを防ぐこともできます。

 

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

    関連記事

    1. Pythonでのgoogle-cloud-bigqueryライブラリを…

    2. AWSのLambdaでScrapyを動かす その3 - dynamod…

    3. Tableau Hyper API使用例(CSVからHyperへ変換)…

    4. ElasticSearchでjava.lang.OutOfMemory…

    5. CentOS8にML-AskのPythonライブラリのインストール

    6. CentOS7でscrapy-splashを使ってJavaScript…