Scrapyでデータの保存をmongodbにしてみる(Scrapy その4) - 株式会社CoLabMix

Scrapyでデータの保存をmongodbにしてみる(Scrapy その4)

★関連記事
CentOS環境の python3.6(pyenv環境)で Scrapy を利用してみる(Scrapy その1)
Scrapyでデータ取得でクローリングで取得したURLから検索する(Scrapy その2)
CentOS7でscrapy-splashを使ってJavaScriptの解析(Scrapy その3)
CentOS7でscrapy-splashを使ってJavaScriptの解析 その2(Scrapy その5)

Scrapyでデータの保存先をmongodbにしてみます。

mongodbのインストールはこちらから。
CentOS7系でmongodb4.0のインストール

scrapyでmongodbを接続するのに便利なライブラリをインストールします。

 

設定は「settings.py」に以下を設定するだけとなります。

 

この設定だけで結果の保存をmongodbに実施してくれます。

Scrapyの設定はシンプルに実施しています。

 

 

こちらでscapyを起動します。

 

無事以下のような行のログが出ています。

 

折角なので結果をmongodb側で確認してみます。

 

無事登録されていました。

この状態だと複数のデータを入れてしまうため、URLなどで一意のキーを設定し、ユニークインデックスを設定することでデータの重複などを防ぐこともできます。

 

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

    関連記事

    1. DjangoへWYSIWYGエディターを導入する手順③

    2. Django2.1.1 を使ってログインを実装する

    3. DjangoへWYSIWYGエディターを導入する手順①

    4. terraform構築手順〜EC2編〜

    5. scrapy-redisを使って、redisを使ったクローリングを試…

    6. WordPress導入手順

    最近の記事

    制作実績一覧

    ITシステム開発の開発先・発注先の選び方を見つけるコンシェルジュサービス

    ITシステム開発の開発先・発注先の選び方を見つけるコンシェルジュサービス

    ITクリエイターのための転職・仕事情報サイト

    ITクリエイターのための転職・仕事情報サイト

    SNS分析での転職支援

    SNS分析での転職支援

    受託パートナーのマッチングとSES人材のマッチング

    受託パートナーのマッチングとSES人材のマッチング