Scrapyでデータ取得でクローリングで取得したURLから検索する(Scrapy その2) - 株式会社CoLabMix

Scrapyでデータ取得でクローリングで取得したURLから検索する(Scrapy その2)

前回に引き続きてScrapyでのデータの取得です。

★関連記事
CentOS環境の python3.6(pyenv環境)で Scrapy を利用してみる(Scrapy その1)
CentOS7でscrapy-splashを使ってJavaScriptの解析(Scrapy その3)
Scrapyでデータの保存をmongodbにして見る(Scrapy その4)
CentOS7でscrapy-splashを使ってJavaScriptの解析 その2(Scrapy その5)

前回は「startproject」で作成したプロジェクトからデータを取得していただけでしたので、今回は取得したURLにさらに接続してデータの取得を行います。

クローラーっぽい動きになってきます。

まずは今回から複数のページにアクセスするために一度に大量のアクセスを行わないように、一度接続した後に3秒の時間差を置きます。

 

次に本体となる「spiders/devcolla.py」のファイルを編集します。

 

最初の「parse」のyeildの2番目の引数で、「parse_topics」の関数を呼んでいます。

こちらにURLの引数を渡し、新しいクローリングを発生させています。

これで複数のページにクローリングが実施できます。

外部のサイトなどに飛ばないように「allowed_domains」などで対象のドメインを設定して範囲を絞ったっりします。

今回はこんなところまでで。

 

このブログは株式会社CoLabMixによる技術ブログです。

GCP、AWSなどでのインフラ構築・運用や、クローリング・分析・検索などを主体とした開発を行なっています。

Ruby on RailsやDjango、Pythonなどの開発依頼などお気軽にお声がけください。

開発パートナーを増やしたいという企業と積極的に繋がっていきたいです。

お問い合わせやご依頼・ご相談など

    関連記事

    1. Rails5.2.0(Beta)のインストール

    2. CentOS6にZABBIX Agentのインストール

    3. AWS Lambda でS3にファイルがアップロードされたのを検知する…

    4. SumEvalというPythonのテキスト評価用のライブラリを試してみ…

    5. terraformでRDS PROXYの設定

    6. Tableau server運用手順〜外部DBサーバーの連携〜

    最近の記事

    制作実績一覧

    ITシステム開発の開発先・発注先の選び方を見つけるコンシェルジュサービス

    ITシステム開発の開発先・発注先の選び方を見つけるコンシェルジュサービス

    ITクリエイターのための転職・仕事情報サイト

    ITクリエイターのための転職・仕事情報サイト

    SNS分析での転職支援

    SNS分析での転職支援

    受託パートナーのマッチングとSES人材のマッチング

    受託パートナーのマッチングとSES人材のマッチング