scrapy-redisを使って、redisを使ったクローリングを試してみるその２（redisを別サーバーで起動）

ホーム
BLOG
技術ブログ
scrapy-redisを使って、redisを使ったクロ…

技術ブログ
2019.03.26

scrapy-redisを使って、redisを使ったクローリングを試してみるその２（redisを別サーバーで起動）

前回に引き続きscrapy-redisを使ってのクローリングです。

★scrapy-redisを使って、redisを使ったクローリングを試してみるその１（基本的な設定）
https://colabmix.co.jp/tech-blog/scrapy-redis/

前回は単純に同一のサーバーで実施したので、次にredisサーバーを分けてみます。

構成としては以下となります。

ServerA : redisサーバ
ServerB : scrapy-redis

ServerAではredisを外部から利用できるように外部からredisに接続できるように設定します。


# vi /etc/redis.conf
bind 0.0.0.0

#  systemctl restart redis

# vi /etc/redis.conf

bind 0.0.0.0

# systemctl restart redis

redisサーバの方は再起動してテストの開始です。

scrapy-redisから外部のredisサーバに接続

外部のサーバに接続するには、ServerBで「settings.py」に以下の設定を行います。


SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_HOST = 'IPアドレス'
REDIS_PORT = 6379

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_HOST = 'IPアドレス'

REDIS_PORT = 6379

「REDIS_HOST」の設定と「REDIS_PORT」の設定を追加しただけになります。

こちらでServerBでscrapyを起動します。


$ scrapy crawl devcolla
2019-03-26 11:39:39 [scrapy.utils.log] INFO: Scrapy 1.5.2 started (bot: sample_crawler)
2019-03-26 11:39:39 [scrapy.utils.log] INFO: Versions: lxml 4.2.1.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.4.0, w3lib 1.19.0, Twisted 16.2.0, Python 3.6.7 (default, Dec  5 2018, 15:02:05) - [GCC 4.8.5 20150623 (Red Hat 4.8.5-36)], pyOpenSSL 19.0.0 (OpenSSL 1.1.0i  14 Aug 2018), cryptography 2.3.1, Platform Linux-3.10.0-957.10.1.el7.x86_64-x86_64-with-centos-7.6.1810-Core
2019-03-26 11:39:39 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'sample_crawler', 'DUPEFILTER_CLASS': 'scrapy_redis.dupefilter.RFPDupeFilter', 'NEWSPIDER_MODULE': 'sample_crawler.spiders', 'ROBOTSTXT_OBEY': True, 'SCHEDULER': 'scrapy_redis.scheduler.Scheduler', 'SPIDER_MODULES': ['sample_crawler.spiders']}
2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2019-03-26 11:39:39 [devcolla] INFO: Reading start URLs from redis key 'devcolla:start_urls' (batch size: 16, encoding: utf-8
2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2019-03-26 11:39:39 [scrapy.core.engine] INFO: Spider opened
2019-03-26 11:39:39 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

$ scrapy crawl devcolla

2019-03-26 11:39:39 [scrapy.utils.log] INFO: Scrapy 1.5.2 started (bot: sample_crawler)

2019-03-26 11:39:39 [scrapy.utils.log] INFO: Versions: lxml 4.2.1.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.4.0, w3lib 1.19.0, Twisted 16.2.0, Python 3.6.7 (default, Dec 5 2018, 15:02:05) - [GCC 4.8.5 20150623 (Red Hat 4.8.5-36)], pyOpenSSL 19.0.0 (OpenSSL 1.1.0i 14 Aug 2018), cryptography 2.3.1, Platform Linux-3.10.0-957.10.1.el7.x86_64-x86_64-with-centos-7.6.1810-Core

2019-03-26 11:39:39 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'sample_crawler', 'DUPEFILTER_CLASS': 'scrapy_redis.dupefilter.RFPDupeFilter', 'NEWSPIDER_MODULE': 'sample_crawler.spiders', 'ROBOTSTXT_OBEY': True, 'SCHEDULER': 'scrapy_redis.scheduler.Scheduler', 'SPIDER_MODULES': ['sample_crawler.spiders']}

2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.corestats.CoreStats',

'scrapy.extensions.memusage.MemoryUsage',

'scrapy.extensions.logstats.LogStats']

2019-03-26 11:39:39 [devcolla] INFO: Reading start URLs from redis key 'devcolla:start_urls' (batch size: 16, encoding: utf-8

2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',

'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

'scrapy.spidermiddlewares.referer.RefererMiddleware',

'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

'scrapy.spidermiddlewares.depth.DepthMiddleware']

2019-03-26 11:39:39 [scrapy.middleware] INFO: Enabled item pipelines:

[]

2019-03-26 11:39:39 [scrapy.core.engine] INFO: Spider opened

2019-03-26 11:39:39 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

前回と同じで待機の状態になっています。

それではServerAで以下のコマンドを実施します。


$ redis-cli lpush devcolla:start_urls http://developer-collaboration.com/

$ redis-cli lpush devcolla:start_urls http://developer-collaboration.com/

すると、ServerBで以下のような出力が行われました。


2019-03-26 11:31:26 [devcolla] DEBUG: Read 1 requests from 'devcolla:start_urls'
2019-03-26 11:31:29 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://developer-collaboration.com/> (referer: None)
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'Elasticsearchの形態素解析機Sudachiでユーザー辞書（dictionary）の活用',
 'url': 'https://developer-collaboration.com/2019/01/30/elasticsearch-sudachi-user-dictionary/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'Elasticsearchのkuromojiの検索で重要な辞書（dictionary）と類義語（synonym）の設定',
 'url': 'https://developer-collaboration.com/2019/01/30/elasticsearch-kuro-dictionary-synonym/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'CentOS7のPython3でMeCabのmecab-ipadic-neologdのインストールと利用',
 'url': 'https://developer-collaboration.com/2019/01/30/centos7-python3-mecab-ipadic-neologd/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'CentOS7のPython3でJUMAN++のインストールと利用',
 'url': 'https://developer-collaboration.com/2019/01/29/centos7-python3-juman/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'Elasticsearchでエイリアスの作成',
 'url': 'https://developer-collaboration.com/2019/01/29/elasticsearch-aliases/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'CentOS7系の最新版のredisをyumでインストール',
 'url': 'https://developer-collaboration.com/2018/12/20/centos7-redis-install/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'SumEvalというPythonのテキスト評価用のライブラリを試してみた',
 'url': 'https://developer-collaboration.com/2018/12/20/sumeval-python/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'pythonを使ってmongodbの操作',
 'url': 'https://developer-collaboration.com/2018/12/18/python-mongodb1/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'Scrapyでデータの保存をmongodbにして見る（Scrapy その４）',
 'url': 'https://developer-collaboration.com/2018/12/16/scrapy-mongodb4/'}
2019-03-26 11:31:29 [scrapy.core.scraper] DEBUG: Scraped from <200 http://developer-collaboration.com/>
{'title': 'CentOS7系でmongodb4.0のインストール',
 'url': 'https://developer-collaboration.com/2018/12/15/centos7-mongodb4-0-install/'}

2019-03-26 11:31:26 [devcolla] DEBUG: Read 1 requests from 'devcolla:start_urls'

2019-03-26 11:31:29 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://developer-collaboration.com/> (referer: None)