2020年9月12日星期六

63B 《零基礎入門學習Python》筆記 第063講:論一隻爬蟲的自我修養11:Scrapy框架之初窺門徑(中)




一切OK了,接下來就是寫我們的代碼了,把它投入到生產線上去實現:

我們退出shell (使用命令exit()),回到我們的CMD,

  1. #CMD窗口
  2. In [48]: exit()
  3. C:\Users\XiangyangDai\Desktop\tutorial>
修改我們的Spider 代碼,也就是 dmoz_spider.py。我們就按剛才從shell 獲得的經驗來寫parse() 函數。
  1. #dmoz_spider.py
  2. import scrapy
  3. class DmozSpider(scrapy.Spider):
  4. name = "dmoz"
  5. allowed_domains = ['dmozdir.org/Category']
  6. start_urls = ['http://www.dmozdir.org/Category/?SmallPath=411']
  7. # 'http://www.dmozdir.org/Category/?SmallPath=411']
  8. def parse(self, response):
  9. titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
  10. links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
  11. decss = response.selector.xpath('//ul/li/p/text()').extract() #描述 decs
  12. if len(titles) == len(links) == len(decss):
  13. for i in range(len(titles)):
  14. print(titles[i], links[i], decss[i])
寫好之後,保存,進入CMD,在tutorial根目錄下執行命令:scrapy crawl dmoz
  1. #CMD窗口
  2. C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz
  3. 2018-12-17 19:32:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
  4. 2018-12-17 19:32:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
  5. 2018-12-17 19:32:48 [scrapy.crawler] INFO: Overridden settings: {'SPIDER_MODULES': ['tutorial.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders'}
  6. 2018-12-17 19:32:48 [scrapy.middleware] INFO: Enabled extensions:
  7. ['scrapy.extensions.telnet.TelnetConsole',
  8. 'scrapy.extensions.corestats.CoreStats',
  9. 'scrapy.extensions.logstats.LogStats']
  10. 2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled downloader middlewares:
  11. ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
  12. 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
  13. 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
  14. 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
  15. 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
  16. 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
  17. 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
  18. 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
  19. 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
  20. 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
  21. 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
  22. 'scrapy.downloadermiddlewares.stats.DownloaderStats']
  23. 2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled spider middlewares:
  24. ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
  25. 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
  26. 'scrapy.spidermiddlewares.referer.RefererMiddleware',
  27. 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
  28. 'scrapy.spidermiddlewares.depth.DepthMiddleware']
  29. 2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled item pipelines:
  30. []
  31. 2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider opened
  32. 2018-12-17 19:32:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
  33. 2018-12-17 19:32:49 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
  34. 2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/robots.txt> (referer: None)
  35. 2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/Category/?SmallPath=230> (referer: None)
  36. 2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/Category/?SmallPath=411> (referer: None)
  37. 中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
  38. 专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
  39. 论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
  40. 河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
  41. 久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
  42. 李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
  43. 笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
  44. 中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
  45. 就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
  46. 新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
  47. 天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
  48. 成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
  49. 情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
  50. 国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
  51. 安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
  52. 聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
  53. 爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
  54. 77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
  55. 东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
  56. 百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
  57. 2018-12-17 19:32:49 [scrapy.core.engine] INFO: Closing spider (finished)
  58. 2018-12-17 19:32:49 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
  59. {'downloader/request_bytes': 698,
  60. 'downloader/request_count': 3,
  61. 'downloader/request_method_count/GET': 3,
  62. 'downloader/response_bytes': 14618,
  63. 'downloader/response_count': 3,
  64. 'downloader/response_status_count/200': 3,
  65. 'finish_reason': 'finished',
  66. 'finish_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 552593),
  67. 'log_count/DEBUG': 4,
  68. 'log_count/INFO': 7,
  69. 'response_received_count': 3,
  70. 'scheduler/dequeued': 2,
  71. 'scheduler/dequeued/memory': 2,
  72. 'scheduler/enqueued': 2,
  73. 'scheduler/enqueued/memory': 2,
  74. 'start_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 93393)}
  75. 2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider closed (finished)
我們就看中間這一部分:
  1. 2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/Category/?SmallPath=230> (referer: None)
  2. 2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/Category/?SmallPath=411> (referer: None)
  3. 中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
  4. 专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
  5. 论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
  6. 河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
  7. 久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
  8. 李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
  9. 笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
  10. 中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
  11. 就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
  12. 新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
  13. 天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
  14. 成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
  15. 情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
  16. 国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
  17. 安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
  18. 聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
  19. 爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
  20. 77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
  21. 东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
  22. 百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
上面的結果沒有錯誤。
這個是爬和取的過程,我們接下來就要使用Items,我們前面說過,Items 是我們自定義的容器,用法和Python的字典是一樣的,我們希望Spider 將爬取然後篩選後的數據存放到Items 容器裡面,我們剛才也在parse 裡寫了篩選出Items 對應的數據的方法了。篩選之後,我希望將它存放到Items 中去。
我們的items.py在tutorial/items.py路徑下,items既是容器,也是一個類,類名我們在這個項目中定義為DmozItem
我們需要把items導入到spider中,才可以使用它,於是,我們在   dmoz_spider.py文件中寫道:

from turtorial.items import DmozItem

  1. #dmoz_spider.py
  2. import scrapy
  3. from tutorial.items import DmozItem
  4. class DmozSpider(scrapy.Spider):
  5. name = "dmoz"
  6. allowed_domains = ['dmozdir.org/Category']
  7. start_urls = ['http://www.dmozdir.org/Category/?SmallPath=230',
  8. 'http://www.dmozdir.org/Category/?SmallPath=411']
  9. def parse(self, response):
  10. titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
  11. links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
  12. descs = response.selector.xpath('//ul/li/p/text()').extract() #描述 desc
  13. items = []
  14. if len(titles) == len(links) == len(descs):
  15. for i in range(len(titles)):
  16. #print(titles[i], links[i], decss[i])
  17. item = DmozItem()
  18. #每一组保存为一个字典
  19. item['title'] = titles[i]
  20. item['link'] = links[i]
  21. item['desc'] = descs[i]
  22. #将每个字典添加到列表中
  23. items.append(item)
  24. return items
然後我們在CMD中,tutorail的根目錄下,執行命令:scrapy crawl dmoz -o items.json -t json
-o 文件名-t 保存形式。
  1. #CMD窗口
  2. C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -o items.json -t json
  3. 2018-12-17 20:49:28 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
  4. 2018-12-17 20:49:28 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
  5. 2018-12-17 20:49:28 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'FEED_URI': 'items.json', 'BOT_NAME': 'tutorial', 'ROBOTSTXT_OBEY': True, 'FEED_FORMAT': 'json'}
  6. 2018-12-17 20:49:28 [scrapy.middleware] INFO: Enabled extensions:
  7. ['scrapy.extensions.feedexport.FeedExporter',
  8. 'scrapy.extensions.corestats.CoreStats',
  9. 'scrapy.extensions.telnet.TelnetConsole',
  10. 'scrapy.extensions.logstats.LogStats']
  11. 2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled downloader middlewares:
  12. ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
  13. 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
  14. 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
  15. 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
  16. 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
  17. 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
  18. 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
  19. 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
  20. 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
  21. 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
  22. 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
  23. 'scrapy.downloadermiddlewares.stats.DownloaderStats']
  24. 2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled spider middlewares:
  25. ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
  26. 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
  27. 'scrapy.spidermiddlewares.referer.RefererMiddleware',
  28. 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
  29. 'scrapy.spidermiddlewares.depth.DepthMiddleware']
  30. 2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled item pipelines:
  31. ['tutorial.pipelines.TutorialPipeline']
  32. 2018-12-17 20:49:29 [scrapy.core.engine] INFO: Spider opened
  33. 2018-12-17 20:49:29 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
  34. 2018-12-17 20:49:29 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
  35. 2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/robots.txt> (referer: None)
  36. 2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/Category/?SmallPath=230> (referer: None)
  37. 2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.dmozdir.org/Category/?SmallPath=411> (referer: None)
  38. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  39. {'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',
  40. 'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',
  41. 'title': '中国论文写发网'}
  42. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  43. {'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',
  44. 'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',
  45. 'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}
  46. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  47. {'desc': '论文天下,免费提供:论文范文,免费论文,论文大全, '
  48. '论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!',
  49. 'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',
  50. 'title': '论文天下'}
  51. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  52. {'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',
  53. 'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',
  54. 'title': '河南教师网'}
  55. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  56. {'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!',
  57. 'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',
  58. 'title': '久久论文检测'}
  59. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  60. {'desc': '高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。',
  61. 'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',
  62. 'title': '李国旺工作室'}
  63. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  64. {'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',
  65. 'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',
  66. 'title': '笔杆子论文'}
  67. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  68. {'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',
  69. 'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',
  70. 'title': '中国论文热线网'}
  71. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  72. {'desc': '就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。',
  73. 'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',
  74. 'title': '就要学习网'}
  75. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
  76. {'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',
  77. 'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',
  78. 'title': '新论文代写网'}
  79. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  80. {'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
  81. 'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
  82. 'title': '天喜缘婚介网-最好的婚征婚介网站'}
  83. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  84. {'desc': '诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
  85. 'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
  86. 'title': '成都盛世阳光婚庆策划有限公司'}
  87. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  88. {'desc': '情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
  89. 'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
  90. 'title': '情人网'}
  91. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  92. {'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
  93. 'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
  94. 'title': '国际免费婚介交友网站-相约100'}
  95. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  96. {'desc': '安徽婚庆网',
  97. 'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
  98. 'title': '安徽婚庆网'}
  99. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  100. {'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
  101. 'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
  102. 'title': '聚缘北海交友网'}
  103. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  104. {'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
  105. 'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
  106. 'title': '爱我吧婚恋网'}
  107. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  108. {'desc': '纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
  109. 'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
  110. 'title': '77国际交友网'}
  111. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  112. {'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
  113. 'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
  114. 'title': '东莞韩风尚婚纱摄影工作室'}
  115. 2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
  116. {'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',
  117. 'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',
  118. 'title': '百合婚礼社区'}
  119. 2018-12-17 20:49:30 [scrapy.core.engine] INFO: Closing spider (finished)
  120. 2018-12-17 20:49:30 [scrapy.extensions.feedexport] INFO: Stored json feed (20 items) in: items.json
  121. 2018-12-17 20:49:30 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
  122. {'downloader/request_bytes': 698,
  123. 'downloader/request_count': 3,
  124. 'downloader/request_method_count/GET': 3,
  125. 'downloader/response_bytes': 14618,
  126. 'downloader/response_count': 3,
  127. 'downloader/response_status_count/200': 3,
  128. 'finish_reason': 'finished',
  129. 'finish_time': datetime.datetime(2018, 12, 17, 12, 49, 30, 79269),
  130. 'item_scraped_count': 20,
  131. 'log_count/DEBUG': 24,
  132. 'log_count/INFO': 8,
  133. 'response_received_count': 3,
  134. 'scheduler/dequeued': 2,
  135. 'scheduler/dequeued/memory': 2,
  136. 'scheduler/enqueued': 2,
  137. 'scheduler/enqueued/memory': 2,
  138. 'start_time': datetime.datetime(2018, 12, 17, 12, 49, 29, 574379)}
  139. 2018-12-17 20:49:30 [scrapy.core.engine] INFO: Spider closed (finished)

0 留言:

發佈留言