博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
web crawling(plus10)scrapy 4
阅读量:6999 次
发布时间:2019-06-27

本文共 1823 字,大约阅读时间需要 6 分钟。

E:\m\f1>cd ..\

E:\m>scrapy startproject qsauto

New Scrapy project 'qsauto', using template directory 'd:\\users\\administrator\\appdata\\local\\programs\\python\\python36-32\\lib\\site-packages\\scrapy\\templates\\project', created in:
E:\m\qsauto

You can start your first spider with:

cd qsauto
scrapy genspider example example.com

E:\m>cd qsauto/

E:\m\qsauto>scrapy genspider -l

Available templates:
basic
crawl
csvfeed
xmlfeed

E:\m\qsauto>scrapy genspider -t crawl weisuen qiushibaike.com

 

weisuen.py:

# -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from scrapy.http import Request from qsauto.items import QsautoItem class WeisuenSpider(CrawlSpider):     name = 'weisuen'     allowed_domains = ['qiushibaike.com']     '''     start_urls = ['http://www.qiushibaike.com/']     '''     rules = (         Rule(LinkExtractor(allow='article'), callback='parse_item', follow=True),     )     def start_requests(self):         ua = {
"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0'} yield Request('http://www.qiushibaike.com/', headers=ua) def parse_item(self, response): i = QsautoItem() #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract() #i['name'] = response.xpath('//div[@id="name"]').extract() #i['description'] = response.xpath('//div[@id="description"]').extract() i["content"]=response.xpath("//div[@class='content']/text()").extract() i["link"]=response.xpath('//a[@class="contentHerf"]/@href').extract() print(i["content"]) print(i["link"]) print("") return i

 

转载于:https://www.cnblogs.com/rabbittail/p/7637343.html

你可能感兴趣的文章
noip rp++
查看>>
大数加法 (A + B Problem II)
查看>>
Are you sure you want to continue connecting etc ssh ssh_config StrictHostKeyChecking no
查看>>
草稿--cgi
查看>>
同步,异步,阻塞,非阻塞
查看>>
文件缓存
查看>>
bash Shell 中如何实现条件判断之if判断
查看>>
linux守护进程解读
查看>>
Windows操作系统单文件夹下到底能存放多少文件及单文件的最大容量
查看>>
POJ2079:Triangle——题解
查看>>
关于UITableView 不能回调 tableView: cellForRowAtIndexPath的问题
查看>>
linux 批量创建用户获取8位随机密码
查看>>
WPF 单实例应用程序
查看>>
解决wordpress无法发送邮件的问题|配置好WP-Mail-SMTP的前提
查看>>
debian包之间的关系
查看>>
php生成随机数mt_rand和rand
查看>>
04.Linux Disk Partition & Mount Point
查看>>
ios系统的特点
查看>>
mac下配置java运行环境
查看>>
gsoap、c++。webservice的client。
查看>>