4.2:Scrapy爬虫_哥们要飞
使用Scrapy框架对网站的内容进行爬取在桌面处打开终端,并在终端中输入:scrapy startproject bitNewscd bitNews/bitNews修改items文件的内容,输入vim items.py按 i 进行编辑,将其中的代码修改为:# -*- coding: utf-8 -*-import scrapyclass BitnewsItem(scrap......
使用Scrapy框架对网站的内容进行爬取
在桌面处打开终端,并在终端中输入:
scrapy startproject bitNews
cd bitNews/bitNews
修改items文件的内容,输入vim items.py按 i 进行编辑,将其中的代码修改为:
# -*- coding: utf-8 -*-
import scrapy
class BitnewsItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
pass
按shift+zz 退出。在终端输入:
scrapy genspider bitnews "www.bit.edu.cn"
cd spiders
vim bitnews.py
修改代码为下图所示:
# -*- coding: utf-8 -*-
import scrapy
from bitNews.items import BitnewsItem
class BitnewsSpider(scrapy.Spider):
name = 'bitnews'
allowed_domains = ['www.bit.edu.cn']
start_urls = ['http://www.bit.edu.cn/xww/jdgz/index.htm']
def parse(self, response):
items=[]
div = response.xpath("//div[@class='new_con']")
for each in div.xpath("ul/li"):
item=BitnewsItem()
item['name']=each.xpath('a/text()').extract()
items.append(item)
pass
return items
保存退出之后,在终端输入:cd ..
修改settings.py:vim settings.py
找到ROBOTSTXT_OBEY的值改为False:并添加设置如下:
ROBOTSTXT_OBEY=False
FEED_EXPORT_ENCODING = "UTF-8"
保存退出后,终端输入:
scrapy crawl bitnews -o news.json
相关文章
- 简单解析hyperf-TCP-RPC-Json请求的数据结构_嗨皮螃_hyperf tcp
- asp.net一般处理程序处理接收json和发送json数据_zybpub_asp.net 接收json
- 由excel一键生成json的小工具(基于python,仅支持单层嵌套)_ChessZH_自动生成json
- 踩坑-编译错误:FastJson与lombok导致找不到符号:方法getId()_爱叨叨的程序狗_找不到符号 [error] 符号: 方法 getbirthday()
- Zabbix-通过JsonPath实现监控-成功案例_帅儿二郎
- java对接金蝶webapi_斗码士_java 对接金蝶
- Python-数据的多种存储形式_尘世风
- 拼多多根据ID取商品详情_分享干货的猫_pdd商品详情接口
- JSONModel_山河丘壑_json model
- get/post请求常见content-type种类_yz_sj_getcontenttype
- requests.post中data和json主体参数处理_AI码农成长日志_post请求data参数怎么填
- .NET 中的 Json 使用体验_桑榆肖物
- Lesson10:ServletAPI详解(HttpServlet、HttpServletRequest、HttpServletResponse)_刘减减_protected void dopost(
- 网络安全系列-四十四:使用Filebeat、ElasticSearch、Kinaba 针对Suricata的分析结果eve.json进行可视化展示_java编程艺术
- SpringMVC消息转换器_Tornado_First_springmvc消息转换器
- PHP:宝塔面板API实现服务器信息前端展示_钥次元科技工作室_宝塔api