Python知识分享网 - 专业的Python学习网站 学Python,上Python222
Python爬虫框架Scrapy入门 PDF 下载
匿名网友发布于:2025-06-30 09:48:45
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

Python爬虫框架Scrapy入门 PDF 下载  图1

 

 

资料内容:

 

一、爬虫定义

网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面,以获取这些网站的内容。l

从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

 

二、所需知识

需要的知识有: linux系统+ Python语言 +Scrapy框架+XPath KXML路径语言) +一些辅助工具(浏览器的开发者工具和XPathhelper插件)。

我们的爬虫是使用Python语言的Scrapy爬虫框架开发,在linux上运行,所以需要熟练掌握Python语言和Scrapy框架以及linux操作系统的基本知识。

我们需要使用XPath从目标HTML页面中提取我们想要的东西,包括汉语文字段落和“下一页”的链接等。