目标
- 掌握爬虫的基本概念
- Requests 及 Beautiful Soup 两个 Python 库的基本使用
- 通过以上知识完成糗百段子抓取
Beautiful Soup 库介绍
拿到网页信息后,我们要解析页面,通常来说我们有以下几种方式来解析页面,获取我们所需的信息。
1. 正则表达式
适用于简单数据的匹配,如果匹配内容较复杂,正则表达式写起来会很绕,同时页面内容稍微变化,正则就会失效
2. Lxml
Lxml 是专门用来解析 XML 格式文件的库,该模块用 C 语言编写,解析速度很快,和正则表达式速度差不多,但是提供了 XPath 和 CSS 选择器等定位元素的方法
3. Beautiful Soup
这是一个 Python 实现的解析库,相比较于前两种来说,语法会更简单明了一点,文档也比较详细。唯一的一点就是运行速度比前两种方式慢几倍,当数据量非常大时相差会更多。
糗百爬虫代码
先爬取纯文本的内容 https://www.qiushibaike.com/text/ 爬取这个链接下的内容并保存在txt记事本中。
PS: 糗百的文章显示为随机显示,每一次页面刷新都不一样的内容。
GitHub 地址