Python练习爬取糗百内容

目标

Beautiful Soup 库介绍
拿到网页信息后，我们要解析页面，通常来说我们有以下几种方式来解析页面，获取我们所需的信息。

1. 正则表达式

适用于简单数据的匹配，如果匹配内容较复杂，正则表达式写起来会很绕，同时页面内容稍微变化，正则就会失效

2. Lxml

Lxml 是专门用来解析 XML 格式文件的库，该模块用 C 语言编写，解析速度很快，和正则表达式速度差不多，但是提供了 XPath 和 CSS 选择器等定位元素的方法

3. Beautiful Soup

这是一个 Python 实现的解析库，相比较于前两种来说，语法会更简单明了一点，文档也比较详细。唯一的一点就是运行速度比前两种方式慢几倍，当数据量非常大时相差会更多。

糗百爬虫代码
先爬取纯文本的内容 https://www.qiushibaike.com/text/ 爬取这个链接下的内容并保存在txt记事本中。
PS: 糗百的文章显示为随机显示，每一次页面刷新都不一样的内容。

GitHub 地址