Python练习爬取糗百内容

目标

  • 掌握爬虫的基本概念
  • Requests 及 Beautiful Soup 两个 Python 库的基本使用
  • 通过以上知识完成糗百段子抓取

Beautiful Soup 库介绍
拿到网页信息后,我们要解析页面,通常来说我们有以下几种方式来解析页面,获取我们所需的信息。

1. 正则表达式

适用于简单数据的匹配,如果匹配内容较复杂,正则表达式写起来会很绕,同时页面内容稍微变化,正则就会失效

2. Lxml

Lxml 是专门用来解析 XML 格式文件的库,该模块用 C 语言编写,解析速度很快,和正则表达式速度差不多,但是提供了 XPath 和 CSS 选择器等定位元素的方法

3. Beautiful Soup

这是一个 Python 实现的解析库,相比较于前两种来说,语法会更简单明了一点,文档也比较详细。唯一的一点就是运行速度比前两种方式慢几倍,当数据量非常大时相差会更多。

糗百爬虫代码
先爬取纯文本的内容 https://www.qiushibaike.com/text/ 爬取这个链接下的内容并保存在txt记事本中。
PS: 糗百的文章显示为随机显示,每一次页面刷新都不一样的内容。

GitHub 地址

https://github.com/news221/Python/blob/main/1-爬取糗百.py



您可以选择一种方式赞助本站

支付宝转账赞助

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

图片 表情