Python爬虫数据提取之bs4的使用方

上周的爬虫文章中我们给大家简单介绍了一下网页的基本结构，同时也认识了一些常见的HTML标签。因为爬虫就是从这些标签中提取数据。比如以我的知乎页面为例，要想提取文章列表中的每篇文章的标题和内容简介等信息，就要读懂HTML：我们如何解析出来HTML标签中的内容呢？解析页面局部的文本内容，一般都会在标签之间或者标签对应的属性中进行存储，我们可以通过：

首先使用开发者工具进行标签的定位，然后提取标签或者标签对应的属性中存储的数据值

常见的方式有：