Python爬虫数据提取之bs4的使用方

上周的爬虫文章中我们给大家简单介绍了一下网页的基本结构,同时也认识了一些常见的HTML标签。因为爬虫就是从这些标签中提取数据。比如以我的知乎页面为例,要想提取文章列表中的每篇文章的标题和内容简介等信息,就要读懂HTML:我们如何解析出来HTML标签中的内容呢?解析页面局部的文本内容,一般都会在标签之间或者标签对应的属性中进行存储,我们可以通过:

首先使用开发者工具进行标签的定位,然后提取标签或者标签对应的属性中存储的数据值

常见的方式有:

正则表达式bs4xpath

正则我们已经给大家简单介绍过了,本次主要介绍bs4的使用。



转载请注明:http://www.sonphie.com/jbzd/14551.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: