爬虫数据解析的方法
- 正则表达式——使用场景:数据量相对较少,或者要提取的类型单一,专门用于从字符串里面提取数据
- css选择器——使用场景:适合在html标签中提取数据
- xpath——使用场景:适合在html标签当中进行数据提取,路径选择器,最早是提取xml文件,因为简单易学,在网页方面的引用比较多
xpath、parsel简介
XPath是一门在HTML、XML文档中查找信息的语言
parsel是一款高性能的python HTML、XML解析器,将字符串转化为selector对象,具有xpath方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据,我们可以可利用xpath,来快速定位元素以及获取节点信息
xpath语法
xpath使用路径表达式来选取xml文档中的节点或者节点集
表达式 | 描述 |
---|---|
nodename | 选中该元素 |
/ | 从根节点获取,或者是元素之间的过渡 |
// | 跨节点提取 |
. | 选取当前节点 |
… | 选取当前节点的父节点 |
@ | 选取属性 |
text() | 选取文本 |
- 选取未知节点
通配符 | 描述 |
---|---|
* | 匹配任何元素节点 |
@* | 匹配任何属性节点 |
node() | 匹配任何类型节点 |
/div/* | 选取div元素的所有子元素 |
//* | 选取文档中的所有元素 |
//title]@*] | 选取所有带有属性title的元素 |