数据爬取之xpath

爬虫数据解析的方法

  • 正则表达式——使用场景:数据量相对较少,或者要提取的类型单一,专门用于从字符串里面提取数据
  • css选择器——使用场景:适合在html标签中提取数据
  • xpath——使用场景:适合在html标签当中进行数据提取,路径选择器,最早是提取xml文件,因为简单易学,在网页方面的引用比较多

xpath、parsel简介

XPath是一门在HTML、XML文档中查找信息的语言

parsel是一款高性能的python HTML、XML解析器,将字符串转化为selector对象,具有xpath方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据,我们可以可利用xpath,来快速定位元素以及获取节点信息

xpath语法

xpath使用路径表达式来选取xml文档中的节点或者节点集

表达式 描述
nodename 选中该元素
/ 从根节点获取,或者是元素之间的过渡
// 跨节点提取
. 选取当前节点
选取当前节点的父节点
@ 选取属性
text() 选取文本
  • 选取未知节点
通配符 描述
* 匹配任何元素节点
@* 匹配任何属性节点
node() 匹配任何类型节点
/div/* 选取div元素的所有子元素
//* 选取文档中的所有元素
//title]@*] 选取所有带有属性title的元素

  转载请注明: 恋し 数据爬取之xpath

  目录