xsoup

Xsoup 0.2.0 发布,HTML 抽取器

黄亿华 发布于: 2014年03月11日 (4评)
分享到: 

Xsoup 是一款基于 Jsoup 开发的,使用XPath抽取Html元素的工具。它被用于作者的爬虫框架 WebMagic中,进行XPath 解析和抽取。

此次更新主要增加了一些XPath语法的支持。

  1. 增加contains支持 #2

    1
    //div[contains(@id,‘test‘)]
  2. 增加筛选条件的逻辑运算支持(and/or) #4

    1
    2
    3
    4
    //div[@id=‘test‘ or @class=‘test‘]
    //div[@id=‘test‘ and @class=‘test‘]
    //div[@id=‘test‘ and @class=‘test‘ or @id=‘test1‘]
    //div[@id=‘test‘ and (@class=‘test‘ or @id=‘test1‘)]
  3. 增加整个XPath的或支持 #6

    1
    //div[@id=‘test‘]/text() | //div[@class=‘test‘]/div/text()

此次升级与Xsoup 0.1.0 API兼容,WebMagic 0.3.0以上的用户可以直接在项目添加依赖即可使用新语法。

1
2
3
4
5
<dependency>
  <groupId>us.codecraft</groupId>
  <artifactId>xsoup</artifactId>
  <version>0.2.0</version>
</dependency>
文章来自:http://www.cnblogs.com/destim/p/5481461.html
© 2021 jiaocheng.bubufx.com  联系我们
ICP备案:鲁ICP备09046678号-3