Python使用xslt提取网页数据

用lxml库实现网页内容提取

lxml是python的一个库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。

抓取目标

假设要提取集搜客官网旧版论坛的帖子标题和回复数，如下图，要把整个列表提取出来，存成xml格式

源代码1：只抓当前页，结果显示在控制台

Python的优势是用很少量代码就能解决一个问题，请注意下面的代码看起来很长，其实python函数调用没有几个，大篇幅被一个xslt脚本占去了，在这段代码中，只是一个好长的字符串而已，至于为什么选择xslt，而不是离散的xpath或者让人挠头的正则表达式

可以拷贝运行下面的代码(在windows10， python3.2下测试通过)：

抓取结果

得到的抓取结果如下图：

源代码2：翻页抓取，结果存入文件

我们对2.2的代码再做进一步修改，增加翻页抓取和存结果文件功能，代码如下：

Biegral Blog