无忧技术网 - RSS订阅 
无忧技术网

几个open source的html parser的比较


作者:[佚名] - 发布:2010-4-22 17:35:38 - 来源:无忧技术网
HTMLParser
最先是看见SourceForge上下载的包,真是有点大的吓人,一个小小的html parser, 居然有5M。下载回来,展开刨去文档等等杂乱的部分,source也还是不小的。用ant build过后,生成两个jar,htmlparser.jar(200k)和htmllexer.jar(56k)。我关心的是对html文件的剖析,所以只关心parser。试了一下,似乎独立的htmlparser.jar就可以了,不需要lib目录里面那些依赖的库。类的结构是比较清晰,划分的比较细致。source目录中有几个sample,都比较简单,很容易看懂。和使用xml parser感觉差不多,也有Event driver的接口,扩充一下也很容易生成DOM Tree,容易上手。

Jericho
一个简单小型的html parser,程序包比较小,500K左右,build出来的jar包40k, 相对于上面的html parser来说是小巧了很多。使用方面,Jericho没有提供类似SAX的接口,也不关注细部结构。对于Jericho核心概念是Segment,一个标记,一段内容,都是Segment,在这个概念层次之上是startTag, endTag等等。看了Jericho自己带的Sample,也都很简单,不过平时用惯了XML一套处理方法的人,会比较不习惯的,我想。源代码的质量一般,没有HTML Parser的好看。

NekoHTML
这是一个基于apache Xerces-j,依赖于Xerces-j的XNI接口。想到Xerces-j那么大的一个东西,就发毛,放弃。

Java HTML Parser
主页除了下载的连接,没有啥更多信息了,看着也比较让人发毛,没有试

TagSoup
主页上的download source链接断了,给作者发了信,很快有了答复,说修好了。编译出来的jar包30K,也算短小精悍。因为核心代码需要用模板生成,所以必须在有 perl的环境中才能正常编译。没有文档,没有简单的Sample,看source,有些头晕,感觉更合适做编译原理语法分析和状态机这个部分的演示教材。
BTW: 主页上说,TagSoup的handler接口和SAX的handler非常相近,不过也没有明确的说,就是完全兼容的。

责任编辑:liqwei
打印本页】【关闭本页】【返回列表
·上一篇:JSP/Servlet 中的汉字编码问题
·下一篇:What is Jython?
 文章评分
  • current rating
-5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5
 相关文章
·[JS/CSS/HTML]HTML 空格的表示符号 nbsp / ensp / emsp 的区别? (2015-01-27)
·[Linux]Linux 批量压缩 HTML 文件命令 (2010-09-24)
 相关评论
 站点最新文章 更多>> 
·[经典影音]弱点
·[经典影音]萨利机长
·[经典影音]天空之眼
·[管理知识]康奈尔笔记法,提高100%学习效率
·[管理知识]刘强东:我管75000人靠这4张表格
·[管理知识]跟壳牌学HSE管理
·[运营策划]编辑工作内容整理
·[至理名言]奋斗与决定
·[瀚海拾遗]盲人打灯笼之各家论道
·[搞笑段子]中国男足
 站点浏览最多 更多>> 
·[协议规范]http断点续传原理:http头 Range、…
·[JS/CSS/HTML]HTML 空格的表示符号 nbsp / en…
·[NoSQL]Mongo数据库简介
·[协议规范]什么是SPF记录?如何设置、检测SP…
·[协议规范]图解 HTTPS 通信过程
·[PHP]精选国外免费PHP空间推荐
·[程序综合]常用IP地址查询接口
·[程序综合]什么是 DNS Prefetch ?
·[程序综合]获取客户端IP地址的三个HTTP请求…
·[Linux]/usr 目录的由来