大家都是怎么解析抓取到的 HTML 文件的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

浏览器插件 - Stay

侧边栏化你的浏览器支持标签页管理，用户脚本，书签同步，标记广告，网页暗黑…

开始试用

Promoted by ris

PRO

这是一个创建于 4072 天前的主题，其中的信息可能已经有所发展或是发生改变。

有的网站没有API接口，如果要想抓取数据的话就必须解析HTML自己提取内容了。

一般来说我会直接遍历，找到特定的标签（或者字符），然后再自己提取内容。如果标签比较多的话就觉得有点烦，毕竟写起来自己也麻烦。所以想问一下有没有什么更好的方法（或者是那种脑洞大开的方法）？

抓取

提取

HTML

46 条回复 • 2014-09-10 11:00:17 +08:00

ZzFoo

2014-09-08 18:48:15 +08:00

用Xpath吧

mhycy

2014-09-08 19:17:45 +08:00

正则表达式

mthli

2014-09-08 19:18:34 +08:00

@ZzFoo 看上去好像很不错的样子。值得一试 :)

mthli

2014-09-08 19:19:02 +08:00

@mhycy 嗯，我原来是打算正则的。

paulw54jrn

2014-09-08 19:24:49 +08:00

xpath, xquery , xslt 都可以~

mthli

2014-09-08 19:25:52 +08:00

@paulw54jrn 嗯嗯，thx~

Automan

2014-09-08 19:28:17 +08:00

有很多HTML DOM parser，用起来比正则方便多了。。

mthli

2014-09-08 19:29:35 +08:00

@Automan 正是如此，主要我也懒得写正则，哈哈。

paulw54jrn

2014-09-08 19:31:22 +08:00

beautifulSoup 挺方便的~

mthli

2014-09-08 19:40:41 +08:00

@paulw54jrn 嗯，收下了。不过我是打算用Java。以后写Python的时候再用。

ghy459

2014-09-08 19:59:50 +08:00

@mthli java 有类似 bs 的 htmlunit。

lcxseima

2014-09-08 20:01:49 +08:00

@mthli java的话jsoup也算一个。都很方便。

ericls

2014-09-08 20:04:33 +08:00

pyquery

scusjs

2014-09-08 20:06:40 +08:00

jsoup

icanfork

2014-09-08 20:16:48 +08:00 via Android

什么语言好像都有**query之类的库。

tinyhill

2014-09-08 20:26:59 +08:00

node + jquery

mthli

2014-09-08 20:33:22 +08:00

@ghy459 嗯，刚搜到。

neverno

2014-09-08 20:37:55 +08:00

beautifulsoup

baka

2014-09-08 20:47:12 +08:00 via iPhone

在用beautifulsoup之前一直都是粗暴split的

mthli

2014-09-08 20:52:40 +08:00

@baka 啊哈哈哈。

ccbikai

PRO

2014-09-08 20:54:29 +08:00

http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

wwttc

2014-09-08 20:55:11 +08:00

正则，beautifulsoup，xpath，都可以。最方便的还是xpath

ceclinux

2014-09-08 23:02:34 +08:00

nodejs可以用jsdom

refresh

2014-09-08 23:07:07 +08:00

node.js + cherrio，jsdom太重了

dofaith09

2014-09-08 23:07:42 +08:00

beautifulSoup

Comdex

2014-09-08 23:09:57 +08:00 via Android

goquery

lightening

2014-09-08 23:13:45 +08:00

Ruby 的话就用 Nokogiri (鋸).

cxshun

2014-09-08 23:16:08 +08:00

xpath是最好的方案，正则的话就太麻烦了。但遇到不规范的html时，这也比较杯具了，只能先处理一下再用xpath。

txlty

2014-09-08 23:54:35 +08:00

那个。。难道说拆数组，很土很落后？

mthli

2014-09-09 07:23:15 +08:00 via Android

@txlty 不是呀，也很不错呀。

scola

2014-09-09 08:18:23 +08:00

python + lxml

RangerWolf

2014-09-09 09:19:45 +08:00

了解到有些比价软件的页面解析用的是正则~ 不过个人一直是Java + JSoup。再加上xpath的话，不知道哪个效率更高一点~

djyde

2014-09-09 09:48:52 +08:00

看我V2HOT的第一个版本记录，用的是Jsoup。

https://github.com/djyde/V2HOT

ZzFoo

2014-09-09 10:21:28 +08:00

对了，配合火狐的Xpath Checker插件，可以检查你的表达式选取到的结果

binux

2014-09-09 10:31:52 +08:00

[如何从 WEB 页面中提取信息](http://blog.binux.me/2014/07/how-to-extract-data-from-web/)

miao

2014-09-09 10:42:00 +08:00

如果是抓取到本地(win环境) 请用火车头

mthli

2014-09-09 10:56:07 +08:00

@ZzFoo 嗯哼～

Yannis1990

2014-09-09 11:37:36 +08:00

pyquery +1

master

2014-09-09 11:39:01 +08:00

node.js + cherrio

bigtan

2014-09-09 11:41:09 +08:00

bs4

imn1

2014-09-09 11:58:03 +08:00

网页数量很多的话（过万），建议还是尽可能用正则吧

mthli

2014-09-09 12:32:07 +08:00 via Android

@imn1 没那么多啦，最多也就10来页。

jsq2627

2014-09-09 12:49:44 +08:00

正则高效，xquery 容易

jedihy

2014-09-09 14:30:42 +08:00 via iPhone

最好正则，其它库会根据html构造一棵dom树，效率极低。这些厚重的库并不是用来做这种简单的html抓取

mthli

2014-09-09 15:39:33 +08:00

@jedihy 嗯，了解。

mucid

2014-09-10 11:00:17 +08:00

xpath，不要用正则