![]() |
1
ZzFoo 2014-09-08 18:48:15 +08:00 ![]() 用Xpath吧
|
![]() |
2
mhycy 2014-09-08 19:17:45 +08:00 ![]() 正则表达式
|
![]() |
5
paulw54jrn 2014-09-08 19:24:49 +08:00 ![]() xpath, xquery , xslt 都可以~
|
![]() |
6
mthli OP @paulw54jrn 嗯嗯,thx~
|
7
Automan 2014-09-08 19:28:17 +08:00 ![]() 有很多HTML DOM parser,用起来比正则方便多了。。
|
![]() |
9
paulw54jrn 2014-09-08 19:31:22 +08:00
beautifulSoup 挺方便的~
|
![]() |
10
mthli OP @paulw54jrn 嗯,收下了。不过我是打算用Java。以后写Python的时候再用。
|
![]() |
13
ericls 2014-09-08 20:04:33 +08:00 ![]() pyquery
|
![]() |
14
scusjs 2014-09-08 20:06:40 +08:00 ![]() jsoup
|
![]() |
15
belin520 2014-09-08 20:16:48 +08:00 via Android ![]() 什么语言好像都有**query之类的库。
|
![]() |
16
tinyhill 2014-09-08 20:26:59 +08:00 ![]() node + jquery
|
![]() |
18
neverno 2014-09-08 20:37:55 +08:00 ![]() beautifulsoup
|
![]() |
19
baka 2014-09-08 20:47:12 +08:00 via iPhone ![]() 在用beautifulsoup之前一直都是粗暴split的
|
![]() |
21
ccbikai 2014-09-08 20:54:29 +08:00 ![]() |
![]() |
22
wwttc 2014-09-08 20:55:11 +08:00 ![]() 正则,beautifulsoup,xpath,都可以。最方便的还是xpath
|
23
ceclinux 2014-09-08 23:02:34 +08:00 ![]() nodejs可以用jsdom
|
![]() |
24
refresh 2014-09-08 23:07:07 +08:00 ![]() node.js + cherrio,jsdom太重了
|
![]() |
25
zyx89513 2014-09-08 23:07:42 +08:00 ![]() beautifulSoup
|
![]() |
26
Comdex 2014-09-08 23:09:57 +08:00 via Android ![]() goquery
|
![]() |
27
lightening 2014-09-08 23:13:45 +08:00 ![]() Ruby 的话就用 Nokogiri (鋸).
|
![]() |
28
cxshun 2014-09-08 23:16:08 +08:00 ![]() xpath是最好的方案,正则的话就太麻烦了。但遇到不规范的html时,这也比较杯具了,只能先处理一下再用xpath。
|
![]() |
29
txlty 2014-09-08 23:54:35 +08:00 ![]() 那个。。难道说拆数组,很土很落后?
![]() |
![]() |
31
scola 2014-09-09 08:18:23 +08:00 ![]() python + lxml
|
![]() |
32
RangerWolf 2014-09-09 09:19:45 +08:00 ![]() 了解到有些比价软件的页面解析用的是正则~ 不过个人一直是Java + JSoup。 再加上xpath的话,不知道哪个效率更高一点~
|
![]() |
33
djyde 2014-09-09 09:48:52 +08:00 ![]() |
![]() |
34
ZzFoo 2014-09-09 10:21:28 +08:00
对了,配合火狐的Xpath Checker插件,可以检查你的表达式选取到的结果
|
![]() |
35
binux 2014-09-09 10:31:52 +08:00 ![]() [如何从 WEB 页面中提取信息](http://blog.binux.me/2014/07/how-to-extract-data-from-web/)
|
![]() |
36
miao 2014-09-09 10:42:00 +08:00 ![]() 如果是抓取到本地(win环境) 请用火车头
|
38
Yannis1990 2014-09-09 11:37:36 +08:00
pyquery +1
|
![]() |
39
master 2014-09-09 11:39:01 +08:00 ![]() node.js + cherrio
|
![]() |
40
bigtan 2014-09-09 11:41:09 +08:00
bs4
|
![]() |
41
imn1 2014-09-09 11:58:03 +08:00 ![]() 网页数量很多的话(过万),建议还是尽可能用正则吧
|
![]() |
43
jsq2627 2014-09-09 12:49:44 +08:00
正则高效,xquery 容易
|
![]() |
44
jedihy 2014-09-09 14:30:42 +08:00 via iPhone ![]() 最好正则,其它库会根据html构造一棵dom树,效率极低。这些厚重的库并不是用来做这种简单的html抓取
|
![]() |
46
mucid 2014-09-10 11:00:17 +08:00
xpath,不要用正则
|