抱歉, 实在不清楚要发到哪个节点
有这么一个需求
疑问
感谢各位大佬
1
learningman 2020-02-22 12:23:22 +08:00 via Android
xpath,了解一下
或者 css 选择器 |
2
Procumbens 2020-02-22 12:41:20 +08:00
BeautifulSoup?
|
3
xiri 2020-02-22 13:11:16 +08:00
用 python 做,lxml、BeautifulSoup 等都能实现你的要求(其实你的需求就是爬虫的数据清洗部分要干的事)
|
4
7huixiang 2020-02-22 13:17:37 +08:00
听着像文章采集器呢
|
5
siknet 2020-02-22 13:21:41 +08:00 via Android
火车采集器,最高效易学的了
|
6
omph 2020-02-22 13:43:05 +08:00
简单的可以用 shell
https://github.com/coderobe/hq |
7
oneisall8955 2020-02-22 14:22:09 +08:00 via Android
JAVA 中建议用 jsoup,和 jquery 一把梭一样,很简单。并且,xpath 有时候因为页面的元素不标准,导致解析不了,jsoup 没有这个问题
|
8
tlday 2020-02-22 15:10:04 +08:00
|
9
tlday 2020-02-22 15:10:33 +08:00
|
10
littleylv 2020-02-22 15:30:59 +08:00
解析 html 的轮子非常多,基本各大语言都有,你有这发帖时间都找到了。
1 楼的说的两个,搜索一下你就知道了 |
11
lis66951735 2020-02-22 16:15:21 +08:00
java jsoup , python BeautifulSoup
|
13
yuenc 2020-02-22 20:01:29 +08:00
nodejs puppeteer
|
14
crella 2020-02-23 10:11:37 +08:00 via Android
……我都是自己切割字符串查找文本的,我接触的网页比较简单……
|
15
lzlee OP 感谢各位大佬的回复, 我挨个试试, 有效果的话, 会给反馈
|