1
lhx2008 2019-03-07 11:04:33 +08:00
Java 异步爬虫效率还是不错的,库也比较完善,不过写不是太方便。
|
2
gowk 2019-03-07 11:33:11 +08:00
Python 和 Go 写都比 Java 方便,用 Java 写能巨 TM 烦
|
3
lihongjie0209 2019-03-07 11:38:46 +08:00
写脚本用脚本语言
写项目用工程语言 |
4
letitbesqzr 2019-03-07 11:41:03 +08:00
现在的爬虫,难道还需要去纠结那点本地解析的性能问题?更注重的不应该是 任务调度 异步 网络 方面? 什么语言熟悉你用什么语言,不觉得哪个语言在这方面有什么天生的优势。
|
5
julyclyde 2019-03-07 13:03:07 +08:00
“还”?
|
6
tikazyq 2019-03-07 13:11:16 +08:00 via iPhone
试试 crawlab,哪个爬虫语言都可以的 http://github.com/tikazyq/crawlab
|
8
mooncakejs 2019-03-07 14:18:06 +08:00
爬虫用 java 的不多吧,一般都是 python,现在可能 nodejs 更流行写爬虫。
|
9
shiganwuguo 2019-03-07 14:18:56 +08:00 via Android
大型爬虫 java, 小爬虫随意
|
10
nicevar 2019-03-07 14:23:01 +08:00
公司项目一般用 java 比较多,个人项目功能比较单一,用 python 之类的省事
|
11
WaJueJiPrince 2019-03-07 14:27:36 +08:00
@letitbesqzr 有的语言还是有优势的,很少见过有人用 C 或者 VB 直接写爬虫的,不同的语言的出现就是为了弥补其他语言的不足的,所有还是有差距的,不同的语言有不同的优点和缺点。另外,爬虫也不一定就注重的是异步,任务调度,一味追求快速的爬虫不是好的爬虫,也要兼顾对方的负载均衡,稳定性也很重要。另外验证码,js 加密,账号登陆这些不容易追求快速,
|
12
hyc5312 2019-03-07 15:09:47 +08:00
py 上手快,写一个简单的爬虫也很快,适合新手上路,实际上写爬虫跟编程语言没有太多的关系,选择自己熟悉的语言都可以,爬虫重心应该在于调度,网络,反爬策略,数据清洗等等问题,本人基于 java 写了个爬虫框架,https://github.com/heyingcai/cetty 欢迎来交流~
|
13
juju123 2019-03-07 15:16:27 +08:00
大型分布式爬虫用 java 有优势,但写起来没有 py 顺手。
|
15
wmhx 2019-03-08 00:55:43 +08:00
java 写爬虫, 现成的框架就不说了;
手工的, 你可以用 httpclient 抓取,jsoup 解析页面, 90%的页面都能搞定, 剩下的就用 selenium 没跑了; |
16
taaaang 2019-03-08 09:19:04 +08:00
现在还纠结啥语言,会什么就用什么,关键是要把东西给爬下来
|
17
UserNameisNull 2019-03-08 09:51:25 +08:00
反正携程是 Java 爬虫
|