1
axwz88 2019-08-02 13:36:09 +08:00 via Android
python 写爬虫好处是工作量小,轮子也多,用 java 写爬虫和 python 实现的没太大区别,很多搜索引擎爬数据量特别大还要追求速度的用 c 和 c++写爬虫
|
2
flyingghost 2019-08-02 13:40:27 +08:00 4
java 做爬虫它牛就牛在爬虫业务两不误。
招个 py 做完爬虫是开掉还是开掉呢? |
3
kaiccc 2019-08-02 13:52:59 +08:00
@flyingghost 哈哈哈
|
4
ddup 2019-08-02 13:54:40 +08:00
搜索引擎爬虫就选 Nutch 大神作品。
python 有个 GIL 全局锁,性能上有瓶颈,大规模爬行会吃不消。 |
5
salamanderMH 2019-08-02 13:55:02 +08:00
我用 nodejs 写的,编译型语言( java,go 这些)工程化好一点
|
6
zjyl1994 2019-08-02 13:59:14 +08:00
python 轮子多而已,java 并不会觉得靠得住,人家不会看语言的只要数据
|
7
daozhihun 2019-08-02 14:07:47 +08:00
做过爬虫的说一句。
楼上说的对,老板 & 客户要的数据+准确性,人家才不管你用啥语言。 况且爬虫最麻烦的地方是对付反爬,你得有一定的思路,语言倒是次要的。 |
8
lihongjie0209 2019-08-02 14:15:41 +08:00
语言无所谓, 关键是生态
|
10
shuizhengqi 2019-08-02 14:31:36 +08:00
说 GIL 全局锁的,这对爬虫有什么影响?爬虫主要是爬,又不是计算,这有什么吃不消的
|
11
janxin 2019-08-02 14:31:45 +08:00
码农不值钱?
|
12
ben1024 2019-08-02 14:42:32 +08:00
主要是反爬的解决方案
|
13
Mazexal 2019-08-02 14:47:53 +08:00
java 不适合做爬虫, 强类型处理很容易报错..........
|
14
HOU 2019-08-02 14:57:18 +08:00
java + web-harvest + xpath,爬得很美
|
15
hotcool100 2019-08-02 15:02:34 +08:00
对不起,跟我走一趟,我是国家反爬局的……
|
16
wysnylc 2019-08-02 15:44:51 +08:00
强类型处理报错的了解下 optional
java 做爬虫的话就在于分布式了,如果单机能做的爬虫任务没必要用 java java 爬虫推荐一个许雪里的 XXL-CRAWLER,链式编程一行代码一个爬虫! |
17
Cellei 2019-08-02 16:13:39 +08:00
Go 爬虫哪位大佬再给讲解下
|
18
duanxianze 2019-08-02 16:19:18 +08:00
@flyingghost 哈哈哈
|
19
392039757 2019-08-02 16:28:25 +08:00
没有好用的 java 爬虫框架,自己写轮子太难受
|
21
1340976576 2019-08-02 16:34:36 +08:00
java 和 python 爬虫,我刚好都做过
两者其实原理都是一样的,实现方式也都差不多,只是语法的差异,使得 python 更简洁,代码量更少。 |
22
HivenYang 2019-08-02 16:37:47 +08:00
@flyingghost 目测是个人才
|
23
Fiona7heHuman 2019-08-02 17:24:20 +08:00
@flyingghost 真相了哥
|
24
MonoLogueChi 2019-08-02 17:26:43 +08:00 via Android
@Mazexal 说到强类型我就想到有一次拿 C#去重新实现一遍一个 js 写的 API,一写 object[]我心里就难受
|
25
luozic 2019-08-02 17:37:48 +08:00 via iPhone
反爬虫咋玩? python 轮子多上啥识别方案,Java 得现造不少轮子
|
26
lihongjie0209 2019-08-02 17:41:22 +08:00
@luozic #25 java rpc 直接调用 python 封装的库就可以了
|
27
unicloud 2019-08-02 17:45:05 +08:00 via iPhone
没有
|
28
spotfg 2019-08-02 17:54:51 +08:00
@flyingghost 不是增量型的爬虫,当然直接开了没事,遇到增量型爬虫,目标网站三天,两头变一次这开了,其他没有爬虫经验的能接手么……
|
29
impl 2019-08-03 01:11:19 +08:00 via Android 2
Java 放个屁都要用个类包起来,Python 脱下裤子就干
|
30
dai123456 2019-08-03 11:45:27 +08:00
python 相对来说容易上手一些,很多初学者都是使用的这种语言,但是也有很多大公司使用 java 的相对来说比较多,具体哪种更牛一些,个人理解要看你掌握技术的能力,两种语言都有利弊
|
31
yinzhili 2019-08-03 13:01:51 +08:00
用 java 做爬虫的话,便于整合到一些现有业务系统中去,因为好多现有的业务系统就是基于 java 的
|