1
Betsy 2017-10-18 19:48:18 +08:00 via Android
楼主的文章写的很棒,其实我有个很小白的问题。就是关于使用“ JavaScript 脚本动态获取网站数据”这一块有点疑惑。我在爬取 新榜 这个网站指定公众号的热门文章的时候,发现其值是通过 post 方式获取的。它同时上传了 4 个值,前两个值是不变的,后两个值貌似是随机生成的。看了你的文章之后,我觉得那俩随机数应该是通过 JavaScript 生成的,然后我想问的是,如何找到它用的是哪个 JavaScript 脚本?这样我想我就应该能获取到随机数生成规则了吧!?
|
2
scriptB0y OP @Betsy 可以设置断点跟踪进去
https://developers.google.com/web/tools/chrome-devtools/javascript/?hl=zh-cn 不过一般即使是客户端生成的也很难破解,实在不行可以开浏览器抓 |
3
evanshh 2017-10-18 22:13:53 +08:00
非计算机专业毕业的,在向爬虫方向学习但是觉得自己编程基础比较薄弱,是不是对应聘影响很大呢?比如贵公司的招聘,专业是不是死门槛?
|
4
scriptB0y OP @evanshh 专业问题不是很大,不用心虚。我们 NLP 有个大神好像是化学专业的。
计算机专业课上讲的东西很烂的,基本上还是和高中讲的应试教育那一套。不仅讲的烂还打击人的学习兴趣,自己看书有趣多了。对我来说大学自学学到的东西大约占 90% |
5
Betsy 2017-10-18 22:28:16 +08:00 via Android
@scriptB0y 感觉似乎找到了 js 中生成随机数的方法,但因为不懂 JavaScript 语法,有点懵逼。话说开浏览器怎么抓?那两个值每刷新一次网页就会变一次,感觉不能复制出来再使用啊!
|
6
sangmong 2017-10-18 22:43:10 +08:00
get 和 post 真的没啥区别么...
|
7
forestyuan 2017-10-19 08:51:38 +08:00
很好奇爬虫工程师的待遇如何
|
9
scriptB0y OP |
10
scriptB0y OP @Betsy 额,开浏览器是爬虫的无界面浏览器那种,那样爬虫会使用浏览器执行 js 代码。和真实用户看到的网页一样。
|
11
yeless 2017-10-19 09:47:29 +08:00
Python + Selenium + PhantomJS
|
12
WoodenRobot 2017-10-19 10:41:56 +08:00 1
使用无界面浏览器做爬虫推荐一下 Splinter。已经集成 Firefox 和 Chrome 的 Headless 模式。
|
13
JackZong 2017-10-19 10:43:10 +08:00
天猫商品销量可否有办法爬到?
|
14
Betsy 2017-10-19 11:26:03 +08:00 via Android
@scriptB0y 是指 Selenium + PhantomJS 这种组合吗?这种的话,我已经实现了,效率堪忧啊...
|
16
Betsy 2017-10-19 11:51:13 +08:00 via Android
@scriptB0y 感觉 js 文件本身没有混淆,我再去研究研究下 js 文件中关于生成随机数这部分代码。谢谢你啦,祝你尽快招到合适的人选。
|
17
YuuuZeee 2017-10-19 12:01:12 +08:00
用过你们公司的 API,感觉挺棒的,比 BAT 的不相上下
|
18
sangmong 2017-10-19 12:17:35 +08:00
@scriptB0y 随便百度一下都有很多区别吧...https://www.zhihu.com/question/28586791
|
21
scriptB0y OP @sangmong 认识啊 我打开一看这个答案不是符合我的说法的吗,所以才问你百度到了哪些不同
|
24
p2pCoder 2017-10-19 12:58:31 +08:00
@Betsy 一般来说,除了 支付宝,淘宝 ,京东这些大型公司的登陆参数加密太复杂的,其他的都能弄,首先需要一定 js 基础,能在浏览器进行 断点跟踪,找到相应的 fuction 就行了,然后换语言重写,或者用 python 的 js 相关库执行就行。
|
27
scriptB0y OP |
28
wisej 2017-10-19 13:26:22 +08:00 via Android
应届毕业生收么
|
33
weakish 2017-10-19 13:49:09 +08:00
现在推广都一推二了啊~ location, salary 这 JD ...
|
34
torment5524 2017-10-19 14:04:51 +08:00
话说现在 30 多了,08 年在软件公司工作,12 年进了个国企,干了 5 年干不下去了。平时都是给朋友做些简单软件,前阵子刚用 java 给朋友做过一个 jd 的自动登陆下单,进公司还有希望么。。现在想跳出来,不知道该去哪
|
35
scriptB0y OP @torment5524 可以来我们公司聊聊
|
37
palx 2017-10-19 19:39:50 +08:00
感谢分享,看这篇博文突然对爬虫工程师很感兴趣
|
39
leeyiw 2017-10-20 00:46:56 +08:00
帖子这么火,搭车招聘爬虫防护工程师,C/C++,有意私聊,base 杭州
|
42
macg0406 2017-10-20 10:39:13 +08:00
做某块类似于爬虫工作时遇到自定义字形、自定义编码的问题,发现网页上面也可以,@font-face + WOFF,不遵循现有编码,也会给爬虫带来不小的麻烦。不过现在还没见到有人这样用。
|
44
macg0406 2017-10-20 12:35:21 +08:00
@scriptB0y 可以像指定字体一样指定内容是否用自定义编码,如果希望被搜索到,就用正常编码,不希望被爬的,就用自定义编码。
|
45
xuqiccr 2017-10-20 15:19:55 +08:00 via iPhone
招实习生吗大佬
|
47
blackMountain 2017-10-20 17:11:00 +08:00
招前端吗大佬
|
48
scriptB0y OP @blackMountain 暂时不招前端 :doge:
|