V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 290 页 / 共 313 页
回复总数  6259
1 ... 286  287  288  289  290  291  292  293  294  295 ... 313  
2019-01-29 21:09:48 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@37Y37 #27 顺便再举两个例子:
比如你做了个网站,搜索引擎来爬你,你觉得违法的话那你的网站就不要让人家索引了呗,自己想办法导用户去;
比如你控制着任天堂的 eshop,有人来爬不同地区的游戏价格,然后做了个比价网站给其他玩家用来参考,不管你觉得违不违法你都不一定会去管,因为根本不影响你的利益,有了这网站之后一部分玩家还会买游戏买得更欢,你收厂商的授权费和抽成还是一样的收,皆大欢喜。
2019-01-29 20:57:22 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@37Y37 #26 前提有很多,数据的版权问题、数据的用途、部分数据对源站点是否重要(比如原创视频、电商网站的价格、景点 /票务类网站的余票 /价格信息)、用户协议中是否有标明禁止爬虫采集 /逆向工程等都可以影响爬虫的违法与否
2019-01-29 20:51:15 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@szetrov #22 这是阿里的
@locoz #1 追加一下,阿里的阿里小蜜系列客服
你基本不要指望阿里的客服能帮你解决问题,就像你基本不要指望能找得到腾讯的真人客服一样
2019-01-29 11:05:48 +08:00
回复了 drive 创建的主题 Nintendo Switch switch 终于更新中文了!
我觉得中文系统界面挺好,虽然就算有这个也是吃灰
2019-01-29 10:37:59 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@locoz #13 https://i.imgur.com/v5Mqqcy.png 补上第二种代码的图
2019-01-29 10:37:29 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
爬虫是需要啥东西都了解一下的,不是单单学点前端知识就能解决问题,如果单纯的是为了破解的话应该学的是逆向知识,举两个常见的例子吧:
1、轻度混淆、没有用 eval 什么的加密的 JS 代码
https://i.imgur.com/RGdMrsY.png
这种级别的代码根本不需要什么前端知识,会用浏览器开发者工具调试的人随便就能找出需要的东西是在哪生成的,别人调用的什么库直接上 google 查就好了,一些关键词( md5、sha256、aes...)也很容易辨认,一眼就能看出是干嘛的,再打个断点就知道具体参数是什么了,所以跟前端知识没啥关系。
2、高度混淆 /加密+做了各种反调试检测的 JS 代码
https://i.imgur.com/undefined.png
这种代码你让做前端开发的人来看都看不懂,对于这种 JS 代码来说,普通的前端知识根本不重要,需要的是用一些更底层的东西来恢复出这一坨屎一样的代码它原来的样子,而且一些反调试的操作根本不会是正常的前端开发会用上的,所以跟前端知识依然没啥关系。

然后一些其他领域的东西也能作为你的工具,像你爬淘宝的话如果搞不定属于上面提到的第二种 JS 代码的 ua 参数生成,你还可以使用测试领域的自动化测试来做,如果觉得 PC 上的自动化测试对于当前需求的性价比不高,想要速度更快一些、资源占用更少一些、更稳定一些的,你还能在自动化测试的基础上加上安全领域的中间人攻击甚至更黑科技一点的操作,所以方法的多样性非常重要。(当然我遇到过的绝大多数只会用自动化测试工具爬的人水平也不咋样,逆向还是得会的)
2019-01-28 09:13:46 +08:00
回复了 KasuganoSoras 创建的主题 推广 租了一个新机柜,现在开始出租 BGP 独立服务器啦
有点贵。。我选择套路云+自家服务器
现在的 B 站是打开 app 满屏营销号、抖音快手类小视频聚合。“ B 站两大区”之一的鬼畜区也混进了一群拿别人写好的拼接软件做视频然后花钱刷榜的。舞蹈区刷榜也明显挺严重的,封面一个卖肉图,淘宝买个刷收藏的分分钟就上榜了,数据与正常的相差极大。
然后直播间现在的人气值倍率似乎也改成与其他平台类似的了,几个人显示几百,逐渐同质化。
除了番剧、播放前无广告以及一些曾经看的 up 主还在 B 站上传视频以外,我已经感受不到 B 站与其他国内视频网站的区别了🤣🤣🤣。
2019-01-24 23:01:42 +08:00
回复了 codelover2016 创建的主题 Python Python 有什么无脑 OCR 库能搞掂下面这种图片么?
这种简单的纯数字可以切片好直接对比像素点,比 OCR 的效率还高
2019-01-24 10:36:04 +08:00
回复了 9684xtpa 创建的主题 全球工单系统 腾讯,你能否再傲娇一点
支持维权
@mytsing520 #1 查了一下确实是外包给平安做的
2019-01-23 11:03:00 +08:00
回复了 Weny 创建的主题 分享创造 给前几天的 NSFW 数据集写了一个多线程下载支持
捞一下,至今未修复
2019-01-21 08:49:19 +08:00
回复了 SamsonWang 创建的主题 问与答 大家是如何处理电子垃圾的,如:旧充电头
貌似我家这种 5V0.5A 的头现在都不见了,起步都是 5V1A 的
都有,主要看个人习惯,但是用 pycharm 久了会自然而然的写出 pep8 规范的。
1 ... 286  287  288  289  290  291  292  293  294  295 ... 313  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2910 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 59ms · UTC 13:35 · PVG 21:35 · LAX 06:35 · JFK 09:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.