V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  fisherman0459  ›  全部回复第 4 页 / 共 7 页
回复总数  133
1  2  3  4  5  6  7  
2022-02-18 22:43:04 +08:00
回复了 herozzm 创建的主题 信息安全 网站被拥有强大 ip 代理池的爬虫搞, ua 随机变化,怎么办
用字体反爬给爬虫喂点“屎”
参考天眼企查猫眼这些
https://v2ex.com/t/779527

https://v2ex.com/t/606561

上个同主题已经被 MOD 挪到 /go/promotions ,大家的意见建议批评也不在乎,你只管一而再再而三的推广。
出发点是好的 帮助部分人找感兴趣项目
但是怎么评选的呢 介绍只有别人库的一句 slogan 很难看到这个库额外做了什么对人有价值的整合
如果能结合机器学习做到理解用户输入来搜索相关库那就很好了
star 不应该是这个库的主要动力,这样很难让人不疑惑会不会慢慢变成竞价排名
@aino #33
觉得爬虫这件事如果从爬取事件本身入手可能会好一点.
感觉数据都可以造,低成本数据像 headers 这种造起来成本很低, 防起来感觉意义不是特别大,
但是如果数据本身的造假难度很高的话, 可能很容易会影响正常的用户使用体验.
可以考虑字体混淆(随机字体生成+随机映射+随机字体扭曲)+定期更新随机策略.
不过也是防不了人工和 OCR, Fingerprints + 限流 + 代理池检测可能有点帮助.
如果只针对登录用户的数据请求, 以上策略绑定到用户再加上接口流量检测及时账号自动管控这样应该能防止大部分的异常请求吧.
2021-11-24 11:04:13 +08:00
回复了 smileherd 创建的主题 分享发现 分享下我对挣大钱的一些思考
尹吾唱《各人》了吗
2021-08-04 17:39:52 +08:00
回复了 LeeReamond 创建的主题 问与答 Chrome 有什么办法离线封存当前工作标签吗?
Stash
2021-07-18 22:16:46 +08:00
回复了 Turkestan 创建的主题 职场话题 上个班真累,动不动就被老员工摆一道
如果只是就事论事的话,希望大家在把话题逐渐偏离前 @Turkestan 能提供一些更多的细节以供大家判断
2021-04-20 19:37:42 +08:00
回复了 eroko 创建的主题 问与答 8 瓶水 2 瓶有毒 6 个耗子 要求单次检验出结果
@xdeng 如果六只里面只死了一只呢?
FDBC321F-11AD8358-97A1254C-6B4E30A1-C31EE3A0
已激活,感谢
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2267 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 08:10 · PVG 16:10 · LAX 01:10 · JFK 04:10
Developed with CodeLauncher
♥ Do have faith in what you're doing.