V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 14 页 / 共 174 页
回复总数  3478
1 ... 10  11  12  13  14  15  16  17  18  19 ... 174  
34 天前
回复了 dawnzhu 创建的主题 程序员 Python 中 super 用法
语法没有错误,意义就要看应该放在哪一行
国产不太热门的种子,超过两周,就要靠迅雷了,仅靠 bt 软件非常难下
34 天前
回复了 ota 创建的主题 Python 求 Python 初学者书籍推荐
cookbook
35 天前
回复了 jerrypp 创建的主题 生活 车贷没谈拢,狗销售给我退订金了
年化 9 是怎么算出来的?
35 天前
回复了 Fdyo 创建的主题 微软 Microsoft Copilot 已经支持中国
copilot 还会反过来问我问题,真・聊天?
@Mystery0 #31
不是这个意思
例如三个用户都请求相同的 A 页面(同一个课程表什么的),但在服务器方看来,就是贵司一个 ip 对 A 请求了三次;所以这三个 A 的请求,最好能减少到一次,另两个以缓存返回给用户
@Mystery0 #29
这样说就比较明显了,要么就是对方反爬,要么就是对方机器也抗不住了

整体看下来,你们不是一个主动爬虫,就是不会游走爬取“未知”的内容,更像是个数据代理,把客户请求及爬取返回内容优化?
如果内容有大量重复,建议按规则做缓存,减少爬取次数
当然,缓存要准确,不然就相当于你们“制造”了错误数据,信用断崖下降了;而且缓存的内容涉及隐私的话,还要凭良心“加密”才缓存
“大量”是个虚词
先说有没有成功的,还是全部都出错
如果并非全部出错,成功的数量也不少,不是零零星星几个的话,代码应该没问题,更多是链路中间的问题

现在的 web 服务器,没有反爬的话,都不像话
你这里写的都是些很基础的爬虫知识,也不晓得你有没有做高级抗反爬
现在很多都是 cdn 反爬,例如 cf 的五秒盾,很难破,基本需要降频,高频就需要不断变换 ip ,另外还有客户端生成 token 这些,都需要让客户端抗指纹

这里还有一个重点你没说,既然是需要登录,是有大量帐号么?还是帐号都是用户自己的?
如果都是贵司提供,不断复用,被风控那基本都是秒级的事,能爬几年真是不可思议
@HeyCaptainJack #9
参考力拓案
还是花钱吧,一不小心还可能碰了国家机密
PS: 我广州的,大部分发票是“广州晶东”,没错,就是水晶的晶
你放上来的两张发票,销售方就不同,你细看
给你个提醒:
web/app 的京东不是销售东西给你的京东,虽然都是京东集团旗下,但各自独立核算的
价格保护或者 plus 之类的东西应该只是前者给的,后者不管这个,发票是后者

再给个提醒:
京东金融,白条之类的,跟上述又不同,也是独立核算的

有先例,若干年前有人打官司告电商平台京东,被告知告错了,要告发票上的那个京东,搜搜应该能搜到这事
36 天前
回复了 zsj1029 创建的主题 宠物 有玩鸟的吗
@skydcnmana #29
那就好好养呗

我本来就不是个随意消费的人,买东西都要比较一下
宠物涉及生命就更加了,以前养过 30 年猫,最后一只养到 17 岁寿终,之后就没再养了,一来看着宠物离去很伤感,二来小时是放养,猫自己去户外找地方排泄不用理,上楼后用猫砂,感觉自己没那么勤去处理,不算很适合养宠物的人
1 ... 10  11  12  13  14  15  16  17  18  19 ... 174  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2837 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 14:12 · PVG 22:12 · LAX 06:12 · JFK 09:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.