V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  fate0  ›  全部回复第 1 页 / 共 1 页
回复总数  20
2023-07-26 19:47:34 +08:00
回复了 fate0 创建的主题 酷工作 [武汉] 小米安全研发方向招聘啦,中高级岗位都有
@beiciye 对的,是安全部门的,欢迎老哥来投
2023-07-26 19:47:01 +08:00
回复了 fate0 创建的主题 酷工作 [武汉] 小米安全研发方向招聘啦,中高级岗位都有
@ImACat 可以直接在我们内推平台搜索下,应该都是网络和基础组件相关的岗位
目标设置小一点,一年三篇,多了算加更 http://blog.fatezero.org/
免费的 https://github.com/fate0/proxylist 了解一下
@slideclick 简单的方法就是转成 c 代码,需要保密的代码我直接用 go 写
@jason0916 功能多不多,主要看 dev protocol 开放的接口多不多,chrome 61 之后多了个 Network.requestIntercepted,看到这个 method,我就觉得 headless chrome 能够写爬虫了。
@chengxiao 区别是更接近 Dev Protocol 吧,selenium 依赖 ChromeDriver,然而 ChromeDriver 还是使用 Dev Protocol 来操作 chrome (这段话单讲 chrome...)
```
sleep 1 && echo 'content' | mail -s 'title' [email protected]
```
2017-06-22 15:04:06 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 另外使用整个 request 进行 hash 还是 只使用 url 进行 hash,也可以在 dupefilter 里修改,都不是特别难。
2017-06-22 15:02:36 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 可能我说的不清楚,我现在说的就是分布式爬虫的情况,可以稍微修改一下 scrapy-redis 里的 dupefilter 文件,不使用之前 redis set 去重的方式,在这里改成使用 bloom filter,将 bloom filter 所使用的 bit 数组用 Redis 的 bitmap 进行存取。其他地方不需要修改。
2017-06-22 14:16:05 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 1000+w 的数据去重也可以用 bloom filter 啊,就用 Redis 的 bitmap 存 bit 数组就可以了。
2017-06-22 09:02:38 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray https://github.com/aivarsk/scrapy-proxies 这代码也是从一个文本读内容啊,完全可以自己实现一个 download middleware 从 redis 里取。
2017-06-21 23:27:03 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 这不算什么问题吧,出现 exception 就换下一个代理,商业代理偶尔也有抽风的时候,也会出现下一刻不可用,就看换代理的频率是不是可以接收的范围内。
2017-06-21 23:18:35 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray readme 里说可以全加载到内存,只不过想体现这个程序的方便而已,我个人喜欢把所有的代理都放在 redis 里,每间隔 15min 就把 proxylist 拉下来换一批,2000+个代理,15min 内一般项目一般都够用了,用 proxylist 的优点是自己不用再维护一个 proxy pool, 缺点是没法给每个 proxy 打分统计、proxylist 上的代理,可能在某个地区没法使用。
2017-06-21 22:47:35 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
代理部分,下次可以试试我写的代理程序 [https://www.v2ex.com/t/369905]( https://www.v2ex.com/t/369905) (。・`ω´・)
2017-06-21 11:51:01 +08:00
回复了 fate0 创建的主题 Python 写了个抓代理程序,维护了个代理池
@inmyfree 之前也想抓这个网站,但是这个网站更新的速度是小时级的...后期可能会加上去,不过数据肯定不是全抓下来。
2017-06-21 06:48:25 +08:00
回复了 fate0 创建的主题 Python 写了个抓代理程序,维护了个代理池
@v1024 拿 travis 干这事感觉挺好的,免费、方便、不被墙 =。=
2017-06-21 06:46:39 +08:00
回复了 fate0 创建的主题 Python 写了个抓代理程序,维护了个代理池
@mingyun 那几个网站被国内墙了呗,等着看其他网站的结果就好了。
2017-04-05 19:46:02 +08:00
回复了 prasanta 创建的主题 Python Python 开源项目结构总结
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1194 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 23:21 · PVG 07:21 · LAX 15:21 · JFK 18:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.