V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Kobayashi  ›  全部回复第 12 页 / 共 55 页
回复总数  1098
1 ... 8  9  10  11  12  13  14  15  16  17 ... 55  
2022-04-19 05:49:38 +08:00
回复了 l0wkey 创建的主题 问与答 pyspider 是弃坑了么..有啥类似的集成式的爬虫框架推荐不
这还用选吗,当然是 Scrapy 。爬虫不需要可视化,这是伪需求,懂 XPath 和 CSS 选择器语法就够了。
说 requests 的可能是没写过大量爬虫,爬虫从来都不是一个 HTTP 下载+HTML 解析问题。当你做大量爬取时,你要考虑各种其他设计:
1. 队列,生成的待爬取 URL 越来越多,需要队列存储待爬
2. 队列是支持先入先出还是先入后出,直接对应深度优先爬取和广度优先爬取
3. 爬取中断了如何恢复,是支持队列固化还是使用 Redis 做队列
4. 如何针对被爬 URL 去重,同样去重指纹怎么固化
5. 避免频率过高爬取时,钱多直接上代理池,免费先做并发控制、人工时延。或者多开几台机器搞分布式。
6. 人工时延是针对 IP 还是 host ,要不要加随机抖动
7. 如果不考虑 IP 被封,高并发爬取是线程池还是异步。
8. 对于偶发的网络问题导致的 HTTP 请求失败,要不要加入自动重试。
9. 或者更扯淡一点,为了避免发散爬取时进入对方蜜罐爬取大量无用连接,耗尽连接池。如何做深度控制。
10. ……
还有各种各样的问题,Scrapy 和 Scrapy 插件提供了现成的解决方案。
2022-04-18 23:01:19 +08:00
回复了 rv54ntjwfm3ug8 创建的主题 Linux 为什么各国高校的 Linux 协会都这么热衷于搞镜像站?
前排都 TMD 喝多了,你从欧洲连美国试试。镜像站不就是把资源分布到离用户近的位置吗,顺带给学生们找点事儿干、练练手。
怎么舔的,求兄弟分享一下
2022-04-17 10:02:25 +08:00
回复了 hsfzxjy 创建的主题 分享发现 httpie 作者误将仓库设为私有导致丢失了 54k stars
@DiamondYuan 当时是删库,只是找回了仓库,star 没有恢复。
2022-04-15 18:15:34 +08:00
回复了 hsfzxjy 创建的主题 分享发现 httpie 作者误将仓库设为私有导致丢失了 54k stars
建议大家多读一读,学学如何用词,完美甩锅。
不要使用启动脚本,systemd 直接管理 daemon. 把 start 脚本里除去 nohup 的部分提取出来。
2022-04-14 08:24:13 +08:00
回复了 cherrysalo 创建的主题 macOS mac 怎样实现真全局代理
@vaf714172 @Hack3rHan
Clash X 普通模式就是 HTTP 、SOCKS 代理,增强模式是利用 TUN ,创建虚拟网卡改路由表优先走这块虚拟网卡。
而小火箭使用的是 Network Extension API ,这个 API 支持自定义 VPN 协议,实现更强大的功能。
在 iOS 上实现分流全局代理必须要 Network extension ,但 Mac 下没有 iOS 那么多限制,用 tun 也能解决,而且方便跨平台。况且 Network extension 需要灵活开发者账号(付费),还要特殊申请这个 API 的使用权限。
另外,由于苹果在 iOS 上的限制,通过 Network Extension 实现的全局分流 VPN 不支持进程名规则,一定情况下可以通过 User Agent 替代。

在 Network Extension 在 Mac 上出现之前,苹果官方支持的方式是 Kernel Extension 来全局分流。目前知道 AdGuard 和 Proxifier 使用过。不过非常不推荐 Proxifier ,由于作者没体验过 GFW ,它没有考虑 DNS 污染问题,在国内环境分流是有问题的,需要使用一个无污染 DNS 才行。
鸟个私房菜、ArchLinux Wiki ,好教程有的是。感觉你的真正需求是
好一点的教程❌
半小时的教程✅
2022-04-12 23:21:46 +08:00
回复了 shawnliu03 创建的主题 问与答 有没有离线版的 Notion 可用?
@shawnliu03 根本就没有这计划吧,先画个饼。引入真离线需要搞类似 Evernote 那样的本地远程数据库同步。完全颠覆了现有的模式。
再说,即便 Notion 不加离线功能业务也不断在增长,估值百亿。
我看不出 Notion 有加入离线模式的必要。还是不要抱什么期待的好。
2022-04-11 17:29:03 +08:00
回复了 Casey18 创建的主题 问与答 vscode 在 mac 重启后无法于合理的时间内解析 shell 环境
网络问题?禁止 oh-my-zsh 自动更新。
export DISABLE_AUTO_UPDATE=true
2022-04-04 23:17:06 +08:00
回复了 FreshOldMan 创建的主题 Alfred 为啥 alfred 不搞内置一个插件市场,感觉好可惜
https://www.packal.org/
https://www.alfredworkflows.store/

有,但都不是官方的,提交和更新都是问题。也许是作者不擅长 Web 开发没做?反正我现在的需求基本完全迁移到 raycast 了。
直营店不需要发票。直营店早上 10 点开门,9 点半就去排着,可以跳过预约。当然,你不着急也可以电话预约。

不好意思没看清,过保了就不要去了。直接去中关村吧。打开淘宝,搜索 MacBook 维修,区域筛选北京,然后一家一家点进去看有没有实体店地址,有的话基本都在中关村。先都问一边,让他们报个价,然后挑一家最便宜的。
Epub 还是多看吧。桌面端不知道哪个好点。Koodo 就算了,那 epub 支持非常渣。
竟然真有人用 Fn 切换输入法!
Ctrl-Up, Ctrl-Down 默认被 Mission Control 占用
再帮你加一个 /srv
2022-03-25 20:04:58 +08:00
回复了 Goalonez 创建的主题 程序员 Popclip 好像会造成 idea 重复粘贴
直接卸载,弹啊弹的但实际用到非常少。最操蛋的还是副作用,复制粘贴常常失灵。
2022-03-22 21:25:45 +08:00
回复了 zinwalin 创建的主题 git .git/objects 有 800 多兆,怎么清理合适 ?
2022-03-21 22:20:50 +08:00
回复了 A3m0n 创建的主题 macOS 启动终端的时候速度特别慢是什么原因?
@Kobayashi 和 login 没什么关系,你可能没搞清 login 命令,login 基本就是在 zsh -il.
1 ... 8  9  10  11  12  13  14  15  16  17 ... 55  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   871 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 50ms · UTC 21:24 · PVG 05:24 · LAX 14:24 · JFK 17:24
Developed with CodeLauncher
♥ Do have faith in what you're doing.