V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wxf666  ›  全部回复第 22 页 / 共 34 页
回复总数  665
1 ... 18  19  20  21  22  23  24  25  26  27 ... 34  
2022-09-15 18:32:52 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@zzl22100048 有啥 bug 吗?我用这个库爬了好多小说了

@dfgddgf 我提供一个 Python 异步 + 多线程 的数据:

环境:Redmi Note 5 (高通骁龙 636 )的 Linux Deploy 里,Debian 11 arm64 ,Python 3.10 ,百兆 WIFI ,电池供电

流程:sqlite3 读取网址,aiohttp 并发下载多个章节,json 解析,每本书所有章节合并成一个 json ,编码成 UTF-16 ,多线程 lzma 压缩,每一千本保存一个 tar

速度:峰值 700 章节 /秒(每个章节需下载一个页面,大约在凌晨 3 点 ~ 7 点)
2022-09-15 15:15:42 +08:00
回复了 ztoben 创建的主题 Python Python 如何删除文件中指定范围的内容?
@ztoben seek 再 write 能满足吗?
2022-09-15 15:13:35 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@sunnysab 你 python 用啥做 html 的 parser ? lxml 的速度也不够吗?
2022-09-15 15:07:36 +08:00
回复了 ztoben 创建的主题 Python Python 如何删除文件中指定范围的内容?
啥意思。。

比如 a.part.1 、a.part.2 、a.part.3 ,每个 1MB ,合并成 3MB 的 a.txt ?

但 a.part.3 有可能写入不完整?

下次继续运行时,需要重新在 a.txt 的 2MB 处,写入 a.part.3 ?
2022-09-15 14:24:22 +08:00
回复了 sickick 创建的主题 Python lstrip()问题
[文档]( https://docs.python.org/zh-cn/3/library/stdtypes.html?highlight=lstrip#str.lstrip )说:

> 实际上 chars 参数并非指定单个前缀;而是会移除参数值的所有组合

因为 'o' in "/root/kyApi/wwwroot/transfer/avatar-",所以也会移除

> 参见 [str.removeprefix()]( https://docs.python.org/zh-cn/3/library/stdtypes.html?highlight=lstrip#str.removeprefix ) ,该方法将删除单个前缀字符串,而不是全部给定集合中的字符

你应该想用 str.removeprefix("/root/kyApi/wwwroot/transfer/avatar-")
2022-09-15 13:06:19 +08:00
回复了 wanqiuyao 创建的主题 Android 现安卓手机信号这块哪个品牌好一点
@cweijan 你们现在一般用 5G 干啥?

我开了 5G ,耗电变快了,但网络体验没有提高太多(原来 4G 也够用)
2022-09-15 13:04:15 +08:00
回复了 maichaide 创建的主题 Linux Linux 下好用的磁盘空间分析应用 baobab
感觉 ncdu 和这个很像
2022-09-15 12:15:21 +08:00
回复了 wanqiuyao 创建的主题 Android 现安卓手机信号这块哪个品牌好一点
好像不怎么见过吐槽安卓信号问题的?更常见的是卡顿问题?
2022-09-15 11:30:06 +08:00
回复了 qwq11 创建的主题 问与答 内网传大文件夹的工具
实在不行,用 BT 软件做个种,另一台电脑下载也行啊(狗头)
2022-09-15 10:57:36 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@dfgddgf 毕竟能了解这么多语言生态各自的爬虫方案的网友,可能不多

估计给出同一具体场景,各位网友给出自认为最好的方案,最后才容易对比
2022-09-15 10:47:44 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@dfgddgf 你每秒要爬多少网页啊?

要不你放点要爬的网页出来?可能有热心观众给出自己的爬法,和爬取速度统计
2022-09-14 21:48:47 +08:00
回复了 MrVito 创建的主题 Python 爬虫相关,关于 XPath 的疑问
@humbass xpath 不是 Python 的,只是 lxml 库的一个功能。这个库好像不支持 css 风格的查询

换成 BeautifulSoup 库就支持了:xxx.select('#tabItem0')

另外,我还是觉得 xpath 更方便描述 xml html
2022-09-14 21:32:15 +08:00
回复了 MrVito 创建的主题 Python 爬虫相关,关于 XPath 的疑问
@humbass js 本身也没有啥特别的语言特性,是用于描述 DOM 的吧

你是想说,无头浏览器能方便地,执行一些自己的 js 代码?
2022-09-14 20:49:09 +08:00
回复了 MrVito 创建的主题 Python 爬虫相关,关于 XPath 的疑问
@humbass 问一下,看起来都是调包,Python 是有啥明显的坑吗?
若是安卓的话,这里有篇[文章]( https://zixijian.github.io/2020/09/01/007.html),里面有提到:如何在 Linux Deploy 中,编程读取手机电量、控制是否允许充电等
2022-09-12 18:39:37 +08:00
回复了 iseki 创建的主题 问与答 有人存身份证号时丢掉最后一位吗
@agagega 那想得差不多一样,针对各个部分(行政区划代码、出生年月日、顺序码)进行各自编码,减少不必要的编码位浪费

也确实如你所说,意义不大。。
2022-09-12 18:24:22 +08:00
回复了 iseki 创建的主题 问与答 有人存身份证号时丢掉最后一位吗
@dcsuibian

修改一下:

`身份证号 / 1e5 % 1e8 < 19870912` 应该可以改成 `身份证号 % 1e13 < 1987091200000`


> 写身份证片段,然后列出所有相关的

这个需求,是不是要一直扫表了。。

实在不行,就实时转换成原身份证号再 LIKE 呗:

CONCAT(身份证号 DIV 100, MID('0123456789X', 身份证号 % 100 + 1, 1)) LIKE ...
2022-09-12 18:11:58 +08:00
回复了 iseki 创建的主题 问与答 有人存身份证号时丢掉最后一位吗
@dcsuibian 假设用『校检位视为两位数(那么身份证就是 19 位)』方法:

(`SQL` 大意,具体写要改成 `DIV`、`CAST(1e13 AS UNSIGNED)` 等)


1. 查找所有 x 省 y 市 z 区 /县 的人

- 不用索引:`身份证号 / 1e13 = 123456`

- 要用索引:`身份证号 BETWEEN 1234560000000000000 AND 1234569999999999999`


2. 查找所有 35 岁以上的人

- 不用索引:`身份证号 / 1e5 % 1e8 < 19870912`


3. 查找所有 x 省 y 市 z 区 /县 20 岁 ~ 35 岁 的人

- 要用索引:`身份证号 BETWEEN 1234561987091200000 AND 1234562002091299999`
2022-09-12 16:19:20 +08:00
回复了 iseki 创建的主题 问与答 有人存身份证号时丢掉最后一位吗
@agagega 分段存。。咋存能 < 50 位?

是想办法去除不可能存在的数字吗?

比如用 16 位来存出生年月日(足够 180 年)?
2022-09-12 16:14:14 +08:00
回复了 iseki 创建的主题 问与答 有人存身份证号时丢掉最后一位吗
@IvanLi127 @dcsuibian 一般身份证的模糊搜索,都是些啥需求呢?

- 查找所有 x 省 y 市 z 区 /县 的人?
- 查找所有 35 岁以上的人?
- 查找所有 x 省 y 市 z 区 /县 20 岁 ~ 35 岁 的人?
1 ... 18  19  20  21  22  23  24  25  26  27 ... 34  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5950 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 03:09 · PVG 11:09 · LAX 19:09 · JFK 22:09
Developed with CodeLauncher
♥ Do have faith in what you're doing.