V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wxf666  ›  全部回复第 14 页 / 共 27 页
回复总数  523
1 ... 10  11  12  13  14  15  16  17  18  19 ... 27  
2022-09-27 17:33:39 +08:00
回复了 su2018 创建的主题 MySQL mysql 赋值问题
1. 确实,本地可构建个类似的语句来复现,不知缘由:

*( V 站排版原因,开头有全角空格。若要复制运行,记得删除)*

```mysql
WITH
  nums(num) AS (
   VALUES ROW(1), ROW(2), ROW(3)
 )

SELECT @total, @total := sum(num)
FROM nums, (SELECT @total := 0) t
GROUP BY num;
```



2. 如果你只是想要『上一行的数据』,你可以使用*(连 SQLite 都支持的)*窗口函数 `LAG`:

```sql
WITH
  nums(num) AS (
   VALUES ROW(1), ROW(2), ROW(3) -- SQLite 写法:VALUES (1), (2), (3)
 )

SELECT num, LAG(num) OVER(ORDER BY num)
FROM nums;
```



3. 另外,[MySQL 官方文档]( https://dev.mysql.com/doc/refman/8.0/en/user-variables.html ) 很不推荐你图片中的用法:

- 除了 `SET` 语句外,不应在同一条语句内赋值和读取一个用户变量*( 5.7 版本文档:As a general rule, other than in SET statements, you should never assign a value to a user variable and read the value within the same statement )*

- 涉及用户变量的表达式的求值顺序未定义*( 8.0 版本文档:The order of evaluation for expressions involving user variables is undefined. For example, there is no guarantee that SELECT @a, @a:=@a+1 evaluates @a first and then performs the assignment )*

- 『在 `SELECT` 中使用 `:=` 为用户变量赋值』已被弃用,未来会移除*( 8.0 版本文档:Previous releases of MySQL made it possible to assign a value to a user variable in statements other than SET. This functionality is supported in MySQL 8.0 for backward compatibility but is subject to removal in a future release of MySQL )*
@mizuBai 没怎么用过。这货能利用索引,只读 几 KB ~ 几十 KB ,就能找到指定节点数据吗?

我觉得如果楼主 @LuckyPocketWatch 要换存储格式,这点很重要

另外,简单搜了搜资料,很多人都说 feather parquet pickle 等格式都比 hdf5 读写速度快、体积小

看来 csv 很不适合存大量数据了( json xml 同理)
2022-09-25 13:15:51 +08:00
回复了 shubiao 创建的主题 问与答 红米 8A(低端安卓),活路何在?
@shubiao 那你继续拿以前的苹果用不就行了
前排问一下,一直说的『单表超过 x 千万后,效率瞬间下降』,是因为 B+ 树层数变高(这个量级应该是 3 层变为 4 层吧),但缓存没变(比如,只缓存了前两层),导致看起来原本实际进行一次 IO ,现在需要两次,即多一倍耗时?

如果是这样,那楼主看看现在是不是已经 4 层 B+ 树了,若是就不必要分表了?( 4 层可以容纳上百亿行了吧)
2022-09-25 12:53:48 +08:00
回复了 shubiao 创建的主题 问与答 红米 8A(低端安卓),活路何在?
实在不行,上海鲜市场淘个旧旗舰呗。比如小米 8 骁龙 845 好像三四百就可以买到了
2022-09-24 15:39:02 +08:00
回复了 humbass 创建的主题 Node.js 比较好奇大家时间都是怎么存数据库的
肯定存时间戳啊

时区问题这么复杂,你确定数据库真的都能处理好了?

万一以后中国又实行夏令时,你数据库咋处理。。
2022-09-24 12:52:24 +08:00
回复了 lingaolc 创建的主题 问与答 请问如何方便地避免:大文件夹拷贝后,部分文件损坏
感觉 WinRAR 的恢复记录功能,会对你有帮助(如果不想压缩一遍再添加恢复记录,可用类似的独立功能软件,如 MultiPar )

如,设定生成 3% 的恢复记录,允许你出错最多不超过 3% 的情况下,恢复原文件

既能帮你验证文件,又能修补你说的复制出错,还能一定程度预防存储出错(当然,肯定多份备份更好)
@LuckyPocketWatch Python 有个 lxml 库*(该库是对 libxml2 的包装,速度很快)*,支持你说的『不需要解析树,查询某个节点』场景( SAX )

文档地址: https://lxml.de/tutorial.html#event-driven-parsing


另外,不考虑转成数据库嘛?我觉得这个场景,SQLite 的速度都能吊打 XML 。。
上百 GB 的 XML ,咋修改某些节点?

若要在偏开头位置插入一字节的数据(或实际等效操作,如 999 修改为 1000 ),岂不要整个 100GB 往后挪 1 字节??
2022-09-22 10:45:28 +08:00
回复了 xuanxiao 创建的主题 Android 小米 12s ultra 和华为 mate50 怎么选
@superchijinpeng 你们现在有什么 5G 的应用场景吗?

我是 K40 ,支持 5G ,但开了后耗电,且网络体验提升不大(即,原来 4G 够用)

总觉得当前 5G 不是手机的刚需
2022-09-20 22:25:06 +08:00
回复了 monetto 创建的主题 程序员 Python 操作 SQLite 异常
@monetto 9 楼给的官方文档说了,一个 connection 内同时读写的行为是未定义的。即,按道理,是有问题的

你试试每个线程一个 connection ?
2022-09-20 21:03:00 +08:00
回复了 monetto 创建的主题 程序员 Python 操作 SQLite 异常
我这里测试没崩啊

Windows 10
Python 3.10
PyCharm 2021

另外,根据[文档]( https://sqlite.org/isolation.html )所说,你不应该在同一个连接内同时读写数据库,此行为未定义

最后,贴代码起码用下 Markdown 啊。回复用不了就算了,帖子还不用。。
2022-09-16 00:56:41 +08:00
回复了 KIRAYOMATO 创建的主题 问与答 安卓和 pc 互传文件的最佳方案?
我目前使用以下方式,在资源管理器中,通过 Z 盘访问安卓手机的 /sdcard:

- 安卓端 Termux 上启动 `sshd`
- 电脑端 cmd 运行 `net use Z: \\sshfs.kr\192.168.1.2!8022\storage\emulated\0`


前提:

1. Windows 安装 [SSHFS-Win]( https://github.com/winfsp/sshfs-win )
2. Windows SSH 公钥已放入 Termux 的 `~/.ssh/authorized_keys`
2022-09-15 23:22:34 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@zzl22100048

> 高并发下有概率出现读取 tcp 流的异常和 broken pipe 异常;

Emm 。。反正我做了错误检测,超时 /错了就重试。也不知道频不频繁


> session 不能携带之前的 cookie ;

也没注意这个问题,因为爬的小说不要求登录。。
2022-09-15 19:41:24 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
@dfgddgf 感觉脚本语言的网络库、正则库、网页解析库等,底层应该都是 C/C++ 实现的吧

Python 、Perl 、Ruby 速度应该差不多的

perl 好像是文本处理较为优势,听说搞生物的常用?
2022-09-15 19:05:42 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
@dfgddgf 你在上一个帖子的意思,不是『如何用最少的人工,写出速度最快的爬虫』嘛

感觉你有几亿数十亿页面要爬取解析来着。。

所以想看看你最后,是如何用最优雅的姿势,写出最能压榨机器性能的爬虫的
2022-09-15 18:55:39 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
@dfgddgf 你本地测试,平均每秒能爬下来并解析多少页面呢

想看看这 perl 的效率如何
2022-09-15 18:47:48 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
每秒大概能爬多少个页面?
2022-09-15 18:32:52 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@zzl22100048 有啥 bug 吗?我用这个库爬了好多小说了

@dfgddgf 我提供一个 Python 异步 + 多线程 的数据:

环境:Redmi Note 5 (高通骁龙 636 )的 Linux Deploy 里,Debian 11 arm64 ,Python 3.10 ,百兆 WIFI ,电池供电

流程:sqlite3 读取网址,aiohttp 并发下载多个章节,json 解析,每本书所有章节合并成一个 json ,编码成 UTF-16 ,多线程 lzma 压缩,每一千本保存一个 tar

速度:峰值 700 章节 /秒(每个章节需下载一个页面,大约在凌晨 3 点 ~ 7 点)
2022-09-15 15:15:42 +08:00
回复了 ztoben 创建的主题 Python Python 如何删除文件中指定范围的内容?
@ztoben seek 再 write 能满足吗?
1 ... 10  11  12  13  14  15  16  17  18  19 ... 27  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1035 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 20:19 · PVG 04:19 · LAX 13:19 · JFK 16:19
Developed with CodeLauncher
♥ Do have faith in what you're doing.