mysql 遇到最愚蠢的查询性能问题，求解决

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› MySQL 5.5 Community Server

› MySQL 5.6 Community Server

› Percona Configuration Wizard

› XtraBackup 搭建主从复制

Great Sites on MySQL

› Percona

› MySQL Performance Blog

› Severalnines

推荐管理工具

› Sequel Pro

› phpMyAdmin

推荐书目

› MySQL Cookbook

MySQL 相关项目

› MariaDB

› Drizzle

参考文档

› http://mysql-python.sourceforge.net/MySQLdb.html

这是一个创建于 250 天前的主题，其中的信息可能已经有所发展或是发生改变。

mysql 8.0 Windows 版本。

有这么一个股市行情表：##

tb_quote (
 op_date  ,
 code  ,
 price  ,
 ratio  ,
 hsl  ,
   index unique idx_1 (op_date,code) ,
   index idx_2(code)
 )

每个交易日 6000 条，一年几百万条规模。

现在有一个简单需求：##

筛选某一天涨幅在（ 3%，5%）区间的股票，且换手率在（ 5%-10%)区间之间
查看后一天的股票涨跌情况。

实现语句很简单：

方案一： 第一条语句在 1 秒内返回结果：(20 条记录）

select code from tb_quote where op_date='yyyy-mm-dd' and ratio >3 and ratio <5 and hsl>5 and hsl <10

嵌套第二条后：

 select a.* from tb_quote a join ( 
   select code from tb_quote b where op_date='yyyy-mm-d1' and ratio >3 and ratio <5 and hsl>5 and hsl <10 ） t
 on a.code=t.code and a.op_date='yyyy-mm-d2'

执行时间就超过 1 分钟！

** 查看 mysql 解释： **

simple b,key idx_1 ,key_len=3,ref=const ,rows=s5373,filterd 0.05, Extra:using where
simple a, key idx_2, key_len=30, ref=tb_quote.code, rows=465 ,filtered 0.21, Extra:using where

** 方案二： ** 但是如果把第一条语句的结果保存在一个表 tmp 里面，并且 code 建立普通索引以后，变成：

select a.* from tb_quote a join (
 select code from tmp ) t
on a.code=t.codeand a.op_date='yyyy-mm-d3'

执行时间不超过 1 秒！！！

** 查看 mysql 解释：**

simple a, key idx_1, key_len=3, ref=const, rows=5365 ,filtered 100, Extra:useing where
simple tmp, key idx_code ,key_len=29,ref=a.f12 ,rows=1, filterd 100, Extra:using where

发现差别在：

次序不同，方案二子表 tmp 在前，方案一子表 b 在后；
filtered 值不同，方案二是 100 ，方案一只有 0.05 ；

不知道 mysql 是怎么优化的？如果不用中间表过渡的话，应该怎么写 sql ？

性能

优化

查询

15 条回复

Oldletter

250 天前

试试
```sql
SELECT a.*
FROM tb_quote a
WHERE a.op_date = 'yyyy-mm-d2'
AND EXISTS (
SELECT 1
FROM tb_quote b
WHERE b.op_date = 'yyyy-mm-d1'
AND b.ratio > 3
AND b.ratio < 5
AND b.hsl > 5
AND b.hsl < 10
AND b.code = a.code
);
```
或者写 cte
```sql
WITH filtered_codes AS (
SELECT code
FROM tb_quote
WHERE op_date = 'yyyy-mm-d1'
AND ratio > 3
AND ratio < 5
AND hsl > 5
AND hsl < 10
)
SELECT a.*
FROM tb_quote a
JOIN filtered_codes t
ON a.code = t.code
WHERE a.op_date = 'yyyy-mm-d2';
```
或者就只能改你的索引了

shfan

250 天前

如果使用 python ，我觉得可以用 dataframe ，而且也可以不用数据库，用 csv 文件本地加载数据更快，你这个数据量加载数据可能大概 1 秒，运算大概几十毫秒就能完成，如果运算条件多了，这种方式速度优势就明显了

LiaoMatt

250 天前

子查询的写法试过没

anonydmer

250 天前

这个场景为什么要用行数据库？换个列数据库一下子问题都解决了

godall

250 天前

@Oldletter #1 谢谢，你的方案一、方案二查询速度大概 45 几秒，跟我的区别不大。还是我的方案二速度快。

根据 mysql 的执行计划最后发现大表的索引用错了(用了 code 索引)所以慢，强制指定索引(force index)后就飞快：
````
SELECT a.* FROM tb_quote a FORCE INDEX(idx_1) JOIN (
SELECT code FROM tb_quote b
WHERE op_date='2025-01-14' AND ratio BETWEEN 3 AND 5 AND hsl BETWEEN 5 AND 10
) t ON a.code=t.code AND a.op_date='2025-01-10' ;
````

LonelyNoodles

250 天前

换个 influxdb 试试吧这种类型的数据是时序数据库擅长的

encro

250 天前

duckdb ，Polars ，PyArrow

sagaxu

250 天前

CBO 有时会错判，可能是数据采样失真，也可能其它原因。可以尝试用 ANALYZE TABLE ...刷新下统计信息。

512357301

250 天前 via Android

换列式数据库吧，行式数据库数据量大了写 SQL 烧脑，各种加索引，索引也占空间啊，列存相当于全局索引，快多了

realpg

PRO

250 天前

MYSQL 稍微复杂一丁点的查询一定要手动指定索引
不要让他自动分析，全是最垃圾索引

sagaxu

250 天前

@realpg Oracle 我都遇到过，之后大表查询我都手动指定索引，不再相信自动选的。Mysql 是我用过的数据库里最容易选错索引的，不但容易选错索引，它还容易选错执行顺序，还得强制指定连表顺序，连表索引，分组索引，排序索引等等。

realpg

PRO

250 天前

@sagaxu #11
mysql 你用非常容易选错索引都是抬举他了

只要是稍微复杂的查询，你库里有多条为每条复杂查询设计好的索引，且字段有重复的（就是有不同复合索引包含同一个字段），MYSQL 好像是故意的，他一定会选择错的索引

我们这边的一套系统的血泪经验接近 99%的错误索引选择率

realpg

PRO

250 天前

@sagaxu #11
我这边的系统，每个表几乎都是亿行数据起步，这么大的数据规模，基本所有的 WHERE 多条件查询都设计了专用索引，要不根本操作不动
经常是表占 50GB 空间，其中 2/3 是索引占的
然后实际就是，只要你不 FORCE INDEX ，那么 MYSQL 一定会选择最垃圾的索引
几乎没有例外我们全部测试过

godall

250 天前

@sagaxu #11 确实如此，谢谢！

1018ji

250 天前

嵌套，我又学了一招护城河，我感觉越来越没有人敢裁我了