09丨子查询子查询的种类都有哪些如何提高子查询的性能
文章目录
09丨子查询:子查询的种类都有哪些,如何提高子查询的性能?
上节课我讲到了聚集函数,以及如何对数据进行分组统计,可以说我们之前讲的内容都是围绕单个表的 SELECT 查询展开的,实际上 SQL 还允许我们进行子查询,也就是嵌套在查询中的查询。这样做的好处是可以让我们进行更复杂的查询,同时更加容易理解查询的过程。因为很多时候,我们无法直接从数据表中得到查询结果,需要从查询结果集中再次进行查询,才能得到想要的结果。这个“查询结果集”就是今天我们要讲的子查询。
通过今天的文章,我希望你可以掌握以下的内容:
子查询可以分为关联子查询和非关联子查询。我会举一个 NBA 数据库查询的例子,告诉你什么是关联子查询,什么是非关联子查询;
子查询中有一些关键词,可以方便我们对子查询的结果进行比较。比如存在性检测子查询,也就是 EXISTS 子查询,以及集合比较子查询,其中集合比较子查询关键词有 IN、SOME、 ANY 和 ALL,这些关键词在子查询中的作用是什么;
子查询也可以作为主查询的列,我们如何使用子查询作为计算字段出现在 SELECT 查询中呢?
什么是关联子查询,什么是非关联子查询
子查询虽然是一种嵌套查询的形式,不过我们依然可以依据子查询是否执行多次,从而将子查询划分为关联子查询和非关联子查询。
子查询从数据表中查询了数据结果,如果这个数据结果只执行一次,然后这个数据结果作为主查询的条件进行执行,那么这样的子查询叫做非关联子查询。
同样,如果子查询需要执行多次,即采用循环的方式,先从外部查询开始,每次都传入子查询进行查询,然后再将结果反馈给外部,这种嵌套的执行方式就称为关联子查询。
单说概念有点抽象,我们用数据表举例说明一下。这里我创建了 NBA 球员数据库,SQL 文件你可以从GitHub上下载。
文件中一共包括了 5 张表,player 表为球员表,team 为球队表,team_score 为球队比赛表,player_score 为球员比赛成绩表,height_grades 为球员身高对应的等级表。
其中 player 表,也就是球员表,一共有 37 个球员,如下所示:
team 表为球队表,一共有 3 支球队,如下所示:
team_score 表为球队比赛成绩表,一共记录了两场比赛的成绩,如下所示:
player_score 表为球员比赛成绩表,记录了一场比赛中球员的表现。这张表一共包括 19 个字段,代表的含义如下:
其中 shoot_attempts 代表总出手的次数,它等于二分球出手和三分球出手次数的总和。比如 2019 年 4 月 1 日,韦恩·艾灵顿在底特律活塞和印第安纳步行者的比赛中,总出手次数为 19,总命中 10,三分球 13 投 4 中,罚球 4 罚 2 中,因此总分 score=(10-4)×2+4×3+2=26,也就是二分球得分 12+ 三分球得分 12+ 罚球得分 2=26。
需要说明的是,通常在工作中,数据表的字段比较多,一开始创建的时候会知道每个字段的定义,过了一段时间再回过头来看,对当初的定义就不那么确定了,容易混淆字段,解决这一问题最好的方式就是做个说明文档,用实例举例。
比如 shoot_attempts 是总出手次数(这里的总出手次数 = 二分球出手次数 + 三分球出手次数,不包括罚球的次数),用上面提到的韦恩·艾灵顿的例子做补充说明,再回过头来看这张表的时候,就可以很容易理解每个字段的定义了。
我们以 NBA 球员数据表为例,假设我们想要知道哪个球员的身高最高,最高身高是多少,就可以采用子查询的方式:
|
|
运行结果:(1 条记录)
你能看到,通过 SELECT max(height) FROM player 可以得到最高身高这个数值,结果为 2.16,然后我们再通过 player 这个表,看谁具有这个身高,再进行输出,这样的子查询就是非关联子查询。
如果子查询的执行依赖于外部查询,通常情况下都是因为子查询中的表用到了外部的表,并进行了条件关联,因此每执行一次外部查询,子查询都要重新计算一次,这样的子查询就称之为关联子查询。比如我们想要查找每个球队中大于平均身高的球员有哪些,并显示他们的球员姓名、身高以及所在球队 ID。
首先我们需要统计球队的平均身高,即 SELECT avg(height) FROM player AS b WHERE a.team_id = b.team_id ,然后筛选身高大于这个数值的球员姓名、身高和球队 ID,即:
|
|
运行结果:(18 条记录)
EXISTS 子查询
关联子查询通常也会和 EXISTS 一起来使用,EXISTS 子查询用来判断条件是否满足,满足的话为 True,不满足为 False。
比如我们想要看出场过的球员都有哪些,并且显示他们的姓名、球员 ID 和球队 ID。在这个统计中,是否出场是通过 player_score 这张表中的球员出场表现来统计的,如果某个球员在 player_score 中有出场记录则代表他出场过,这里就使用到了 EXISTS 子查询,即 EXISTS (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id) ,然后将它作为筛选的条件,实际上也是关联子查询,即:
|
|
运行结果:(19 条记录)
同样,NOT EXISTS 就是不存在的意思,我们也可以通过 NOT EXISTS 查询不存在于 player_score 表中的球员信息,比如主表中的 player_id 不在子表 player_score 中,判断语句为 NOT EXISTS (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id) 。整体的 SQL 语句为:
|
|
运行结果:(18 条记录)
集合比较子查询
集合比较子查询的作用是与另一个查询结果集进行比较,我们可以在子查询中使用 IN、ANY、ALL 和 SOME 操作符,它们的含义和英文意义一样:
还是通过上面那个例子,假设我们想要看出场过的球员都有哪些,可以采用 IN 子查询来进行操作:
|
|
你会发现运行结果和上面的是一样的,那么问题来了,既然 IN 和 EXISTS 都可以得到相同的结果,那么我们该使用 IN 还是 EXISTS 呢?
我们可以把这个模式抽象为:
|
|
SELECT * FROM A WHERE EXIST (SELECT cc FROM B WHERE B.cc=A.cc)
|
|
SQL: SELECT player_id, player_name, height FROM player WHERE height > ANY (SELECT height FROM player WHERE team_id = 1002)
|
|
SQL: SELECT player_id, player_name, height FROM player WHERE height > ALL (SELECT height FROM player WHERE team_id = 1002)
|
|
SQL: SELECT team_name, (SELECT count(*) FROM player WHERE player.team_id = team.team_id) AS player_num FROM team
|
|
文章作者 anonymous
上次更新 2024-05-28