hack_hu 发表于 2019-5-12 20:32

【笔记】多表查询:复杂问题的拆解

# 多表查询概念
**多表查询** 就是查询所需要的数据列存在于多个数据表中,我们需要根据多个表的关系性,将他们进行连接操作,连接成 1 张表后,对数据集进行查询。(多表查询也称:连接 / 联结查询)

## 常用连接方式
**连接查询** 大体可以分为,「内连接」和「外连接」两种。外连接通常分为「左外连接」和「右外连接」两种。

二者的区别在于 **内连接** ( INNER JOIN )所产生的数据集,需要保证连接的字段在连接的两张表中都存在。即所产生的结果是 **两张表的子集** 。
```sql
SELECT table1.id,
           table2.name
FROM table1 INNER JOIN table2 ON table1.id=table2.id; # 只有在 table1.id 在 table2.id 存在,或table2.id 在 table1.id 存在,会出现在查询结果
```
外连接以「**左外链接**」( LEFT JOIN )为例。左外连接会显示所有在左表中存在的字段以及 **右边连接字段在左表中有参照** 的数据。
```sql
SELECT table1.id,
           table2.name
FROM table1 LEFT JOINtable2 ON table1.id=table2.id; #table1 所有数据段显示,以及 table2.id 在 table1.id 存在,会出现在查询结果
```
# 如何拆解查询
涉及到多张表的连接查询,问题的复杂度会直接上升,这时我们需要理清问题,进行逐步拆解。

以我本周学习的一个多表查询为例:「查询兴趣为英语口语的用户的 user_id、年龄、城市、上次跟进人和创建时间,只要最新数据」。

数据库中存放了四张表:

user -- 存放用户的基本信息
user_ city -- 存放客户的城市信息
user_agent -- 存放代{过}{滤}理信息
user_record -- 存放用户的记录

根据题目我们需要做两个筛选:

1、兴趣:「英语口语」。通过 where 语句过滤。

2、只要每个用户的最新数据,需要在 user_record 中找出最新数据。对用户跟踪记录表先做一个筛选,可以通过 GROUP BY + MAX() 实现。

根据这两条我们可以开始写我们的 SQL 语句
```sql
SELECT DISTINCT us.`id` AS '用户ID',
      us.`age` AS '用户年龄',
      ci.`name` AS'城市名',
      us.​`agent_id` AS '代{过}{滤}理人 ID',
      las.`created_time` AS '创建时间'
FROM user us
INNER JOIN (
SELECT uesr_id,MAX(created_time) AS 'last_record' -- 只要最新记录
FROMuser_record
where user_interest=1 -- 筛选出兴趣为英语口语
GROUP BY user_id
) las ON las.user_id=cus.`id`
LEFT JOIN user_city ci ON us.`city_id`=ci.`id` -- 匹配对应的用户,渠道可能不存在
ORDER BY us.`id` DESC
```
在代码中所有的连接都采用的「**左连接**」(LEFT JOIN),是为了在实际应用中保证主数据完整性,用户信息为主数据,用户跟踪信息、渠道信息都是附属数据(未在右连接表中匹配到的字段会自动填充为 NULL)。
# 总结
对于多表查询等复杂性的问题,我们需要先理清思路,将大问题或者综合问题拆解成小问题,逐一攻破。

1、对于多表查询我们需要先判断所需要连接的表有哪些。

2、写出多表查询的过滤条件,以外键链接主键(通常:左表链接字段为「外键」,右表链接字段为「主键」)。

3、对于必要的条件,先做子集筛选。例如给出的 SQL 查询中,对用户记录信息先筛选出最新记录子集。

4、保持良好的 SQL 语句格式,可以参照以下格式。

```sql
SELECT ...--选择表
FROM ... -- 数据源
WHERE ... -- 筛选数据
GROUP BY ... -- 对数据进行分组
HAVING ... --对分组后数据进行筛选,需要放在分组后
ORDER BY ... -- 对数据进行排序,默认升序
```
注意:where 筛选要在 GROUP BY 前,分组后的筛选只能通过 HAVING 来实现。(这是新手时期常犯的错误,也是我现在常犯的错误)

欢迎在留言或者评论区指出错误或不足,希望和你一起进步。

hack_hu 发表于 2019-5-13 09:01

有赞赏有收藏,为什么就没有评论

神月夜 发表于 2019-5-14 16:15

谢谢分享经验!

cxtrj 发表于 2019-6-20 11:43


谢谢分享经验!

shlboliqiao 发表于 2019-11-28 19:58

多关表关联不建议使用DIS ,最好使 OVER()去重

hack_hu 发表于 2019-11-30 09:30

shlboliqiao 发表于 2019-11-28 19:58
多关表关联不建议使用DIS ,最好使 OVER()去重

嗯,查询前面加 Distinct 是平时写 SQL 的习惯,之前还没了解过 over 函数,似乎要配合其他的函数一起使用。

今晚打老虎121 发表于 2019-12-1 16:13

谢谢分享
页: [1]
查看完整版本: 【笔记】多表查询:复杂问题的拆解