首頁 > 軟體

Mysql去重的幾種方式分步講解

2022-12-07 14:01:35

前言

我們做資料分析的時候經常會遇到去重問題,下面總結 sql 去重的幾種方式,後續如果還有再補充,巨量資料分析層面包括 hive、clickhouse 也可參考。

準備

本文以 mysql 作為作為例子進行 sql 去重的實現。首先準備一張表:

建立表

t_score

create table t_score(
ts datetime,
id varchar(10),
name varchar(255),
score int(3)
)

datetime: 入庫時間

id :學號

name:姓名

soce :分數

測試資料

insert into t_score value(now(), '101','zhangsan', 90);
insert into t_score value(now(), '101','zhangsan', 92);
insert into t_score value(now(), '101','zhangsan', 96);
insert into t_score value(now(), '102','lisi', 90);
insert into t_score value(now(), '102','lisi', 92);
insert into t_score value(now(), '103','wangwu', 96);

目標

最終目標是根據時間去重,將入庫時間最新的資料留下,id 重複的認為是重複資料。

最終期望得到的結果為:

探索

distinct 去重

首先想到的就是 distinct 關鍵字去重,先要了解一下這個關鍵字的含義和用法。

含義:distinct用來查詢不重複記錄的條數,即distinct來返回不重複欄位的條數(count(distinct id)),其原因是distinct只能返回他的目標欄位,而無法返回其他欄位。

用法注意:

1.distinct【查詢欄位】,必須放在要查詢欄位的開頭,即放在第一個引數;

2.只能在SELECT 語句中使用,不能在 INSERT, DELETE, UPDATE 中使用;

3.DISTINCT 表示對後面的所有引數的拼接取不重複的記錄,即查出的引數拼接每行記錄都是唯一的

4.不能與all同時使用,預設情況下,查詢時返回的就是所有的結果。

使用 distinct 不能滿足我們的去重需求:

SELECT DISTINCT
	( id ),
	NAME,
	score 
FROM
	t_score

group by去重

group by 是分組去重,但是僅僅使用group by 也達不到去重求最新的目的

SELECT
	id,
	name,
	score 
FROM
	t_score 
GROUP BY
	id,
	name,
	score

實現方案

方案一

首先,取出來每行資料的最大時間(即最新時間),然後讓原表資料和最大時間做右連線,得到的就是最新的資料。

SELECT
  a0.*
FROM
  t_score a0
  RIGHT JOIN (
    SELECT
      max(ts) tsMax,
      id
    FROM
      t_score
    GROUP BY
      id
  ) b0 ON a0.ts = b0.tsMax
  AND a0.id = b0.id

方案二

方案二為方案一的變種,使用了exists 關鍵字來獲取時間上最新的資料

SELECT
  a0.*
FROM
  t_score a0
WHERE
  EXISTS (
    SELECT
      *
    FROM
      (
        SELECT
          max(ts) tsMax,
          id
        FROM
          t_score
        GROUP BY
          id
      ) b0
    WHERE
      b0.tsMax = a0.ts
      AND b0.id = a0.id
  )

方案三

使用 row_number() over (parttion by 分組列 order by 排序列) 方式

SELECT
	* 
FROM
	( SELECT *, row_number() over ( PARTITION BY id ORDER BY ts DESC ) num FROM t_score ) a0 
WHERE
	a0.num = 1

需要注意的是:MySQL從8.0開始支援視窗函數

到此這篇關於Mysql去重的幾種方式分步講解的文章就介紹到這了,更多相關Mysql去重內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com