一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

Mysql|Sql Server|Oracle|Redis|MongoDB|PostgreSQL|Sqlite|DB2|mariadb|Access|數(shù)據(jù)庫技術(shù)|

服務(wù)器之家 - 數(shù)據(jù)庫 - Sql Server - 使用SQL語句去掉重復(fù)的記錄【兩種方法】

使用SQL語句去掉重復(fù)的記錄【兩種方法】

2020-05-26 15:17deng214 Sql Server

這篇文章主要介紹了用SQL語句去掉重復(fù)的記錄的兩種方式,兩種方式都可以使用臨時表操作,具體實現(xiàn)方法大家跟隨腳本之家小編一起通過本文學(xué)習(xí)吧

海量數(shù)據(jù)(百萬以上),其中有些全部字段都相同,有些部分字段相同,怎樣高效去除重復(fù)?

如果要刪除手機(mobilePhone),電話(officePhone),郵件(email)同時都相同的數(shù)據(jù),以前一直使用這條語句進行去重:

?
1
2
3
4
5
6
7
8
9
10
11
delete from where id not in
(select max(id) from group by mobilePhone,officePhone,email ) 
or
delete from where id not in
 (select min(id) from group by mobilePhone,officePhone,email )
 
delete from where id not in
(select max(id) from group by mobilePhone,officePhone,email )
or
delete from where id not in
 (select min(id) from group by mobilePhone,officePhone,email )

其中下面這條會稍快些。上面這條數(shù)據(jù)對于100萬以內(nèi)的數(shù)據(jù)效率還可以,重復(fù)數(shù)1/5的情況下幾分鐘到幾十分鐘不等,但是如果數(shù)據(jù)量達到300萬以上,效率驟降,如果重復(fù)數(shù)據(jù)再多點的話,常常會幾十小時跑不完,有時候會鎖表跑一夜都跑不完。無奈只得重新尋找新的可行方法,今天終于有所收獲:

?
1
2
3
4
5
6
7
8
9
//查詢出唯一數(shù)據(jù)的ID,并把他們導(dǎo)入臨時表tmp中 
select min(id) as mid into tmp from group by mobilePhone,officePhone,email 
 //查詢出去重后的數(shù)據(jù)并插入finally表中 
insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp)
 
//查詢出唯一數(shù)據(jù)的ID,并把他們導(dǎo)入臨時表tmp中
select min(id) as mid into tmp from group by mobilePhone,officePhone,email
 //查詢出去重后的數(shù)據(jù)并插入finally表中
insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp)

效率對比:用delete方法對500萬數(shù)據(jù)去重(1/2重復(fù))約4小時。4小時,很長的時間。

用臨時表插入對500萬數(shù)據(jù)去重(1/2重復(fù))不到10分鐘。

其實用刪除方式是比較慢的,可能是邊找邊刪除的原因吧,而使用臨時表,可以將沒有重復(fù)的數(shù)據(jù)ID選出來放在臨時表里,再將表的信息按臨時表的選擇出來的ID,將它們找出來插入到新的表,然后將原表刪除,這樣就可以快速去重啦。

SQL語句去掉重復(fù)記錄,獲取重復(fù)記錄

按照某幾個字段名稱查找表中存在這幾個字段的重復(fù)數(shù)據(jù)并按照插入的時間先后進行刪除,條件取決于order by 和row_num。

方法一按照多條件重復(fù)處理:

?
1
2
3
4
5
6
7
8
9
10
delete tmp from
select row_num = row_number() over(partition by 字段,字段 order by 時間 desc
 from where 時間> getdate()-1 
 ) tmp 
 where row_num > 1
delete tmp from(
select row_num = row_number() over(partition by 字段,字段 order by 時間 desc)
 from where 時間> getdate()-1
 ) tmp
 where row_num > 1

方法二按照單一條件進行去重:

?
1
2
3
4
5
6
delete from where 主鍵ID not in
select max(主鍵ID) from group by 需要去重的字段 having count(需要去重的字段)>=1 
 )
delete from where 主鍵ID not in(
select max(主鍵ID) from group by 需要去重的字段 having count(需要去重的字段)>=1
 )

注意:為提高效率如上兩個方法都可以使用臨時表, not in 中的表可以先提取臨時表#tmp,

然后采用not exists來執(zhí)行,為避免數(shù)量過大,可批量用Top控制刪除量

?
1
2
3
delete top(2) from 表 
   where not exists (select 主鍵ID 
 from #tmp where #tmp.主鍵ID=表.主鍵ID)

總結(jié)

以上所述是小編給大家介紹的使用SQL語句去掉重復(fù)的記錄,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對服務(wù)器之家網(wǎng)站的支持!

原文鏈接:https://blog.csdn.net/deng214/article/details/80430109

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 精品国产乱码久久久久久人妻 | 女明星放荡高h日常生活 | 亚洲精品91在线 | 91免费播放人人爽人人快乐 | 久久无码人妻AV精品一区 | wwwav在线 | 精品日韩欧美一区二区三区 | 美女mm131爽爽爽久久 | 女子张腿让男人桶免费 | 小妇人电影免费完整观看2021 | 国产精品青青青高清在线密亚 | 好吊色青青青国产综合在线观看 | 国产91精品露脸国语对白 | 亚洲欧美精品一区天堂久久 | 午夜dj影院在线观看完整版 | 911亚洲精品国内自产 | 国产综合久久 | 波多野结衣178部中文字幕 | 歪歪漫画a漫入口 | 99热.com| 黑人好大好硬好深好爽想要h | 日本人泡妞18xxⅹ | 日韩高清一区二区三区不卡 | 国产思妍小仙女一二区 | 高清麻生希在线 | 刺客女仆 | 亚洲精品有码在线观看 | 日本在线观看www免费 | 狠狠色狠狠色综合日日小蛇 | 午夜在线播放免费人成无 | 日韩精选 | 国产亚洲高清国产拍精品 | 欧美一级视频在线观看 | 亚洲欧美日韩国产一区图片 | 农村脱精光一级 | 日本视频在线观看 | 青青青青青 | 亚洲AV 中文字幕 国产 欧美 | 亚洲欧美日韩综合在线播放 | 色吊丝每日永久访问网站 | 免费午夜剧场 |