一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

Mysql|Sql Server|Oracle|Redis|MongoDB|PostgreSQL|Sqlite|DB2|mariadb|Access|數據庫技術|

服務器之家 - 數據庫 - Mysql - MySQL 大批量插入,如何過濾掉重復數據?

MySQL 大批量插入,如何過濾掉重復數據?

2021-06-28 23:17Java知音 Mysql

線上庫有6個表存在重復數據,其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接數據庫,查出來重復數據,循環刪除。

MySQL 大批量插入,如何過濾掉重復數據?

加班原因是上線,解決線上數據庫存在重復數據的問題,發現了程序的bug,很好解決,有點問題的是,修正線上的重復數據。

線上庫有6個表存在重復數據,其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接數據庫,查出來重復數據,循環刪除。

emmmm,但是這個效率嘛,實在是太低了,1秒一條,重復數據大約2萬+,預估時間大約在8個小時左右。。。

盲目依靠前人的東西,而不去自己思考是有問題的!總去想之前怎么可以,現在怎么不行了,這也是有問題的!我發現,最近確實狀態不太對,失去了探索和求知的欲望,今天算是一個警醒,頗有迷途知返的感覺。

言歸正傳,下面詳細介紹去重步驟。

  1. CREATE TABLE `animal` (  
  2.   `id` int(11) NOT NULL AUTO_INCREMENT,  
  3.   `name` varchar(20) DEFAULT NULL,  
  4.   `age` int(11) DEFAULT NULL,  
  5.   PRIMARY KEY (`id`)  
  6. ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin 
  7. INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');  
  8. INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');  
  9. INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');  
  10. INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');  
  11. INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42'); 

目標:我們要去掉name相同的數據。

先看看哪些數據重復了

  1. SELECT name,count( 1 )   
  2. FROM  
  3.  student   
  4. GROUP BY  
  5. NAME   
  6. HAVING  
  7.  count( 1 ) > 1; 

輸出:

name count(1) cat 2 dog 2

name為cat和dog的數據重復了,每個重復的數據有兩條;

Select * From 表 Where 重復字段 In (Select 重復字段 From 表 Group By 重復字段 Having Count(1)>1)

刪除全部重復數據,一條不留

 

直接刪除會報錯

  1. DELETE   
  2. FROM  
  3.  student   
  4. WHERE  
  5.  NAME IN (  
  6.  SELECT NAME   
  7.  FROM  
  8.   student   
  9.  GROUP BY  
  10.  NAME   
  11. HAVING  
  12.  count( 1 ) > 1) 

報錯:

1093 - You can't specify target table 'student' for update in FROM clause, Time: 0.016000s

原因是:更新這個表的同時又查詢了這個表,查詢這個表的同時又去更新了這個表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作

解決辦法:把要更新的幾列數據查詢出來做為一個第三方表,然后篩選更新。

  1. DELETE   
  2. FROM  
  3.  student   
  4. WHERE  
  5.  NAME IN (  
  6.  SELECT  
  7.   t.NAME   
  8. FROM  
  9.  ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t) 

刪除表中刪除重復數據,僅保留一條

在刪除之前,我們可以先查一下,我們要刪除的重復數據是啥樣的

  1. SELECT  
  2.  *   
  3. FROM  
  4.  student   
  5. WHERE  
  6.  id NOT IN (  
  7.  SELECT  
  8.   t.id   
  9.  FROM  
  10.  ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t   
  11.  ) 

啥意思呢,就是先通過name分組,查出id最小的數據,這些數據就是我們要留下的火種,那么再查詢出id不在這里面的,就是我們要刪除的重復數據。另外,關注Java知音公眾號,回復“后端面試”,送你一份面試題寶典!

開始刪除重復數據,僅留一條

 

很簡單,剛才的select換成delete即可

  1. DELETE   
  2. FROM  
  3.  student   
  4. WHERE  
  5.  id NOT IN (  
  6.  SELECT  
  7.   t.id   
  8.  FROM  
  9.  ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t   
  10.  ) 

90萬+的表執行起來超級快。

All done 

原文鏈接:https://mp.weixin.qq.com/s/fszuGvCEjLA7pphF8TG8Vw

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 大东北chinesexxxx露脸 | 黄网国产 | 成人久久18网站 | 国产精品原创视频 | 国产高清精品自在久久 | 免费国产在线视频 | 国产丰满美女做爰 | 欧美调教打屁股spank视频 | china国产bbw| 男人天堂官方网站 | 毛茸茸的大逼 | 99久久国产亚洲综合精品 | 涩色网站 | 国产亚洲欧美在线中文bt天堂网 | 国产成人精品第一区二区 | 成人免费草草视频 | 国产欧美亚洲精品第一页青草 | 啊好痛嗯轻一点免费 | 成人国产精品一区二区不卡 | 日本免费精品 | 涩涩屋在线观看 | 青草视频网站 | poronovideos极度残酷 | 午夜十八岁禁 | 国产一区二区三区福利 | 亚洲AV久久无码精品九号 | 糖心hd在线观看 | 国内揄拍国内精品久久 | 日韩精品成人在线 | 67194久久| 成人国产在线视频 | 91传媒制片厂果冻有限公司 | 五花大绑esebdsm国产 | 隔壁的漂亮邻居hd中文 | 国产在线观看精品香蕉v区 国产在线观看a | 免费国产好深啊好涨好硬视频 | 黑人巨大videosjapan高清 黑人好大 | 大团圆6全文在线阅读 | 免费大片a一级一级 | 欧美视频在线播放观看免费福利资源 | 午夜福利在线观看6080 |