我试图从有百万行的表格中删除重复的行。 我想检查的字段中重复的行太长( 它保存 URLs), 无法将 < code> UNIQUE 索引放上。 是否有办法快速删除重复的?
建议的消除重复的方法:
DELETE t1 FROM table1 AS t1 JOIN table1 AS t2 ON t1.id>t2.id AND t1.name=t2.name;
似乎从来没有完成它的工作, 虽然我想它可能只是 需要很多的时间做。
我在这里听到的一个想法是为索引和比较创建一个 MD5
hash列。 这是推荐的路线吗? 如果是的话,我是否应该为空间/速度考虑缩短该列的长度?