Ragic 博客
企业电子化的专家 Ragic 教你如何利用各种软件、
云服务让公司快速升级!
加入 Ragic 企业电子化的行列!
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic
Facebook Twitter YouTube
云数据库
博客
关于Ragic
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic

如何快速移除或标记 Excel 中的重复数据?

作者:Lillian Huang

前言

Ragic 是一个可以无缝集成 Excel 的云数据库平台(支持汇入汇出 Excel ),这使得我们在协助客户排除障碍时,有时会跟 Excel 打打交道,也累积了一些 Excel 常见问题和疑难杂症处理的小技巧。

我们先前陆续跟大家分享了Excel 檔原本的英文 A,B,C 栏变成数字 1,2,3的原因和处理方法、以及“如何删除 Excel 的空白列”,这次要来谈谈“如何在 Excel 移除重复数据”。

Excel 提供了快速的方式,可以简单几步骤把重复数据删掉、或把重复数据标记出来(让人检视过再决定是否删除),方法本身不难,但还是有各自要注意的地方。以下逐一说明:

Excel 移除重复值、标记(找出)重复值的功能一览

标签名称
(工具条上的归类)
功能名称效果适合情境
数据移除重复项
直接删掉选取字段值重复的数据(保留第一笔)适合规则明确、不需要另外检视、经常需要运行删除的流程
常用条件式格式:
标记重复值

把字段值重复的地方标记上色最常见:适合需要额外检视、决定去留的状况;适合单一字段比对
数据进阶筛选:
筛出唯一值

隐藏重复值,只显示第一笔(但没有删掉重复值)适合只需要“看起来不杂乱”的状况

① “数据”标签 > “移除重复值”

第一种是最直接、方便的“移除重复值”方法。只要用鼠标选取好表格范围、在“数据”标签找到“移除重复值”单击钮、单击“确定”,三步骤就清掉重复值了。

不过,最方面的方法有时也最“危险”,因为在数据被删掉之前,你其实没什么机会去检视系统认定的“重复值数据”是哪些,万一删除范围选得不对、比对重复规则没选对,不该删的数据就会不小心消失了。

“移除重复项”功能要注意的地方主要有三项:

一,起初框选字段范围时,选的是“之后移除重复值时的删除范围”(不是“比对重复值依据”)。以上图为例,假如你想把重复报名的学生数据删掉,框选范围要包括 A, B, C, D 栏,才能把重复的学生数据整笔删掉。不能只选“B 栏”(学号),这样只有学号那栏会被删掉、对应的其他字段(例如重复的学生姓名等)都还会在,会数据大乱(部分学号跟姓名的对应错误)。

二、点“移除重复项”后会退出窗口让你确认“比对重复值”的范围。此时,若要比对的只有单栏(例如学号),但你却维持默认的 A,B,C,D,...栏全都勾选的状态的话,会变成“A, B, C, D 全部字段值都是重复的,才移除”。同样以上图的例子来说,我们想删掉的是“重复报名的学生”,这些学生重复报名时,每次会取得不同的报名编号,但他们是同一个人,是我们认定的“重复数据(报名编号不一样,但学生是同一个人”,此时如果要求“A栏 报名编号”也要一样才能认定为重复数据的话,就会有误了。

三、“移除重复项”基本上会直接留下重复值的第一笔数据,移除其他后面的。这时假如希望依照特定的规则来决定数据去留(例如比较完整的一笔数据,如备注字段有值),或希望一笔一笔检视决定的话,就比较不适用于这个方法。

个人建议,要使用“移除重复值”这个功能,最好在你已经对此功能的运作机制很了解,或是常常需要运行同样一种操作,SOP已经创建好的前提下做。做之后,记得检视一下有无问题,有的话赶快 Control + Z 恢复数据。如果要更万无一失,可以在做之前先备份一份原本的数据。

② “常用”标签 >“条件式格式设置”>“醒目提示单元格规则”>“重复的值”

第二种方法,是比较迂回一些,但一般人比较不会出错的方式,如果没有什么特别的想法、重复数据量也不大的话,建议可以用这个方法来做。这个方式是运用 Excel 很常见的“条件式格式”,先把重复值标注上色。接着就可以依照自己的需求,一笔笔把数据处理(删除)掉。这个方法也适用于不确定自己有没有重复数据的状况,设置之后有字段上色就代表有重复值,没有就代表没有重复值。

这里要注意的是:在选取“条件式格式设置”之前,一样要先框选运行这个功能的范围(也就是“条件式格式设置”的范围。而条件式格式设置中的“重复值”指的是单一字段的重复值,不提供多个字段综合比较是否都重复的功能,因此如果你框选的是多个字段,会像下图这样,每个字段有重复值的都标起来,这不一定是你想要的。

因此,如果使用“条件式格式设置”的方法,又希望比对的重复值是“多个字段值都重复才标记”的话,建议多开一个“判断用字段”,用 Excel 的字符串公式(&)把多个字段值连在一起,然后框选判断用字段来设置条件式格式即可。

③ “数据”标签 > “进阶(筛选)”> “不选重复的纪录”

第三种方法,严格来说不是删除重复数据的方法,而是一种“筛选、隐藏重复数据”的方法。选择要比对重复值的字段后,在“数据”标签“筛选”区块点“进阶”,勾选“不选重复的纪录”,就可以筛选出该字段不重复的数据(隐藏该栏含有重复值的整列数据)。

此时,被筛选掉 / 被隐藏的数据并没有被删掉,只要点一下“清除筛选”或在隐藏的列与列之间点“撤销隐藏”,就会再现身,适合需要保留源数据、公式计算时需要源数据,但不想看到太杂乱数据的状况。

备注:决定“重复数据”与“删谁留谁”的判准

前面的教学里,不管你选择哪一种方法,其实都需要在操作步骤中,决定要怎么比对“重复数据”,以及“删谁留谁”的判准,以下针对这些部分做一些补充说明。

(1) 重复数据的定义:是“整列所有字段都和别人重复”,还是“只要单一字段有重复值就算重复数据”?

不同情境下,“数据重复”的判准可能有所不同。有时候,你想处理的重复数据,是某个特定字段字段值重复的数据,但有时候,你想找的是“每一个字段都重复、或是特定几个字段都重复”的“重复数据”。

在 Excel 运行“找出重复数据”和“移除重复数据”时,系统会依据你选取数据的范围,决定是要认“单一字段的重复值”还是“一组字段是否全都重复”,因此你必须先弄清楚自己要找的是哪一种。如果没想清楚就随便去框“重复值”的范围,很可能反而把数据搞乱了。以下举例说明不同情境下两者的差异。

假设某活动开放学生报名参加,因为报名管道多元,学生可以跟导师报名、透过所属社团报名,汇整报名数据时发现同一个学生透过不同管道重复报名,导致学生数据重复。此时,要删重复数据,只要把报名数据里“学号”这个字段的重复值找出来,删掉含有重复值的整笔数据(留下一笔)就可以了。

(如下图:只要“学号”这栏重复,就代表数据重复了,只要抓出单一字段值重复的就好)

假设今天处理的是订单数据,负责汇整订单的员工不小心重复从同一个来源贴上了某些数据,要删除重复订单数据。此时,这些数据的“订单编号”可能是重复的,找出“订单编号”字段重复的数据来处理就好:

但假如今天是负责打单的员工不小心重复登打重复的订单,重复数据的订单编号是不同的,那么如果从重复订单编号下手,你会一笔都找不出来;而单凭“业务”、“客户名称”或“订单日期”字段,也没办法判断订单是否重复,因为同一个业务接到复数订单、同一个客户多次下单、同一天有多笔订单,都是有可能的,任意拿单一字段当判准,可能把业务的业绩都删掉了。

这时,我们必须依照实际情境,设计多个字段的比对方式。假设这家公司同一天同个业务不会接到两笔同个客户下的单,那么,可以认定当“订单日期”、“客户名称”、“业务”三个字段值全都一样时,这是误 KEY 的重复订单,要处理。

此时,我要做的就会是一次比对不同笔(列)数据的多个字段(例如前面讲到移除重复值方法时,选择比对重复值字段的范围要包括多个字段),或是用字符串公式把这些字段串成一个辅助字段(例如这里的说明),比对辅助字段的值是否重复来判断重复数据。

(从上面的讨论其实可以看出,当一笔数据含有“独特值字段”如学生编号、订单编号时,很多时候比对或辨认数据时以那个字段为准就可以了;反之如果没有的话,就得自己用字符串公式或其他方式,另外制造出一个独特值字段来当判断基准。可以看出处理数据时,独特值字段的好用之处)

(2) 删谁留谁要注意

找出重复值并删除的过程中,“哪一笔数据该删”其实也是该注意的事。Excel默认的“移除重复值”功能,默认是保留重复值的第一笔数据、移除之后出现的。

如果“重复数据”是两笔完全一样内容的东西,那么不管留哪一笔下来都可以,这样用没有问题。但如果是基本信息重复,但有的数据是完整版(有比较详细的备注或地址等信息)、有的是精简版,要留比较完整的数据的话,就得注意,因为 Excel “移除重复值”功能的规则就是“留第一笔”,此时你就不该直接“移除重复值”,可能要考虑标号重复值之后手动处理(也就是利用条件式格式来处理)。

标签: Excel

归类: 云工作术, 表格技巧

博客背后使用 Ragic! : 最强大的 No Code 企业电子化工具
把数据放在Excel上不只是拖累团队的行政效率,他也很容易出错并且无法进行任何内控。
当您的团队成长时,使用Excel管理数据就会越来越痛苦。
创建你们的第一个云数据库!
瞭解更多:
我们为什么要开发Ragic?
免费课程
使用说明
Ragic定价
Ragic应用
最新信息:
博客
Facebook
YouTube
北京立即科技有限公司
info@ragic.com
京ICP备2022003680号