企业电子化的专家 Ragic 教你如何利用各种软件、
云服务让公司快速升级!
加入 Ragic 企业电子化的行列!
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic
云数据库
博客
关于Ragic
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic
云工作提案
软件比较
表格技巧
数码新鲜事
3C小学堂
免费范本
产业应用
理财
健康
职场 / 生活
制造业
零售业
服务业与其他产业
工程地产
政府 NGO
职涯与合作伙伴故事
电子化迷思破解
逃离 Excel 灾难
告别 ERP 恶梦
打印件恐怖故事
职场日记
我们的故事
Ragic教学
社群与客服
公告

数据整理入门(下):怎样的电子表格格式比较“好”?

作者:Lillian Huang

目录

文件格式:不要PDF和Word

小心归并单元格

多余注解不需要

字段值格式一致

每笔数据最好有独特值

图文解说版

本文为“数据整理入门”文章的下篇。上篇介绍表格的基本元素与不同的格式(电子表格、表单、数据透视表等的不同);本篇主要讨论“如何将数据整理成可分析的电子表格数据”。

前情提要

上一篇提到,“电子表格”适合存放源数据,使用在线表格/数据分析/数据管理工具时,如果有提供xlsx檔、CSV檔汇入/汇出的功能,讲的都是电子表格(格式)。

如果你是 Ragic 的订户,在准备将数据汇入Ragic时,除了这篇Ragic的教学文章,也可以参阅此篇的原则。

电子表格格式数据放置的逻辑:第一列通常是描述数据的首部,每列包含一样数量的栏,每列中同一栏所记录的数据值具备相同的属性;相对的,同一列不同栏的数据性质就都不相同。

接下来就直接进入正题——

怎样的电子表格数据比较好(分析)?

(1)文件格式:电子表格软件而非 PDF , Word

虽然好像显而易见,但还是要说明一下:电子表格可以各种不同的文件形式保存/交换,一般文字处理最常以 PDF、Word 、Excel(扩展名.xlsx)来做表格,但除此之外,表格也可以存成 CSV、JSON 等文件格式。这些不同的文件类型,会直接影响数据可被机器抽取、分析的程度。

这边以一般人最常用的文字处理文件:PDF, Word, Excel为例。PDF 檔和 Word 檔主要是给人类阅读的,人类可以透过 PDF 表格的视觉呈现,解读每一栏、每一列、每个单元格的区隔。但计算机接收、解读数据的机制和人类不同,前述的 Pdf 文件对计算机而言只是一大包没有区隔、无法分开解读的数据,也就很难用机器进一步分析。

而Excel等电子表格软件的文件类型,可以让计算机读出不同栏、不同列的区别,能做更多分析,因此在这种情况下会是比 Word 更好的选择。(举例来说:Excel可以用公式加总计算,但Word就不行。)

(2)数据置放:不要任意归并单元格;移除非源数据(注解/小计)

关于归并单元格

可分析的电子表格每一列(每一笔纪录)一个字段只会有对应的一个值,不多也不少。如果为了表格排版美观的目的,在电子表格数据上归并单元格,数据可能会变得难以分析。

例如下图的数据,原本有两个公司电话的字段(公司电话、分机),字段首部被归并成一个,使得这个字段首部底下每一列都个别对应两个值。也许有人觉得这样看起来比较清楚,但如果要针对这个“公司电话”字段来筛选、排序时,系统怎么知道要选择哪一个字段值呢?

同理,“归并列”也不行。

归并首部、归并字段值,这是给人看的逻辑,不是让机器读得懂的逻辑。若用给人看的逻辑放置数据,又期待机器能自动读懂、分析它,就行不通。

一个单元格里塞多个数据,像下图这样(部门、职称放在同一栏),虽不必然出错,但就没办法单独依部门或职位分析数据。

如果你想汇入的数据有这类归并单元格问题,且归并的是“栏”而不是“列”,在 Excel 你可以用数据剖析的功能来分开它们,在 Ragic 则可以考虑用抓字符的公式如LEFT(value,length)、RIGHT(value,length)、MID(value,start,[length]),详细说明可以参阅支持公式列表说明(可用“Control/Command+F”句法找关键字)。

注解、小计等非源数据

你也不需要在用来放源数据/作为分析依据的电子表格中,增添多余的诠释信息,例如额外的标题、注解、小计总额等,这些更适合在进一步的报表与分析中让系统呈现。

案例说明

Ragic客服会遇到的例子:和许多电子表格、表单类软件一样,Ragic 支持将你自己的 Excel、CSV 格式数据汇入到数据库,前提是数据格式必须符合 Ragic 的汇入原则,这其中有些是 Ragic 自家格式,但有些是电子表格数据的共通原则,不符合以上原则的话,你就汇不进去。

有时候我们会遇到客户写信来求助:“汇入 Ragic 时,原本的 Excel 格式会跑掉/好像无法汇入...”仔细一看客户附的 Excel 格式是这个样子的(注:此为示意数据,非当事人数据):

数数看这犯了几个问题呢?(1)标题列之外多余的列。(2)归并单元格,一个首部对应多个值。

这样就算可以汇入,系统也无法照你要的方式帮你分析。

(注:如果你的表格只是要给人看,而不是要分析的,就没有这个问题,这是 Excel 等软件会有归并字段功能的原因。 Ragic 表单页也会提供字段值跨栏描述字段的功能,以帮助你排版,但描述字段放的就不是用来分析的数据)

另一个例子,直接借用政府数据开放平台的说明,这个说明的“错误一”也包含了归并单元格、多余的标题列、备注等问题,会使其他人要利用这笔数据时,较不方便。

(3)字段值格式一致

每个字段的数据格式不一致,包含小数点或日期,或有人是数字有人是金额,比较同字段内容时也会不方便,最好统一日期格式、金额单元、小数点等。许多电子表格/表单软件会直接规定一致的字段格式,以避免下图的状况。

(4)让系统辨认得出每笔数据:独特值字段

数据如果只是单独放在电子表格软件中,不需要汇出、交换、链接其他数据,每一列/每一栏数据因为都有固定的位置,在同一个文件中可能不会有混淆的问题,只要指出是哪张工作表、哪一列即可。但是如果需要汇出、交换、链接其他数据,不一定会有固定的列/字段置,这时系统会需要一个每笔数据独一无二、不重复的字段,做为辨认该笔数据的依据。

例如:员工数据表中若有“员工编号”这个字段,会比单纯用“员工姓名”来确认哪笔数据是哪笔准确;“商品编号”比“商品名称”精确而不易混淆。

借用一张过去教学文章的图作结。此部分我们写过相关文章,请点此阅读

图文解说版(IG)

在 Instagram 查看这则帖子

Ragic 企业云数据库(@ragictw)分享的帖子

博客背后使用 Ragic! : 最强大的 No Code 企业电子化工具
    把数据放在Excel上不只是拖累团队的行政效率,他也很容易出错并且无法进行任何内控。
    当您的团队成长时,使用Excel管理数据就会越来越痛苦。
    创建你们的第一个云数据库!

    马上登记
    免费试用 Ragic!

    用 Google 帐号登记

    北京立即科技有限公司
    京ICP备2022003680号
    用户条款 | 隐私权政策