Ragic 博客
企业电子化的专家 Ragic 教你如何利用各种软件、
云服务让公司快速升级!
加入 Ragic 企业电子化的行列!
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic
Facebook X YouTube
云数据库
博客
关于Ragic
云工作术
各类应用演示
案例故事
逃离恶梦
关于 Ragic

数据整理入门(上):认识你的数据格式

作者:Lillian Huang

前言

本文写给“非信息相关科系出身/缺乏数据处理相关概念,但有以下需求”的人看:

你的组织手边很多数据但有点乱,想要整顿这些数据,让它变成有用的信息、报表,且能依据不同需求重复利用,不需要每次刷新数据。

例如,手边有一堆订单纪录,想要每月自动生成报表、统计收入,同时能直接看出哪样商品卖得好;或者有进货数据,想自动计算、更新库存;有客户数据、客服记录或客户联络记录,想随时能跟踪到哪类客户最多?客户主要问题是什么?

或者,你想在 Excel 或 Ragic 针对特定数据做数据透视或引出成图表,却不确定要怎么整顿数据、区隔化单元格、把哪些信息要放在哪一格,才能跑得出你想要的结果,也不确定现在手上的“表格”,是以怎样的逻辑体系结构的,是否需要经过格式转换,才能进一步达到你要的效果。

那么,你可以来看看这系列文章:因为以上情境,对应的问题多半是:“我的表格是什么类型?该怎么整理手边的数据,以什么格式存放,才能正确被计算机分析、利用、自动运作各种工作流程?”

对不会写程序、没有专业数据处理技能的人来说,要整理大批数据,最好用的方法,就是把它放进表格——特别是像 Excel、Google Sheet,或 Ragic (列表页)这类电子表格(Spreadsheet)的格式里。像这样:

透过表格的横列、直栏,可以将数据较有结构的摆放,让一般人就能筛选、排序、加总数据,甚至做更复杂的分析。市面上主打“没信息背景也能使用”的数据搜集、数据管理工具,许多都是表格/表单/电子表格软件。

然而,并不是随意把数据塞进表里,这些数据管理工具就可以自动帮你分析一切。

Ragic 客服有时会遇到这样的例子:用户因为不清楚数据格式的差别,试图将不符合格式的数据汇入 Ragic ,使得系统无法处理,或跑出跟用户想像中完全不一样的样子;或者因为没有以适合的方式排放数据,导致无法引出报表或进一步分析。

对于数据应该以怎样的格式放进表格(电子表格/表单),不同的应用工具会各有不同的规定(例如 Ragic 的数据汇入格式说明在这里),其中有些会与应用工具自家的格式有关,但也有一些,其实可说是整理数据的“共通原则”。本文主旨就是说明这些共通原则,以协助你将数据变成真正好用的表格。

本文分成上下两篇,本篇为上篇,提供基础说明,说明“表格”的基本元素,并介绍不同格式的表,以及这些表之间可能的关系。下篇则进一步说明:如何将表格/电子表格数据整理成易于分析的格式?

本文定位为“新手介绍”,希望首先协助在线表单/表格不熟悉的朋友,厘清状况,因此即使对很多读者而言可能太简单,这篇文还是尽量详细说明并附带实例。如果您本来就具备基础知识,可利用小标题快速扫过内容;之后我们也会针对客户设计 Ragic 数据库时需要的数据体系结构概念,推入出进阶的说明文章。

想要快速知道怎样的数据格式才能做“数据透视”,可直接点此跳转到“二维表”的部分;想要将表单数据汇入到电子表格,但不确定两者区别的可以看“电子表格”、“表单”这两部分的说明。

表格的基本元素

表格是由水平、垂直格线组成的网格,其中一排垂直向下延展的方格称为“栏”(Column),横着向右延展的称为“列”(Row),如下图。

很多电子表格会以英字母命名“栏”(从左至右就会是 A 栏、 B 栏、 C 栏...),以数字命名“列”(从上至下就会是第 1 列、第 2 列、第 3 列...),每个方格(单元格,Cell)就依其所属的栏和列结合在一起来命名,例如上图“王聪明”这个单元格就是 B2 。(注:如果你的 Excel 不是长这样而是直栏/横列皆为数字,那是另一种 R1C1格式,有兴趣的话可以参阅这篇说明

不同结构的“表”:“电子表格”、“表单”等各有不同

同样是以直栏、横列组成的表,可以依据其置放数据的不同逻辑,分成不同的种类。例如下面要介绍的电子表格表单以及其他数据分析后生成的表格,如数据透视表,都各有不同。

电子表格”适合存放源数据、让计算机根据这些源数据来分析出进一步的结果,一个页面/工作表可以存放多笔数据,是多数数据分析工具的依据;“表单”适合当作输入、编辑数据的接口,一个页面存放一笔数据,可以让一笔数据呈现更多细节,多个表单页面输入的结果可以汇整成电子表格;而数据分析的成果,也可以整理成(非源数据的)表格,像是数据透视表

电子表格(Spreadsheet)

“电子表格”经常是源数据存放、分析最好用的依据,Excel、Google Sheet、Numbers等软件、以及 Ragic 的列表页都长这样。因为它“一笔数据一列”的格式,一个电子表格的页面可以存放多笔数据,让人得以综览、分析数据。

当你使用在线表格/数据分析/数据管理工具时,如果有提供将xlsx檔、CSV檔汇入平台、或将整组数据汇出成xlsx檔、CSV檔汇出的功能,这些通常也是下面描述的电子表格格式。

电子表格数据放置的逻辑:第一列通常是描述数据的首部,每列包含一样数量的栏,每列中同一栏所记录的数据值具备相同的属性;相对的,同一列不同栏的数据性质就都不相同。

假设我们有一组“员工人事数据”要放在电子表格里,员工共有 6 位,每个员工数据都包含数据编号、姓名、所属部门、职称、公司电话、Email等 8 项内容。

我们会在电子表格的第 1 列放入描述/定义其他列的信息,称为首部/表头(header row),像是A1--“数据编号”、B1--“员工名称”、C1--“部门”等。

以首部来描述的每一栏(column),叫做一个字段(field),包含字段首部(field header)和字段值(field value)这两个元素,例如 B 栏就是“员工名称”字段,员工名称这个字段首部会对应第 2 列之后的字段值,包括 B2(王聪明)、B3(叶大雄)、B4...等。

电子表格的每一列(row),代表一笔数据/记录(record, entry),以上图的例子来说,扣除字段首部共 6 列(第 2 列 到第 7 列,数据编号 E-00001 到 E-00006)。以这种逻辑整理、放置的一组数据,每一笔数据都能识别为水平的一列,而同一个字段(field)都在同个垂直轴在线,要筛选、排序、加总全部数据的字段值都很便利。

表单(Form)

“表单”可以当作填写数据的接口,想像填写申请表格/网络问卷会看见的:一格“问题”,搭配一格要填入的“答案”,就是表单常见的样子;打印件的报价单、请购单、出货单等要 E 化,也是要转化为在线表单的格式。

Google 表单、 Ragic 的表单页、还有很多提供在线表单/在线调查问卷的服务等都是“表单”格式的例子。问卷题目或填写提示就是表单的字段首部(Field header),对应要填入数据的地方就是字段值,通常一个表单页面涵盖一笔数据,新增第二笔数据就要再开一个页面。

因为表单适合输入数据、电子表格适合存放分析数据,两者很适合互相搭配,很多表单服务都支持“从表单接口输入数据,再将所有数据汇整、汇出成电子表格”的功能,例如 Google 表单输入的数据可以汇出成 Google 电子表格,许多在线表格、问卷服务数据分析的后台也是以电子表格格式呈现数据。

以 Ragic 来说,则是更进一步将表单/电子表格放在同一个可以直接切换的接口(表单页与列表页)上。(Ragic 另外有在表单页另外提供“子表格”的格式让输入接口也可以一次输入多笔附属数据,此部分若想了解可见这篇文章的说明。)

当表单与电子表格这样搭配时,每次填写表单的一笔数据(一个页面),将会变成电子表格上的一行数据;表单的字段首部会是电子表格的首部,字段值则会出现在后面对应的一列上。图符如下:

因此表单上的一个页面,就是一笔数据(entry, record),也就是电子表格上的一列。从另一个角度来说,也可以说电子表格一列数据的细节,可以展开、呈现在表单上。

“二维”表格/报表...

前面说到,电子表格同一列包含的不同字段,数据性质各不相同,但每一列同一栏都是一样类型的数据。这种特性的表格,也叫做“一维表”,即表格数据的性质只用单一的维度(栏)来区分。

如果一个单元格数据是由两个维度一起决定的,就是二维表。举例:把上面这张表拿来做“数据透视”,做出来的数据透视表如下,每个格子数据是由栏(商品)和列(月份)两个维度一起决定的,这个数据透视表就是“二维表”。

原则上,一维表的数据要再加工、分析,会比二维表简单得多,所以一般提到数据管理时,源数据都是用一维表(电子表格)来存放,二维表已是数据经过分析后的结果。简言之:数据透视前:一维表,数据透视后:二维表。

因此,如果你手上有的是二维表,这个表格不一定适合直接汇入前述的表格管理工具,因为这不是系统接受的格式;也不适合把数据源头保存成二维表,这样之后要用其他方式分析不一定容易。

不过并不是说二维表就不能汇入像 Ragic 这样的数据管理工具来使用,只要用一点小技巧将二维表转换回一维表就可以了,最简单的方法,就是用Excel的撤销枢纽转换来做。做完之后你原本的二维表就变成更适合多次处理的数据了。

而如果你手上有表格数据,想要知道能不能做数据透视,或无法做出数据透视,希望找出数据格式的问题。你可以依下列步骤一一检视:

(1)这是一维表格吗?如果它不是一维表,甚至已经是二维表,自然无法再做数据透视。

(2)格式是否整齐——有首部列(字段标题)吗?有空白列或归并单元格等不整齐的格式吗?如果选取范围有这些状况的话也无法做数据透视,必须调整。此部分更细的说明可以

下篇的详细说明

小结:

如果你手上有一些整理成表格的数据,想要进一步整理、分析,首先要知道这些数据放置的逻辑是电子表格、表单、或其他表格(例如二维的数据透视表)。不同格式的数据无法直接混用,用途也各有不同,例如源的数据数据最好是“电子表格”格式,填写用的数据格式可以是“表单”格式,“数据透视表”则已经是处理后的数据分析结果。

这里继续阅读下篇

来 IG 看本篇文章的“图片解说版”

博客背后使用 Ragic! : 最强大的 No Code 企业电子化工具
    把数据放在Excel上不只是拖累团队的行政效率,他也很容易出错并且无法进行任何内控。
    当您的团队成长时,使用Excel管理数据就会越来越痛苦。
    创建你们的第一个云数据库!

    马上登记
    免费试用 Ragic!

    用 Google 帐号登记

    立即科技 Ragic, Inc.
    02-7728-8692
    info@ragic.com
    台北市中正区南昌路二段81号9楼