Ragic 部落格
企業電子化的專家 Ragic 教你如何利用各種軟體、
雲端服務讓公司快速升級!
加入 Ragic 企業電子化的行列!
雲端工作術
各類應用示範
案例故事
逃離惡夢
關於 Ragic
Facebook X YouTube
雲端資料庫
部落格
關於Ragic
雲端工作術
各類應用示範
案例故事
逃離惡夢
關於 Ragic

資料整理入門(下):怎樣的試算表格式比較「好」?

作者:Lillian Huang

本文為「資料整理入門」文章的下篇。上篇介紹表格的基本元素與不同的格式(試算表、表單、樞紐分析表等的不同);本篇主要討論「如何將資料整理成可分析的試算表資料」。

前情提要

上一篇提到,「試算表」適合存放原始資料,使用線上表格/數據分析/資料管理工具時,如果有提供xlsx檔、CSV檔匯入/匯出的功能,講的都是試算表(格式)。

如果你是 Ragic 的用戶,在準備將資料匯入Ragic時,除了這篇Ragic的教學文章,也可以參考此篇的原則。

試算表格式資料放置的邏輯:第一列通常是描述資料的標頭,每列包含一樣數量的欄,每列中同一欄所記錄的資料值具備相同的屬性;相對的,同一列不同欄的資料性質就都不相同。

接下來就直接進入正題——

怎樣的試算表資料比較好(分析)?

(1)檔案格式:試算表軟體而非 PDF , Word

雖然好像顯而易見,但還是要說明一下:電子表格可以各種不同的檔案形式儲存/交換,一般文書處理最常以 PDF、Word 、Excel(副檔名.xlsx)來做表格,但除此之外,表格也可以存成 CSV、JSON 等檔案格式。這些不同的檔案類型,會直接影響資料可被機器抽取、分析的程度。

這邊以一般人最常用的文書處理檔案:PDF, Word, Excel為例。PDF 檔和 Word 檔主要是給人類閱讀的,人類可以透過 PDF 表格的視覺呈現,解讀每一欄、每一列、每個儲存格的區隔。但電腦接收、解讀資料的機制和人類不同,前述的 Pdf 檔案對電腦而言只是一大包沒有區隔、無法分開解讀的資料,也就很難用機器進一步分析。

而Excel等試算表軟體的檔案類型,可以讓電腦讀出不同欄、不同列的區別,能做更多分析,因此在這種情況下會是比 Word 更好的選擇。(舉例來說:Excel可以用公式加總計算,但Word就不行。)

(2)資料置放:不要任意合併儲存格;移除非原始資料(註解/小計)

關於合併儲存格

可分析的試算表每一列(每一筆紀錄)一個欄位只會有對應的一個值,不多也不少。如果為了表格排版美觀的目的,在試算表資料上合併儲存格,資料可能會變得難以分析。

例如下圖的資料,原本有兩個公司電話的欄位(公司電話、分機),欄位標頭被合併成一個,使得這個欄位標頭底下每一列都個別對應兩個值。也許有人覺得這樣看起來比較清楚,但如果要針對這個「公司電話」欄位來篩選、排序時,系統怎麼知道要選擇哪一個欄位值呢?

同理,「合併列」也不行。

合併標頭、合併欄位值,這是給人看的邏輯,不是讓機器讀得懂的邏輯。若用給人看的邏輯放置資料,又期待機器能自動讀懂、分析它,就行不通。

一個儲存格裡塞多個資料,像下圖這樣(部門、職稱放在同一欄),雖不必然出錯,但就沒辦法單獨依部門或職位分析資料。

如果你想匯入的資料有這類合併儲存格問題,且合併的是「欄」而不是「列」,在 Excel 你可以用資料剖析的功能來分開它們,在 Ragic 則可以考慮用抓字元的公式如LEFT(value,length)、RIGHT(value,length)、MID(value,start,[length]),詳細說明可以參考支援公式列表說明(可用「Control/Command+F」語法找關鍵字)。

註解、小計等非原始資料

你也不需要在用來放原始資料/作為分析依據的試算表中,增添多餘的詮釋資訊,例如額外的標題、註解、小計總額等,這些更適合在進一步的報表與分析中讓系統呈現。

案例說明

Ragic客服會遇到的例子:和許多試算表、表單類軟體一樣,Ragic 支援將你自己的 Excel、CSV 格式資料匯入到資料庫,前提是資料格式必須符合 Ragic 的匯入原則,這其中有些是 Ragic 自家格式,但有些是試算表資料的共通原則,不符合以上原則的話,你就匯不進去。

有時候我們會遇到客戶寫信來求助:「匯入 Ragic 時,原本的 Excel 格式會跑掉/好像無法匯入...」仔細一看客戶附的 Excel 格式是這個樣子的(註:此為示意資料,非當事人資料):

數數看這犯了幾個問題呢?(1)標題列之外多餘的列。(2)合併儲存格,一個標頭對應多個值。

這樣就算可以匯入,系統也無法照你要的方式幫你分析。

(註:如果你的表格只是要給人看,而不是要分析的,就沒有這個問題,這是 Excel 等軟體會有合併欄位功能的原因。 Ragic 表單頁也會提供欄位值跨欄敘述欄位的功能,以幫助你排版,但敘述欄位放的就不是用來分析的資料)

另一個例子,直接借用政府資料開放平臺的說明,這個說明的「錯誤一」也包含了合併儲存格、多餘的標題列、備註等問題,會使其他人要利用這筆資料時,較不方便。

(3)欄位值格式一致

每個欄位的資料格式不一致,包含小數點或日期,或有人是數字有人是金額,比較同欄位內容時也會不方便,最好統一日期格式、金額單位、小數點等。許多試算表/表單軟體會直接規定一致的欄位格式,以避免下圖的狀況。

(4)讓系統辨認得出每筆資料:獨特值欄位

資料如果只是單獨放在試算表軟體中,不需要匯出、交換、連結其他資料,每一列/每一欄資料因為都有固定的位置,在同一個檔案中可能不會有混淆的問題,只要指出是哪張工作表、哪一列即可。但是如果需要匯出、交換、連結其他資料,不一定會有固定的列/欄位置,這時系統會需要一個每筆資料獨一無二、不重複的欄位,做為辨認該筆資料的依據。

例如:員工資料表中若有「員工編號」這個欄位,會比單純用「員工姓名」來確認哪筆資料是哪筆準確;「商品編號」比「商品名稱」精確而不易混淆。

借用一張過去教學文章的圖作結。此部分我們寫過相關文章,請點此閱讀

圖文解說版(IG)

在 Instagram 查看這則貼文

Ragic 企業雲端資料庫(@ragictw)分享的貼文

部落格背後使用 Ragic! : 最強大的 No Code 企業電子化工具
把資料放在Excel上不只是拖累團隊的行政效率,他也很容易出錯並且無法進行任何內控。
當您的團隊成長時,使用Excel管理資料就會越來越痛苦。
建立你們的第一個雲端資料庫!

馬上註冊
免費試用 Ragic!

用 Google 帳號註冊

立即科技 Ragic, Inc.
02-7728-8692
info@ragic.com
台北市中正區南昌路二段81號9樓