2 種實用工具,輕鬆將紙本 / 圖片檔案轉為 Excel 表格!
不知道你有沒有過類似的經歷:公司找出了一大疊的紙本資料,這些資料可能是以往採購時,廠商附上的出貨單,因此公司本身是沒有紀錄的。而你需要負責為這些紙本資料建檔、整理成 Excel 表格,完成資料電子化。
又或者是你出外拜訪時,因緣際會取得了潛在客戶的名單,但因為時間有限,沒有辦法取得完整的檔案,只能匆匆用手機拍下那張潛在客戶表的內容,打算回到家再自己做成 Excel 表格。
這個時候你通常只好老老實實對照紙本或圖片記載的內容慢慢將資料輸入。那麼有沒有方法能夠直接將圖片轉換為 Excel 表格,讓操作的人員只需要負責校對,其他輸入動作全部都交給系統處理呢?
其實這樣的需求可以透過「光學字元辨識」(Optical Character Recognition,OCR)來完成。OCR 是透過特徵比對運行的技術,使用者能夠簡單地透過上傳圖片讓系統辨識圖片中包含的字元,並轉換為電腦中可以被編輯的文字。
市面上採用 OCR 技術、包含「圖片轉文字」功能的工具其實已相當普遍,iPhone、LINE 都有內建對應功能。不過,對常需要處理各種「表格」資料的人來說,如果只能做「純文字轉檔」,事後還得重畫表格框線(或重整格式),其實仍然不夠方便,就像 LINE 只能將整張圖片的文字一起列出:
經過 LINE 辨識之後,同一欄的文字全部都被排列在一起,甚至可以說這樣的排列反而讓資料整理變得更加困難了。
這時,能一併處理「表格框線」、能讓我們直接將圖片轉成 Excel 表格檔案的工具,就更實用一些。
我們針對「圖片轉檔 Excel 表格」的需求,測試了市面上的相關工具,選出了兩個目前較為成熟穩定的 工具,分別是 Microsoft 365 裡 Excel 內建的「從圖片插入資料」,以及網上的轉換工具「誠華 OCR」。
這篇文章介紹的兩個工具各有特色與優缺點,我們也製作了下表,讓你能夠先大致了解兩個工具的差異:
整理難易度 | 中文支援度 | 費用 | |
---|---|---|---|
Excel 內建功能 |
資料會直接插入工作表,方便多圖整理。 | 不支援中文。 | 內含在 Microsoft 365 方案中,功能本身不需付費。 |
誠華 OCR | 一張圖片會固定轉換成一個 Excel 檔案,較不易整理、歸納。 | 支援且可分開辨識簡體與繁體中文。 | 每日可免費轉換 10 頁,付費額度以每頁 0.0312 人民幣起。 |
1. Excel 內建功能:方便多圖整合至同張表格、適合英文為主資料
Excel 內建「從圖片插入資料」功能最大的優勢在於可以直接在同一個 Excel 檔案裡多次插入資料,如果有多張圖片的資料要整理至同一個工作表,透過內建功能就能省去在不同檔案裡分別剪下資料再貼上至統一工作表的流程。
然而,Excel 這項功能唯一的缺點是支援的字元集十分有限,中文也不包含在微軟支援的 21 種語言的字元集內。我們前面提到 OCR 是透過特徵比對來執行的技術,因此在缺乏字元集的情況下,系統會無從辨識圖片中的文字,導致最後產出亂碼。
如果你的團隊通常使用英文記錄資料,就非常適合使用這個功能。又或者如果你的團隊資料只有少數的中文,其他大多數內容都是英文或數字,就可以先手動輸入中文的部分,再在上傳圖片前先裁切圖片,讓系統只將英文或數字的部分填入其他儲存格內,也能夠藉此省去一部分的操作。
要使用這項功能的話,如果你是使用桌面版或網頁版的 Excel 的話,就能在「資料」這個分頁裡順利找到「來自圖片的資料」這一個選項了:
在點擊該選項之後便會跳出視窗讓你選擇需要進行掃描的圖片,我們建議先確保圖片有經過適當的裁切,只留下必要的資訊以避免系統將多餘的文字也辨識為儲存格的內容。選擇圖片之後,Excel 就會開始掃描上傳的圖片,幾秒鐘之後就能取得經過 OCR 分析後的資料內容了。
系統在經過辨識之後並不會直接將掃描到的內容複製進試算表當中,而是會先讓使用者在分頁中完成檢閱。在這個步驟中,Excel 會同步標出系統在辨識上較沒有把握的區塊,並顯示為紅色的儲存格,使用者可以經由點擊該儲存格並修改文字內容來完成檢閱。
在完成所有儲存格的檢閱之後,點擊插入資料時 Excel 就會將你目前選取的儲存格作為第一格(表格的最左上角),將資料插入。
行動裝置上的 Excel 也有支援這項功能 ,在 app 裡打開檔案之後,首先要點擊下圖紅圈處的圖示以顯示功能列:
下圖標記的按鈕則是「從圖片插入資料」的圖示,點擊該按鈕就可以開始掃描或選擇圖片:
掃描圖片過後,Excel 便會提示正在提取資料,之後就可以跟電腦版一樣進行資料的檢閱與插入了。
2. 誠華 OCR:轉換精確度高、支援中文處理
誠華 OCR 的特色在於完整支援中文,並有明確分隔繁體與簡體中文的字元集,在轉換前就會讓使用者自行選擇文件的語言,避免系統使用錯誤的字元集來進行辨識,減少輸出文字與圖片內容有所出入的狀況。
在我們的測試當中,大部分的繁體中文字元都能被正確轉換,辨識錯誤的字元則通常是因為筆劃較為複雜或在圖片中略小等因素而導致辨識為其他的相近字。
相較於 Excel 的操作模式,誠華 OCR 作為第三方轉換工具雖然提供了完善的批量轉換、下載的功能,但在方便性上還是無法與 Excel 的插入操作匹敵。如果手上有 100 張圖片要歸納至同一份工作表的話,就必須要將轉換完的檔案分別打開並手動剪下、貼上內容至同一個檔案內。
另外要注意的是,誠華 OCR 僅提供給免費使用者每日 10 頁的轉換額度,單次批量上傳的數量也限於 3 個檔案,如果需要一次進行大量的資料轉換就必須要再付費購買額度。
如果你正好是手上有少量中文需要轉換為文件或表格的使用者,我們非常推薦你使用誠華 OCR 來完成這項工作。一般來說,只要按照官方提供的指引操作,誠華 OCR 的轉換穩定度都是很值得信賴的。
如果要進一步降低錯誤率、減少額度消耗,我們的建議是:雖然誠華 OCR 提供了 3 種不同的內核(辨識系統)版本,且版本越高就有越準確的辨識能力,但 3.0 beta 的內核在轉換 Excel 檔案時常常出現排版錯誤,導致所有內容都擠在 A1 儲存格中。因此如果要轉換為 Excel 檔案的話,2.0 版本的內核會是最適合的選項。
開始使用誠華 OCR 時,除了單純上傳用以辨識的文件、圖片外,你還需要指定語言,讓系統能夠以正常的方式來辨識文件。例如作者測試網站的資料內容是包含中文地址與郵遞區號的圖片,那麼就會至少需要在語言上選擇「繁體中文」。
如果沒有選擇對應的語言,就會出現像 Excel 般全部辨識為亂碼的狀況。
這個時候,如果我們將繁體中文加入並進行轉換,就能看到轉換完成的檔案成功辨識出大部分的文字內容,只需要再進行細部的檢閱、修改即可。