不知道你有没有过类似的经历:公司找出了一大迭的打印件数据,这些数据可能是以往采购时,厂商附上的出货单,因此公司本身是没有纪录的。而你需要负责为这些打印件数据建檔、整理成 Excel 表格,完成数据电子化。
又或者是你出外拜访时,因缘际会获取了潜在客户的名单,但因为时间有限,没有办法获取完整的文件,只能匆匆用手机拍下那张潜在客户表的内容,打算回到家再自己做成 Excel 表格。
这个时候你通常只好老老实实对照打印件或图片记载的内容慢慢将数据录入。那么有没有方法能够直接将图片转换为 Excel 表格,让操作的人员只需要负责校对,其他输入动作全部都交给系统处理呢?
其实这样的需求可以透过“光学字符识别”(Optical Character Recognition,OCR)来完成。OCR 是透过特征比对运行的技术,用户能够简单地透过上载图片让系统识别图片中包含的字符,并转换为计算机中可以被编辑的字。
市面上采用 OCR 技术、包含“图片转字”功能的工具其实已相当普遍,iPhone、LINE 都有内置的对应功能。不过,对常需要处理各种“表格”数据的人来说,如果只能做“纯字转檔”,事后还得重画表格框线(或重整格式),其实仍然不够方便,就像 LINE 只能将整张图片的字一起列出:
经过 LINE 识别之后,同一栏的字全部都被排列在一起,甚至可以说这样的排列反而让数据整理变得更加困难了。
这时,能一并处理“表格框线”、能让我们直接将图片转成 Excel 表格文件的工具,就更实用一些。
我们针对“图片转檔 Excel 表格”的需求,测试了市面上的相关工具,选出了两个目前较为成熟稳定的 工具,分别是 Microsoft 365 里 Excel 内置的的“从图片插入数据”,以及网上的转换工具“诚华 OCR”。
这篇文章介绍的两个工具各有特色与优缺点,我们也制作了下表,让你能够先大致了解两个工具的差异:
整理难易度 | 中文支持度 | 费用 | |
---|---|---|---|
Excel 内置的功能 |
数据会直接插入工作表,方便多图整理。 | 不支持中文。 | 内含在 Microsoft 365 方案中,功能本身不需付费。 |
诚华 OCR | 一张图片会固定转换成一个 Excel 文件,较不易整理、归纳。 | 支持且可分开识别简体与繁体中文。 | 每日可免费转换 10 页,付费额度以每页 0.0312 人民币起。 |
Excel 内置的“从图片插入数据”功能最大的优势在于可以直接在同一个 Excel 文件里多次插入数据,如果有多张图片的数据要整理至同一个工作表,透过内置的功能就能省去在不同文件里分别剪下数据再贴上至统一工作表的流程。
然而,Excel 这项功能唯一的缺点是支持的字符集十分有限,中文也不包含在微软支持的 21 种语言的字符集内。我们前面提到 OCR 是透过特征比对来运行的技术,因此在缺乏字符集的情况下,系统会无从识别图片中的字,导致最后产出乱码。
如果你的团队通常使用英文记录数据,就非常适合使用这个功能。又或者如果你的团队数据只有少数的中文,其他大多数内容都是英文或数字,就可以先手动输入中文的部分,再在上载图片前先裁切图片,让系统只将英文或数字的部分填入其他单元格内,也能够藉此省去一部分的操作。
要使用这项功能的话,如果你是使用桌面版或网页版的 Excel 的话,就能在“数据”这个调页里顺利找到“来自图片的数据”这一个选项了:
在点击该选项之后便会退出窗口让你选择需要进行扫描的图片,我们建议先确保图片有经过适当的裁切,只留下必要的信息以避免系统将多余的字也识别为单元格的内容。选择图片之后,Excel 就会开始扫描上载的图片,几秒钟之后就能获取经过 OCR 分析后的数据内容了。
系统在经过识别之后并不会直接将扫描到的内容拷贝进电子表格当中,而是会先让用户在调页中完成检阅。在这个步骤中,Excel 会同步标出系统在识别上较没有把握的区块,并显示为红色的单元格,用户可以经由点击该单元格并修改字内容来完成检阅。
在完成所有单元格的检阅之后,点击插入数据时 Excel 就会将你目前选取的单元格作为第一格(表格的最左上角),将数据插入。
移动设备上的 Excel 也有支持这项功能 ,在 app 里打开文件之后,首先要点击下图红圈处的图符以显示功能列:
下图标号的单击钮则是“从图片插入数据”的图符,点击该单击钮就可以开始扫描或选择图片:
扫描图片过后,Excel 便会提示正在拣剩数据,之后就可以跟计算机版一样进行数据的检阅与插入了。
诚华 OCR 的特色在于完整支持中文,并有明确分隔繁体与简体中文的字符集,在转换前就会让用户自行选择文档的语言,避免系统使用错误的字符集来进行识别,减少引出字与图片内容有所出入的状况。
在我们的测试当中,大部分的繁体中字元都能被正确转换,识别错误的字符则通常是因为笔划较为复杂或在图片中略小等因素而导致识别为其他的相近字。
相较于 Excel 的操作模式,诚华 OCR 作为第三方转换工具虽然提供了完善的批量转换、下载的功能,但在方便性上还是无法与 Excel 的插入操作匹敌。如果手上有 100 张图片要归纳至同一份工作表的话,就必须要将转换完的文件分别打开并手动剪下、贴上内容至同一个文件内。
另外要注意的是,诚华 OCR 仅提供给免费用户每日 10 页的转换额度,一次批量上载的数量也限于 3 个文件,如果需要一次进行大量的数据转换就必须要再付费购买额度。
如果你正好是手上有少量中文需要转换为文档或表格的用户,我们非常推入荐你使用诚华 OCR 来完成这项工作。一般来说,只要单击照官方提供的指引操作,诚华 OCR 的转换稳定度都是很值得信赖的。
如果要进一步降低出错率、减少额度消耗,我们的建议是:虽然诚华 OCR 提供了 3 种不同的内核(识别系统)版本,且版本越高就有越准确的识别能力,但 3.0 beta 的内核在转换 Excel 文件时常常出现排版错误,导致所有内容都挤在 A1 单元格中。因此如果要转换为 Excel 文件的话,2.0 版本的内核会是最适合的选项。
开始使用诚华 OCR 时,除了单纯上载用以识别的文档、图片外,你还需要指定语言,让系统能够以正常的方式来识别文档。例如作者测试站点的数据内容是包含中文地址与邮政编码的图片,那么就会至少需要在语言上选择“繁体中文”。
如果没有选择对应的语言,就会出现像 Excel 般全部识别为乱码的状况。
这个时候,如果我们将繁体中文加入并进行转换,就能看到转换完成的文件成功识别出大部分的字内容,只需要再进行细部的检阅、修改即可。