云端文件同步和共享服务商 Dropbox 13 日披露了更多支持光学文字辨识(OCR)功能的技术细节,已经为 Dropbox Business 付费的企业员工可以在 Android 和 iOS 应用程序中使用该功能。
具体操作是这样的,使用行动装置上的相机扫描文档后,光学文字辨识功能将会启动。然后,应用程序会根据需要裁剪或旋转文档,然后将其保存为 Dropbox 中的 PDF。 8 月,该公司表示正在使用电脑视觉来检测应用程序扫描文件档。
与人工智能深度学习结合的 OCR 技术已经不是新鲜事了。GitHub 上的开源软件可以用于两者结合,Google 在 Google 街景图像中也运用了机器学习和 OCR 技术。OCR 系统的初始版本采用市售软件开发工具包(SDK)。Dropbox 选择执行自己的数据包以节省资金并提高准确性,因为市售系统主要是为实际的硬件扫描仪构建的,而不是为行动装置上使用相机的扫描仪。Dropbox 利用用户数据训练系统。
Dropbox 的软件工程师 Brad NeubergNeuberg 表示,Dropbox 需要收集用户上传一部分图像或文件,例如收据、发票、信件等。为了收集这些,公司事先征得了用户的同意。如果用户同意,那么这些文件资讯一定会被保密。Dropbox 对用户捐赠的数据采取各种安全措施,比如绝不会将数据保留在本地部署的服务器上,保持持续并广泛的审计、部署强大的身份验证访问数据措施等。
为了预测文档中特定单词的剪切文本,Dropbox 透过卷积神经网络,然后是双向长时间短期记忆(LSTM)网络发送图像,最后连接时间分类(CTC)系统。该系统部分依赖于 Google 的 TensorFlow 开源深入学习框架。为了加强这个系统,Dropbox 借鉴了虚构的数据 ,然后以简单的方式进行了转换。
Dropbox 已经脱离了亚马逊网络服务(AWS)的公共云端,并运行自己的资料中心基础架构。此外,Dropbox 已经开始使用图形处理单元(GPU)加速的 G2 虚拟机(VM)实例对其模型进行了培训 ,并储存了一些数据在 AWS S3 服务中。为了进一步改进模型,Dropbox 训练了小数量的图像单词。然后,从预测单个词跳转到处理整个文件档。
- Dropbox uses AI to to recognize words in documents scanned in its mobile apps
(本文由 36Kr 授权转载;首图来源:Dropbox)