过去十年,“大数据”(Big Data)成为硅谷最热门的流行语。当机器学习(Machine Learning,ML)模型基于巨量资料集训练后,因此彻底深入了解某特定领域,进而为顶尖高科技公司带来突破。例如,Google 透过追踪和分析每年超过 1 兆笔搜寻查询微调排名算法。事实证明,能回答所有人问题的智慧之力,是可透过充足资料的暴力算法达成。
但这会有潜在问题:大多数公司受限于“小数据”(Small Data);许多情况下,只有几十个想透过 ML 自动化的流程范例。如果你尝试为企业客户打造强健的 ML 系统,就得开发新技术克服数据不足的问题。
将小数据转换成为大数据的过程,有两种已证明非常关键的技术 Transfer Learning 迁移学习及 Collective Learning 集体学习,让中等规模公司也能从过去只有科技巨头才会看到的 ML 使用案例获利。由于当前只有 15% 公司部署 AI 或 ML,因此这些技术有极高机会彻底改变商业世界。
开放源代码 BERT 模型改变了玩 ML 的游戏规则
当然,资料并不是建立世界一流机器学习模型的唯一条件,首先也会有构建模型的小问题。鉴于机器学习工程师短缺,对大多数组织而言,不太可能雇用专家团队从头开始构建 ML 系统。这种差距正好解释为什么 Google 这样资源丰富的科技巨头能从 ML 获得不成比例收益的原因了。
但过去几年,许多开放源代码 ML 模型(包括专门理解语言的知名 BERT 模型,是 Google 在 2018 年发表的 NLP 模型)开始改变游戏规则。创建像 BERT 等级模型所需的复杂度(“大型”版有约 3.4 亿个参数),意味很少有组织会考虑支援这种计划。但由于它是开放源代码,因此企业可调整公开可用的指南,以因应特定使用案例。
为了解这些使用案例的样貌与状况,可考虑参考顾客回馈管理软件平台供应商 Medallia 这类公司的做法,是机器学习公司 Moveworks 的客户。Medallia 本身没有足够资料为内部使用案例(如 IT 支援)建立并训练有效的 ML 系统,但小数据确实包含大量等待 ML 加以解锁的宝贵洞见。透过新技术运用收集洞见,Medallia 从确认需要关注哪些内部工作流程,到理解员工寻求技术支援时使用的公司特定语言,都更有效率。
“小样本学习”成为小数据 ML 社群界的流行语
在此有个涉及数兆美元的问题:你如何采用旨在解决特定问题的开放源代码 ML 模型,并将模型应用到企业不同问题的处理?答案就是先从迁移学习做起,毫无疑问,这需要将获得的知识从某领域转移到数据较少的另一领域。
例如,透过采用像 BERT 这类开放源代码 ML 模型(专门设计理解通用语言)并改进其他面向,如今 ML 能理解员工描述 IT 问题的独特语言。语言只是开始,因为才刚开始认识小数据的巨大潜力。
一般而言,这种提供 ML 模型非常小且特定的训练数据选项做法称为“小样本学习”(Few-Shot Learning),这个名词迅速成为 ML 社群新流行语。一些最强大的 ML 模型(例如具里程碑意义的 GPT-3 模型及 1,750 亿个参数,比 BERT 多了几个数量级)已展示透过少量训练范例学习新任务的前所未有能耐。
GPT-3 本质上将整个互联网当作“切向域”(Tangential Domain),透过建立强大的知识基础,模型很快就能精通这些新颖的任务,就像爱因斯坦不需要太多练习就可成为西洋跳棋大师。尽管 GPT-3 并非开放源代码,但应用类似小样本学习技术,便能在企业启用新 M L使用案例,而这些案例几乎没有训练数据。
迁移学习+集体学习+其他=企业 ML 界限的重新划定
透过强大开放源代码模型的迁移学习和小样本学习实作,一般企业终于可买到进入机器学习领域的入场券,但尽管透过迁移学习训练 ML 所需数据量会少掉好几个数量级,但要达到强大的效能表现,还需要更进一步实作。
所谓更进一步指的就是集体学习,会在许多公司想自动化相同使用案例时发挥作用。虽然每家公司都受限于小数据,但第三方 AI 解决方案可使用集体学习整合这些小数据集,进而为精细复杂的 ML 创建够大的语料库。在语言理解面,这意味着要抽象化特定公司的句子,以揭示底层结构。
迁移学习、集体学习及其他技术结合,正迅速重新划定企业 ML 的界限。如将许多顾客资料汇总,显著提高了解员工沟通方式模型的准确性。无庸置疑,我们正在见证小调制解调器器学习支援的新型工作场所出现。
- The secrets of small data: How machine learning finally reached the enterprise
(首图来源:pixabay)