没有大数据也没关系，一般公司也能展开“小数据”机器学习之旅 07月19日更新

过去十年，“大数据”（Big Data）成为硅谷最热门的流行语。当机器学习（Machine Learning，ML）模型基于巨量资料集训练后，因此彻底深入了解某特定领域，进而为顶尖高科技公司带来突破。例如，Google 透过追踪和分析每年超过 1 兆笔搜寻查询微调排名算法。事实证明，能回答所有人问题的智慧之力，是可透过充足资料的暴力算法达成。

但这会有潜在问题：大多数公司受限于“小数据”（Small Data）；许多情况下，只有几十个想透过 ML 自动化的流程范例。如果你尝试为企业客户打造强健的 ML 系统，就得开发新技术克服数据不足的问题。

将小数据转换成为大数据的过程，有两种已证明非常关键的技术 Transfer Learning 迁移学习及 Collective Learning 集体学习，让中等规模公司也能从过去只有科技巨头才会看到的 ML 使用案例获利。由于当前只有 15% 公司部署 AI 或 ML，因此这些技术有极高机会彻底改变商业世界。

开放源代码 BERT 模型改变了玩 ML 的游戏规则

当然，资料并不是建立世界一流机器学习模型的唯一条件，首先也会有构建模型的小问题。鉴于机器学习工程师短缺，对大多数组织而言，不太可能雇用专家团队从头开始构建 ML 系统。这种差距正好解释为什么 Google 这样资源丰富的科技巨头能从 ML 获得不成比例收益的原因了。

但过去几年，许多开放源代码 ML 模型（包括专门理解语言的知名 BERT 模型，是 Google 在 2018 年发表的 NLP 模型）开始改变游戏规则。创建像 BERT 等级模型所需的复杂度（“大型”版有约 3.4 亿个参数），意味很少有组织会考虑支援这种计划。但由于它是开放源代码，因此企业可调整公开可用的指南，以因应特定使用案例。

为了解这些使用案例的样貌与状况，可考虑参考顾客回馈管理软件平台供应商 Medallia 这类公司的做法，是机器学习公司 Moveworks 的客户。Medallia 本身没有足够资料为内部使用案例（如 IT 支援）建立并训练有效的 ML 系统，但小数据确实包含大量等待 ML 加以解锁的宝贵洞见。透过新技术运用收集洞见，Medallia 从确认需要关注哪些内部工作流程，到理解员工寻求技术支援时使用的公司特定语言，都更有效率。

“小样本学习”成为小数据 ML 社群界的流行语

在此有个涉及数兆美元的问题：你如何采用旨在解决特定问题的开放源代码 ML 模型，并将模型应用到企业不同问题的处理？答案就是先从迁移学习做起，毫无疑问，这需要将获得的知识从某领域转移到数据较少的另一领域。

例如，透过采用像 BERT 这类开放源代码 ML 模型（专门设计理解通用语言）并改进其他面向，如今 ML 能理解员工描述 IT 问题的独特语言。语言只是开始，因为才刚开始认识小数据的巨大潜力。

一般而言，这种提供 ML 模型非常小且特定的训练数据选项做法称为“小样本学习”（Few-Shot Learning），这个名词迅速成为 ML 社群新流行语。一些最强大的 ML 模型（例如具里程碑意义的 GPT-3 模型及 1,750 亿个参数，比 BERT 多了几个数量级）已展示透过少量训练范例学习新任务的前所未有能耐。

GPT-3 本质上将整个互联网当作“切向域”（Tangential Domain），透过建立强大的知识基础，模型很快就能精通这些新颖的任务，就像爱因斯坦不需要太多练习就可成为西洋跳棋大师。尽管 GPT-3 并非开放源代码，但应用类似小样本学习技术，便能在企业启用新 M L使用案例，而这些案例几乎没有训练数据。

迁移学习＋集体学习＋其他＝企业 ML 界限的重新划定

透过强大开放源代码模型的迁移学习和小样本学习实作，一般企业终于可买到进入机器学习领域的入场券，但尽管透过迁移学习训练 ML 所需数据量会少掉好几个数量级，但要达到强大的效能表现，还需要更进一步实作。

所谓更进一步指的就是集体学习，会在许多公司想自动化相同使用案例时发挥作用。虽然每家公司都受限于小数据，但第三方 AI 解决方案可使用集体学习整合这些小数据集，进而为精细复杂的 ML 创建够大的语料库。在语言理解面，这意味着要抽象化特定公司的句子，以揭示底层结构。

迁移学习、集体学习及其他技术结合，正迅速重新划定企业 ML 的界限。如将许多顾客资料汇总，显著提高了解员工沟通方式模型的准确性。无庸置疑，我们正在见证小调制解调器器学习支援的新型工作场所出现。

The secrets of small data: How machine learning finally reached the enterprise

（首图来源：pixabay）

没有大数据也没关系，一般公司也能展开“小数据”机器学习之旅

开放源代码 BERT 模型改变了玩 ML 的游戏规则

“小样本学习”成为小数据 ML 社群界的流行语

迁移学习＋集体学习＋其他＝企业 ML 界限的重新划定

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

ElpakaiPhone8/8Plus磁吸与玻璃金属保护壳开箱推荐相容7/7Plus、iPhoneX即将登场

最新内容

China Seen Holding July 21 LPR Steady at 3.45%, 3.95% in Reuters Poll

GSK Shares Plummet After FDA Panel Votes Against Blenrep Approval

Japan Upper House Election Could Shake Yen, Bonds & Nikkei

Husqvarna Shifts Production as US Considers 30% EU Tariffs

Oil Rises on Diesel Tightness, Iraq Outages and Demand Surge

China Unveils Incentives to Boost Slumping FDI and Reinvestment

Waller Urges July Rate Cut, Highlighting Fed Policy Split

Apple Loses Top AI Talent as Meta Strengthens Superintelligence Team

Trump Pushes AG Bondi to Reveal Epstein Grand Jury Records

Foreign Funds Flock Back: FTSE 100 Outpaces Europe & US

关于我们

新闻资讯

意见反馈

网站地图