欢迎光临GGAMen游戏资讯




未来 3 至 5 年,哪个方向的机器学习人才最缺?

2024-11-23 209

本文为整理作者阿萨姆在知乎“未来 3~5 年内,哪个方向的机器学习人才最紧缺?”问题下的回答,对机器学习有兴趣的朋友不妨参考看看。

既然身在业界,那么我就谈谈业界未来几年需要什么样的机器学习人才。不谈学界主要还是因为大部分人最终不会从事研究,而会在应用领域奋斗。相较而言,业界对人才的需求更保守,这和学界不同。这受限于很多客观因素,如硬件运算能力、资料安全、算法稳定性、人力成本开支等。

这个答案可能更适合两类人:1. 在校学生。2. 工作不久想转行的朋友

特别厉害的技术大腕建议探索适合自己的路线,而我只能谈一谈适合大部分人的路线。在回答前,我还是忍不住吐槽那种简单回答 “深度学习”、“大数据”、“NLP”、“机器视觉”的人。以上领域的小方向多如牛毛,以自然语言处理(NLP)为例,细分有自然语言生成、自然语言理解,还有不同语言的语言模型。任一个方向花几十年研究也不为过,只给几个字答案和买彩券有什么差别……

因此大部分机器学习实践者还是脚踏实地吧。盲目追逐热点很容易跌进陷阱,而巩固基础、寻找自己擅长的领域和机器学习交叉点,可帮助你在就业市场保持炙手可热,成为业界最想要的人才。

0. 背景

工业界未来需要什么样的机器学习人才?老生常谈──能将模型用于专业领域的人,也就是跨领域让机器学习落地的人。有人会问现在不就需要这样的人吗?答案是肯定的,我们需要并也长期需要这样的人才,现阶段机器学习落地还有各种各样的困难。这种需求不是昙花一现,这就跟 web 开发是同样道理,从火热到降温也过了十年。一个领域的发展有特定周期,机器学习的门槛比 web 开发高且正在日出期,所以大家致力于成为“专精特定领域”的机器学习专家不会过时。

什么是特定领域的机器学习专家?举个例子,我以前曾回答 “人工智能会否取代财务工作者” 时提到,我曾在某个公司研究如何用机器学习自动化一部分稽核工作,但遇到的最大困难是我自己对稽核的了解有限,而其他稽核师对我的工作不是非常支援,导致进展缓慢。所以如果你有足够的机器学习知识,并对特定领域理解良好,职场供需中你肯定站在优势方。以一个问题“阿萨姆:反欺诈(Fraud Detection)用到的机器学习模型有哪些?”回答为例,特定领域的知识帮助我们更能解释机器学习模型的结果,得到老板和用户的认可,这才可说是算法落了地。能写程式码、构建模型的人千千万万个,但理解自己在做什么,并结合自己的领域知识,提供商业价值的人少之又少。调侃一句,哪个方向的机器学习人才最缺?答:每个领域都需要专精的机器学习人才,你对特定领域的理解就是你的武器。

当然,给鸡汤不给汤匙很不厚道,所以我会再给一些具体建议。再次申明,这里我仅建议以就业为主的朋友,走研究路线有不同建议,本文不再赘述。

1. 基本功

说到底机器学习还是需要一定的专业知识,这可以透过学校学习或自学完成。但有没有必要通晓数学,擅长最佳化呢?我的看法是不需要,大前提是要了解基本的数学统计知识即可,更多讨论可看我在“阿萨姆:如何看待‘机器学习不需要数学,很多算法封装好了,调个包就行’这种说法?”的答案。最低程度我建议掌握五个小方向,对于现在和未来几年内的业界够用了。再次重申,我对算法的看法是大部分人不要造轮子、不要造轮子、不要造轮子!只要理解自己在做什么,知道选什么模型,直接呼叫 API 和现成的工具包就好了。

  • 回归模型(Regression)。学校课程其实讲更多分类,但事实上回归才是业界最常见的模型。比如产品定价或预测产品的销量都需要回归模型。现阶段比较流行的回归方法是以数为模型的 xgboost,预测效果很好,还可以自动排序变数重要性。传统的线性回归(一元和多元)也还会继续流行下去,因为良好的可解释性和低运算成本。如何掌握回归模型?建议阅读《Introduction to Statistical Learning》的 2-7 章,并看一下 R 里 xgboost 的 package 介绍。
  • 分类模型(Classification)。老生常谈,但应该对现在流行并继续流行下去的模型有深刻了解。举例,随机森林(Random Forests)和支援向量机(SVM)都属于现在业界常用的算法。可能很多人想不到的是,逻辑回归(Logistic Regression)这个常见于大街小巷每本教科书的经典老算法,依然占据业界半壁江山。这个部分建议看李航《统计学习算法》,挑着看相对应的那几章即可。
  • 神经网络(Neural Networks)。我没有把神经网络归结到分类算法还是因为现在太红了,有必要学习了解一下。随着硬件能力的持续增长和资料集愈丰富,神经网络在中小企业的发挥之处肯定有。三、五年内,这个可能会发生。但有人会问,神经网络内容那么多,比如架构,比如正则化,比如权重起始化技巧和触发函数选择,我们该学到什么程度呢?我的建议还是抓住经典,掌握基本的三套网络:a. 普通的 ANN。b. 处理影像的 CNN。c. 处理文字和语音的 RNN(LSTM)。对每个基本网络只要了解经典的处理方式即可,具体可参照《深度学习》的 6~10 章和吴恩达的 Deep Learning 网络课程。
  • 资料压缩/可视化(Data Compression & Visualization)。业界常见的就是先可视化资料,比如这两年很红的流形学习(manifold learning)就和可视化有很大的关系。业界认为做可视化是磨刀不误砍柴工,把高维资料压缩到 2 维或 3 维,可很快看到一些有意思的事,能节省大量时间。学习可视化可以使用现成的工具,如 Qlik Sense 和 Tableau,也可用 Python 的 Sklearn 和 Matplotlib。
  • 无监督学习和半监督学习(Unsupervised & Semi-supervised Learning)。业界另一个特点就是大量资料缺失,大部分情况都没有标签。以最常见的反诈骗为例,有标签的资料非常少。所以一般都需要使用大量的无监督或半监督学习,来利用有限的标签学习。多说一句,强化学习在大部分企业使用基本为 0,估计未来很长一阵子可能都不会有特别广泛的应用。

基本功的意义是当你面对具体问题时,很清楚可用什么武器对付。上面介绍的很多工具都有几十年历史,依然历久弥新。所以 3~5 年的跨度来看,这些工具依然非常有用,甚至像 CNN 和 LSTM 之类的深度学习算法还在继续发展。无论你还在学校或已工作,掌握这些基本技术,都可以透过自学在几个月到一两年内完成。

2. 秘密武器

有了基本功只说明你可以汇出了,怎么才能使基本功不是屠龙之术?必须结合领域知识。这也是为什么我一直劝很多朋友不要盲目转机器学习、从零做起。学生可以多关注自己感兴趣的领域,思考如何把机器学习运用在这个领域。比如我对历史和哲学很感兴趣,常在思考机器学习和其他文科间的关联,也写过一些开脑洞的文章如《带你了解机器学习(一):机器学习中的 “哲学”》。

已有工作/研究经验的朋友,要试着利用自己的工作经历。举例,不要做机器学习里最擅长投资的人,而要做金融领域中最擅长机器学习的专家,这才是你的价值主张(value proposition)。最重要的是,机器学习的基本功没有大家想的那么高不可攀,没有必要放弃自己的专业全职转行,沉没成本太高。透过跨领域完全可做到曲线救国,化劣势为优势,你们可能比只懂机器学习的人有更大的产业价值。

举几个我身边的例子。一个朋友是做传统软件工程研究,前年他和我商量如何使用机器学习以 GitHub 上的 commit 历史来辨识 bug,这就是一个结合领域的好知识。如果你本身是金融出身,在你补足基本功同时,就可以把机器学习交叉用于你擅长的领域,做策略研究,我已经听说无数个“宣称”使用机器学习实现交易策略的案例。虽不可尽信,但对特定领域的深刻理解往往就是捅破窗户的最后一层纸,只理解模型但不了解资料和背后的意义,导致很多机器学习模型只停留在好看却不实用的阶段。

换个角度思考,不同领域的人都理解机器学习更能促进技术落地、打破泡沫传言。对大众而言,不再担心自己会失业,还能找到自己的角度,在这个全民深度学习的时代找到“金饭碗”。所以我建议各行各业的从业者,不必盲目转行到电脑或机器学习,而应该加深对专业的了解,并自学补充上面提到的基本功,自己成为这个领域的机器学习专家。

3. 弹药补给

没有什么不会改变,这个时代的科技更新速度很快。从深度学习开始发力到现在也不过短短十年,所以没有人知道下一个红的是什么。以深度学习为例,这两年非常红的对抗生成网络(GAN)、多目标学习(multi-lable learning)、迁移学习(transfer learning)都还在飞速发展。关于深度学习为什么有良好泛化能力的理论猜想文章,在最新的 NIPS 听说也收录了好几篇。这都说明了没什么产业可以靠吃老本潇洒下去,我们需要追新的热点。但机器学习的范围和领域真的很广,上面所说的都还是有监督的深度学习,无监督的神经网络和深度强化学习也是现在火热的研究领域。所以我的建议是尽量关注、学习了解已成熟和已有实例的新热点,不要凡热点必追。

如果你有这些基本功和良好的领域结合能力,3、5 年绝不是职业的瓶颈期,甚至十年都还太早。科技时代虽然给我们很大的压力,但也带给我们无限可能。技术总会过时,热点总会过去,但不会过去的是不断追求新科技的热情,和对自己的挑战。

欢迎加入机器学习的世界!

(本文由 雷锋网 授权转载;首图来源:shutterstock)

2019-03-17 23:31:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 ggamen科技资讯头条 ggamen科技 资讯头条 游戏头条
0