一套机器学习算法就像一位大师级的工匠一样:每一项它的产出作品都不相同,而且可以为客户的需求量身定做。然而不是要将石头变成砖瓦,黄金变成珠宝,机器学习机是要将数据资料转化为算法。而且拥有越多的数据资料,便能归纳出越复杂的算法。以下由三采文化,摘自《大演算:机器学习的终极算法将如何改变我们的未来,创造新纪元的文明?》的部分内容。
我们如何能知道,人类已经真正找到大演算?当相同的学习器只有参数的改变,而且除了数据资料以外,只需要输入最小量的学习范本,就可以和人类一样,理解影音与文件内容,并能在生物学、社会学及其他科学领域,做出重大的新发现。显然,在这种标准下,目前还没有任何学习器已经被证明就是大演算,即使在不太可能的情况下,已有能解决某领域的算法存在,仍不足以承担机器学习统一理论的大局。
在探求大演算的过程中,我们不必辛苦从无到有。我们已经有几十年的机器学习研究,可以从中借鉴完整全貌。机器学习领域目前存有许多互相竞争的思想学派,包括符号理论学派(Symbolists)、类神经网络学派(Connectionists)、进化论学派(Evolutionaries)、贝氏定理学派(Bayesians)和类比推理学派(Analogizers)。每个学派都有一套核心理念,以及一个它最关心的特定问题,也针对这个特定问题,基于其相关领域的科学概念,找到一个适合的解决方案,并且拥有一个主要的算法,可以适度体现它的机器学习行为。
对于符号理论学派来说,所有的智慧可以被简化成操纵符号,就像数学家求解方程式的过程,是透过用其他表达式来替换表达式的方法。符号理论学派明白,你不能从头学起,你需要一些初步的知识,与数据资料相配合。符号理论学派们已经找到了如何将先前存在的知识纳入学习,以及如何快速地将不同的知识进行结合,以解决新的问题。他们的主要算法是逆向的演绎法(Inverse Deduction),透过这种算法可以找出哪些知识是欠缺的,以便能做出逻辑的演绎推论,然后使其尽可能地被通则应用。
对于类神经网络学派来说,学习就是人类大脑所做的事情,所以我们需要做的,就是对大脑进行反向工程。大脑的学习是透过调整神经元之间的连结强度,而关键的问题是找出哪些神经元的连接,必须对哪些错误负责,并依此对应地改变它们。类神经网络学派的主要算法是倒传递理论算法(Back propagation),它会比较系统的输出与期望的输出,然后依次改变一层又一层的神经元连结,以便使得输出结果可以更接近于它应该呈现的。
进化论学派则认为,所有学习之母就是物竞天择。如果物竞天择可以造就我们,那么它就可以造就任何事情,而我们所需要做的,就是在电脑上模拟它。进化论学派所解决的关键性问题就是学习的结构,不只是调整参数而已,就像倒传递理论算法所做的,可以创建一种能够让这些调整进行微调的大脑。进化论学派的主要算法是一种遗传程式规划(genetic programming),就像大自然会交配与演化生物一样;同样地,遗传程式规划也会以相同的方式,繁衍与演化计算机程序系统。
贝氏定理学派最关注的课题就是不确定性。这门学派主张所有学到的知识都是不确定的,而且学习本身就是一种不确定的推理形式。那么这个问题就变成如何处理噪声、不完整,以及相互矛盾的资讯,而不会造成分崩离析。解决的办法就是概率推理,而主要的算法是贝氏定理与其衍生物。贝氏定理告诉我们如何把新证据转化为信念,而概率推理算法则尽可能有效地做到这一点。
对于类比推理学派而言,学习的关键是认识各种情况之间的相似之处,从而推断其他情境的相似地方。如果两位患者都有相似的症状,也许他们患有相同的疾病,问题的关键是要判断两件事情之间是如何相似。类比推理学派的主要算法就是支持向量机(Support Vector Machine,简称SVM),它可以找出哪些经验是需要记住的,以及如何结合这些经验,做出新的预测。
针对各个学派的核心问题,每个学派都有提出相对应的解决方案,这些解决方案都是相当卓越,且得来不易的进展。然而真正的大演算,是必须同时解决这五类问题,而不只是一个。我们的探索追求,将带领我们跨越这五个学派的每一个领地。每个领地之间的边境通道,是它们可能会遇到交涉与小冲突的地方,这将是这趟大演算探索旅程中最棘手的部分。你准备好了吗?我们的学习旅程就从拜访符号理论学派开始,这个学派可说是机器学习最古老的智慧根源。
《大演算》简介
有一个终极算法,可以解开宇宙所有的秘密,现在大家都在竞争,谁能最先解开它!华盛顿大学电脑工程系教授佩德罗.多明戈斯(Pedro Domingos)破解了一个在机器学习领域中长久以来的瓶颈,成功把机器学习、哲学与人工智能结合起来,这个突破性研究还登上了《新科学人》(New Scientist)杂志的封面故事。