台湾政府过去推出许多远大口号,产业界往往是表面上不敢违逆,私底下傻眼、嘲笑或痛骂,不过,不只政府会不断创造口号,产业界自己也一样,全球产业发展史上,多的是无数定义不清、前景不明,连创造者自己都搞不清楚定义的口号名词,同一个名词还会不断改名,重复炮制,产业以外的一般民众,往往被重复糊弄了好几次,还汲汲营营的跟着喊,以为有跟上最新口号就是有远见、有大视野,最惨的则是,连口号都已经过期了十几年,还傻傻的继续喊。
近来“大数据”与“卤肉饭”之争,就是一个这种傻劲的典范,大数据是未来?不,大数据本身就已经是 2000 年出现的名词,光是“大数据”这 3 个字就已有 17 年历史,而与大数据相同概念的前身名词,最早自 1959 年就已经提出,相较之下,台湾知名、时常成为热门网络讨论话题的胡须张卤肉饭,创业于 1960 年,当时还是路边摊,也就是说,大数据比胡须张卤肉饭还要古老。
事实上,整个数据分析的概念,还可推到更久远,最起码从回归分析问世就应该开始起算,若是如此,那历史得要往前推到史上留名的德国数学家高斯的年代,那可是 19 世纪初的 1800 年代,台湾还要等超过一个世纪才会发明卤肉饭(推测台湾卤肉饭是自日本时代改良品种诞生蓬莱米之后才出现,蓬莱米发表于 1926 年)。
高斯虽然与勒壤得开启了最早的回归分析,但当时显然没有电脑,一切都是仰赖“人脑智慧”来运算、找出数据的回归模型,没有所谓电脑算法,所以就把它们只算做是强调电脑运算的大数据的老祖宗。但 1959 年起,如今的大数据概念就已经确实出现了。
十几年来两岸炒作大数据议题,只要是经历超过 20 年的资深资讯业界人士,一听到大数据的说法,往往反射式的回应:这不就是所谓“机器学习”(Machine Learning)或“资料探勘”(Data Mining)?
的确正是,美国人工智能先驱亚瑟‧李‧山谬(Arthur Lee Samuel)于 1959 年定义“机器学习”(Machine Learning),就是要发展算法,让电脑人工智能能在并未事先指定特别方向或任务的情况下,从大量资料中找出资料中的关键之处或是异常之处,可以逐步学习,并具备预测能力。跟现在的大数据定义大同小异。
机器学习也同时是另一个名词“深度学习”(Deep Learning)的前身,时间往后推到如今的 2016 年,产业界的运算能力使得机器学习可发挥惊人的水准,其成就表现于 AlphaGo 以“深度学习”击败人类围棋棋士,于是“深度学习”又一时成为当红的新名词,其实不过就是过去被遗忘的机器学习。
如今深度学习已经开始应用于许多领域卓然有成,但 1959 年时,人类掌握的运算能力还不足以让机器学习产生太大的有意义成果,结果口号喊了以后实质上成果有限,到 1960 年代,由于缺乏实绩,统计学家嘲笑这种不设定预设假说、只是丢进一堆数据就想分析出成果的想法是异想天开,跟挖烂泥巴没两样,贬称为“资料钓鱼”(data fishing)或“资料挖泥”(data dredging)。
机器学习这个名词蒙尘,遭扔进烂泥堆,但是电脑科学家的理想不变,到了 1990 年,又发明了新名词,这次叫“资料探勘”,强调从大量电脑资料中找出关键或异常资讯的能力。其实,原本是要叫做“数据库探勘”(Database Mining),很不幸的是,一家加州圣地牙哥电脑公司 HNC 已经为了其产品“数据库探勘工作站”(Database Mining Workstation)申请商标,为了避免侵犯 HNC 商标,只好拿掉一个字,改叫资料探勘。同时还有许多其他讲法,如“资讯收割”、“资讯发掘”、“知识萃取”等。
资料探勘这个名词风行了好几年,也的确有许多应用,譬如在台湾,健保局于健保 IC 卡化后,利用资料探勘,察觉出诊所申报的看诊情况异常,再针对这些异常资料的诊所进行实地检查,果然发现其中有部分诊所有诈骗健保的行迳,这就是一个相当成功的资料探勘应用。但是,一个名词从 1990 年开始喊,到了 2000 年已经成了 10 岁的老名词,又感觉不大新潮了。
全球的产业顾问界为了创造新流行,在 2000 年又重新发明一个新名词,把本来就行之有年、运转顺畅、稳定发展的资料探勘,重新包装成“大数据”,2001年,日后由顾能(Gartner)购并的市场研究公司麦塔集团(META Group),给了大数据“3V”的定义,强调“巨量、即时、多样”的资讯经由机器学习处理的应用,其实本质上与过去的机器学习、资料探勘并无二致,日后顾能又基于“3V”小幅修改、扩充对大数据的定义,但大体上没有太大变动。
台湾常发生资讯落差
也就是说,就算不计入资料探勘、机器学习这些老早就出现的前辈名词,光是“大数据”本身,就是早在 2000 年提出,已经 17 年之久的老名词,台湾老早就有相关应用,产业界每天都在运作,随手举例,如群创 4 月时结合水利署水情资讯以大数据来节水,不仅产业界,更连政府都老早就懂得拿来抓健保申报异常,早已经是这么跟卤肉饭一样稀松平常的东西。
若今天是台湾政府办“卤肉饭节”办了全台湾第一座“卤肉饭中心”,请来所有有做卤肉饭沾到边的三百多家台湾餐饮企业(贵州大数据展主要为中国厂商共 325 家),又邀请郭台铭前来吃了一口卤肉饭,有人看到了,就大惊小怪,说卤肉饭是人类的未来,卤肉饭要征服世界,连郭台铭都来吃了一口,台湾要成为卤肉饭中心了!大多数人应该只会觉得是乡巴佬闹笑话。但这种笑话,在台湾却还能刊上财经杂志网站。
事实上,在 5 月底到 6 月初,全球真正最重要的产业展会,是台湾的“台北国际电脑展”(COMPUTEX 2017),虽然每年产业界都爱之深责之切,对台北电脑展有诸多批评与奚落,以硬件为主的传统,也使得台北国际电脑展随着全球电脑产业有所衰退,但是即使如此,不可否认,台北国际电脑展仍是每年三大电脑展之一,在全球产业仍具有重要地位,去年参展厂商达 30 国 1,600 多家,而在人工智能概念兴起下,2017 年的台北国际电脑展更重新有了看头。
如今领头冲刺人工智能产业链的绘图芯片大厂辉达(NVIDIA),在 5 月 30 日台北国际电脑展举办人工智能论坛 (AI Forum),由首席执行官暨创办人黄仁勋亲自发表主题演说,演讲中宣布辉达正式启动全球顶尖 ODM 伙伴合作计划,包括鸿海、英业达、广达以及纬创等国内服务器设计生产大厂都将成为合作伙伴,加速因应人工智能云端运算的各种需求。不仅辉达的动向是目前全球产业界关注的焦点,台北电脑展上还有安谋(ARM)、IBM、英特尔(Intel)、亚马逊(Amazon)、沛星(Appier)等产业领导大厂于各论坛发表对人工智能产业发展的见解。
若要提到所谓的大数据、比拼“郭台铭因素”,每年鸿海当然参展台北国际电脑展,2017 年台北国际电脑展首日,鸿海集团派出副总裁吕芳铭在 CPX 论坛论坛上以“智慧制造在数据时代面临的机遇与挑战”为题发表演说,其中述及工业大数据。
一个名词已经 17 岁,前身起于超过半个世纪以前,却还有台湾人觉得是“未来”,讨论科技产业,却不知有台北国际电脑展?竟然歌颂已经是自 1959 年以来的老东西,忘记 1982 年以来的老展会?
这种神奇资讯落差在台湾屡屡发生,近年来最可悲的一个例子是,中国广西 2006 年发展出“南宁纯资本运作”庞氏骗局,2008 年中国各级政府开始严打,并在受骗重灾区各地银行都张贴警语,于是南宁骗局在中国于 2008 年破灭,没想到在中国已经骗不了人,却到台湾繁衍兴盛,到了 2013 年,全台湾有数万人受骗,总损失新台币上百亿。
广西公安于 2013 年 3 月逮捕台湾南宁诈骗首脑余远萤,遣送台湾,台湾高检署也于当年 8 月大举扫荡,一口气破获 20 个诈骗集团,这下总该结束了吧?不,到 2015 年竟然还有台湾人持续受骗,2016 年 4 月刑事局破获以 LINE 群组诈骗上百受害者的南宁诈骗集团。台湾人消息之不灵通,真可说是一绝。
面对这种消息堵塞的奇怪社会,企业人士、媒体,应该善尽知识分子的责任,疏通阻塞的消息,而不是竟然还自己发扬无知。明末清初文人顾炎武曾说“士大夫之无耻,是谓国耻”,在此借用来照样造句:知识分子的无知,才真的是国家危机。
(首图来源:pixabay)