甫落幕的 2014 台湾资料科学爱好者年会,吸引全台对资料处理、Big Data 有兴趣的人,在 8/30~8/31 两天齐聚中研院人文社会科学馆国际会议厅,一起聆听资料科学家第一手的资料分析经验,主办单位也特别安排资料分析上手课程,以 R 语言带领新手进入资料科学领域。
第二天的讲者为 Gogolook(公司中文名为“走着瞧”)的首席执行官郭建甫与资料科学家高义铭,Gogolook 被视为台湾近几年最成功的创业计划,旗下来电辨识 App“Whoscall”,以能够有效防制骚扰、恶意诈骗电话、骚扰简讯功能而闻名,在 2013 年底的下载率就已突破 600 万次,并获 LINE 的母公司“NAVER”青睐,以 5.29 亿收购。
在 8/31 的演讲中,郭建甫与高义铭畅谈 Whoscall 如何从一开始的创业发想,到成为现在大家所看到的模样,他们以深入浅出、又略带乡民口吻的方式,将 Whoscall 的整个发展过程,与数据处理时所使用的概念与统计方法,大方公开给在场的听众,有兴趣的读者可以参考已释出的投影片。
▲ 资料科学在 Whoscall 产品体系中的角色 from 台湾资料科学爱好者年会
演讲完后,《科技新报》有幸邀请首席执行官郭建甫与行销总监杨立德接受专访,从 WhosCall 谈起,最后以台湾资料科学家在 Big Data 热潮中应该有的技能与想法,呼应台湾资料科学爱好者年会所期待的:让资料分析在台湾不再是口号,而是大家手边随时可用来解决问题及创造价值的工具。
草创初期如何搜集资料?
在使用者研究中有个方法叫绿野仙踪法(Wizard of Oz,编按:采用幕后人工来模拟电脑系统人机界面的作法),如同电影《MIB 星际战警》中的剧情般,有一台可以将信件分很快的机器,结果打开后里面坐着一只外星人。WhosCall 草创初期因使用者少,同样利用工人智慧概念,先抓取全球所有的垃圾电话网站(Spam),接着标记(tag)这些电话号码,等逐步累积够多的活跃使用者,再将资料科学家的角色放入。
许多新事业在草创初期都必须有所突破,WhosCall 就是借由网络的资讯,突破一开头的瓶颈。除了抓取垃圾电话网站的资料,在台湾,一般人若被诈骗也会在网络上留下蛛丝马迹,提醒其他人这支电话不要接,因此一开始我们将所有的网络使用者当作 WhosCall 的使用者,来标记电话,如此一来进入门槛就比较低,并可进一步达到足够的资讯量,最后自然而然就会有资料科学分析。
万事起头难, WhosCall 成立时遇到最困难的事是什么?
没有人相信我们做 WhosCall 的价值在哪里。一开始找钱很困难,当时很多人都不明白,一间专做防诈骗的软件可以赚钱,但整个团队目标很清楚──我们在做对使用者有用的事情,只是不知道怎么赚钱,因此在募资方面进行的很辛苦,直到 Google 首席执行官 Eric Schmidt 访台提到我们,才让大众开始关注 WhosCall。
但即使 Schmidt 点名我们,吸引很多创投来找我们谈,却仍然没有资金进来,因为投资者还是看不懂为什么要做防诈骗 App,也看不出有任何商业模式在,加上我们也表明不会跟任何电话中心、行销公司合作,因此,最后资金来源仍然仰赖如资策会创投、国发基金等公家单位,没有任何的私人资金挹注,直到 2013 年,LINE 的母公司 Naver 与 WhosCall 谈妥 5.29 亿收购金,才算是有稳定的资金来源。
如何吸引使用者持续回报资料?另外,一开始使用者回报错字问题,之后怎么改善?是以人工方式一个个确认吗?
俗语说坏事传千里,WhosCall 其实就是跟随人性走。为什么 WhosCall 可以在草创时靠着网络搜寻到的诈骗电话建立数据库,因为大部分的人在接到类似电话时,不管是出自于抱怨或是提醒,会习惯上网分享。一开始 WhosCall 是把相关回报资讯放上去,但久而久之就发现用户都很愿意回报,因此只要提供入口,不需要加以引诱,使用者就会自动回报。把坏人揪出来的倾向是人的天性,而掌握人性永远是成功的不二法则。
(图片来源:WhosCall)
至于改进错字的方法很多种,目前 WhosCall 使用投票方法,让使用者从候选标记中选出最适当的,另外,WhosCall 也可以让使用者看到其他人的票,所以虽然有些标记可能有错字或不精确,但借由投票,可让回报状态朝向更正确的意思。
有许多以在地为主的过滤服务是以人工确认,也做得很好,但 WhosCall 是以全球市场为格局,不可能每个市场都用人工来确认,例如 WhosCall 在阿拉伯语区很受欢迎、使用者很多,但 WhosCall 并没有特别请一位会阿拉伯语的人进行标记确认,而是用群众的力量进行修正。
有保险业、电话行销公司或电信业者有跟你们接触吗?你们如何应付或建议?
最近有电信业者主动来与我们接触,因为他们百思不得其解,为什么接听率越来越低,也拉不起来。电话中心的运作,主要是由机器每分钟拨出一定数量的电话,再让服务人员负责接听。为了应付接听率越来越低的情形,原本 1 分钟打 100 通增加到 500 通,最后 1,000 通,但都不见起色。本来电信业者以为 WhosCall 影响力没有那么大,但后来发现台湾的 App 使用者有好几百万人,所以只要电话被一些使用者过滤与回报,之后标记速度会越来越快,再加上 WhosCall 使用的规则并非一般常见的,而是能贴近使用者的习惯,因此未来的电话行销生态势必得改变。
(图片来源:TigerTel)
未来电话行销不应该用这么简单的方法,应该针对目标客户来着手。举例来说想像某个情境,当电话行销人员打给某个 60 岁以上的老人,WhosCall 接到这通电话时,上面就显示为 XX 人寿、XX 保险,并将资讯列出来,如提供有关牙齿的保险,或是针对骨头的保险,将事实讲清楚,并在第一时间就将资讯呈现给用户。
行销公司也不应该用接听率来评估整体情况,而是应该以使用者满意度来评断,必须将焦点放在“不适当的销售上”,例如不应该在大中午打电话、不应该在 5~6 点下班时间打电话,还有什么沟通方式较好。目前电话中心的解决方法是一直换电话,但全台湾的电话也没有多少可以换,所以最恰当的方式,是整个电话中心或电话行销公司的生态要改变,而 WhosCall 也正准备从这当中探讨出新的模式。
演讲中有提到“过去不知道怎么用 Big Data 帮公司赚钱”,那现在的想法呢?
应该是说我不知道 Big Data 怎么帮公司赚钱,但我知道 Big Data 怎么满足用户的需求,只要能满足用户数的需求,使用者就会大增,只要消费者相信我们,最终我们将能找到对的决策方向。
Big Data 并不是告诉我们赚钱的方法,其实 WhosCall 从成立到现在,任何一个时间点都可以把资料卖给别人,但这无法真正帮到用户,甚至会侵犯到使用者隐私。老实说 WhosCall 其实有竞争对手,像是印度、中国都有类似的 App,而且做的不错,可是为什么他们无法打进台湾、日本或韩国,原因是他们做的事情很像在卖资料,甚至毫不在意隐私权。相比之下,WhosCall 一开始就只取能帮助到使用者的资料,也只把资料应用到这些事情上。
(图片来源:Nic McPhee CC BY 2.0)
WhosCall 也与新北市政府警局合作,由警察局提供即时警政讯息,再透过 WhosCall 内建的推播功能以及脸书粉丝团发布的方式,让民众接收到预警资讯。WhosCall 之所以会在两三年间快速成长,完全是因为使用者信任我们。WhosCall 坚守对使用者的价值,这让我们之后在建立商业模式时,是能够创造获利空间。
WhosCall 与 Line 结亲后,下一步的规划是什么?
即时通讯的市场很大,Line 的实力又很强,WhosCall 可借由 Line 对全球快速的拓展,进军到全世界,但 WhosCall 同时也要靠自己的力量,推到没有 Line 的地方。
Big Data 怎么改变你看事情的方法?
Big Data 帮助我把假设厘清,而且为这些假设找到更深层的价值。对于 Big Data 这个议题,我认为 “Big”是被炒作出来,其实还是在处理“Data”,而 Data 就是在探讨直觉背后的逻辑。
当一通电话每次打出去都响一声就挂断,而且打给很多人,光想就觉得很有问题, Big Data 有办法找到背后的脉络,甚至能提供更高价值,告诉我们更多的事情,例如这样的状况只要发生在 3~5 个人身上,就可以做判断。 Big Data 帮助我们将现实当中主观又直觉的想法,以更精简且具逻辑性的方式产出,有时候 Big Data 会让我们看清事实是很简洁的,就像 WhosCall 开始在做资料分析时,萃取了五六十个特征,但最后发现只要十几二十个就可以判断。
(图片来源:WhosCall)
有些专家学者预言,Big Data 最终的胜利者还是拥有资料的人,请问你怎么看待这件事?
我的想法与他们类似,这也是 WhosCall 为什么一定要搜集自己的资料。若从 Google、Facebook、Amazon 等资料持有者那边拿到资料,再做处理与分析,那我们还是跳脱不出“代工”的思维,仍得靠这些大客户的脸色吃饭。此外最原始的资料其实非常丑,有很多噪声与缺漏,而 Google、Facebook 内部真正在做资料分析的科学家,其实大部分都是资料“黑手”,也就是想办法把资料变的干净简洁,才能给下游的包商使用。
台湾由于市场规模的关系,缺少真正且庞大的原始资料,因此大部分的台湾资料科学家没有处理过原始资料的经验,而是将别人已整理好的资料套入模式,进行分析,这很可惜,因此建议有心想走资料科学领域的人,应该注重这方面的训练。
对有相关资料分析经验,又想创业的年轻人有什么建议吗?
虽然 Big 有点炒作过头,但 Data 一定是未来的显学,对于会资料分析的人,已经拥有这时代最有价值的能力,下一步就是想办法学会 Coding,或找到一个 Coding 能力很强的同伴,另外要想办法把灵光一现的想法、对资料价值的观察建立成一个 App,不用局限于只符合台湾人的需求,而是要把它放在全世界,更简单的是将自己的想法快速建造出来,让使用者告诉你什么地方需要他。
过去为什么 Data 的价值无法展现出来,主要是因为成本太高,但现在每支手机都是个感测器,都可以从用户中直接搜集资料,例如有一个 App 叫“你那边天气如何?”就让用户回报当地的天气资讯,只要你对资料有熟悉度,并且想到一个好的点子,就赶快做出 App 放到网络上,让使用者回报资讯给你,并将这些数据再利用,回馈给使用者。总之最后还是老话一句:“Doing is the best plan!”