资料科学家被誉为这一世纪最性感的产业,在各行业的重要性越来越重要。OneAD 的资料科学家业怡镇 Ethan,整场访问面对提问者,一边听着打字的声音,一边研究笔电背面贴著的贴纸,到底跑了哪些活动和社群。Ethan 回答访问者关于资料科学,以及在广告的应用,也逐步为科技新报的读者,揭开资料在现代数位广告中的神秘面纱。
新世纪最性感的职业,资料科学的前世今生
由于资料科学是新兴领域,并没有固定哪个学系出身就能说是资料科学的专家。即便像是 Ethan 常常需要到台湾资料科学的社群出没,是再自然不过的事情,彼此交流切磋最新技术,也算是工作的一部分。
Ethan 说资料科学起源于资讯科学领域,本来资讯科学就在处理资料,但资料越来越多,加上演算方法更为精进,于是资料科学这门专门领域就诞生了。资料科学的诞生也造就资料科学家这一工作,用科学的方法,用大量资料建立动察,建立模型,最终解决提出来的问题。
很多人常会进行的网络购物,网络购物也造就资料科学的发展。像是电子商务的始祖 Amazon 率先做出推荐系统,最后变成所有电子商务网站的标准功能配备,不论是桌面版网页还是行动版网页,或者 App 中的购物画面,都会有这项功能。购物车的设计也是类似状况,鼓励消费者将有兴趣,但未当下购买的产品放入购物车,资料科学家才有数据能够分析消费者的购物喜好,最终才能想方设法刺激消费者的购买欲望。
现在比较容易在广告和电子商务领域看到大量资料科学家的身影,因为这两个领域投入比较容易看到成果。其他领域的话,像是自驾车、智慧制造则看不太到,原因是需长期的投入。
不过 Ethan 说自驾车算是资料科学集大成的领域,像是大量便宜的摄影机配置在汽车上面,录制大量影像。车子镜头录下影像,再用影像辨识算法,处理车子行进方向遇到的号志、标志还有潜在障碍物,再来让车子决策是否要转弯、停下来,或是继续前进。可以说资料科学,是目前自驾车风潮当中相当重要的学科。
如今各产业资讯化程度已经越来越高,就不只有网络购物需要做数据分析,像是近来火红的 Fintech 议题,银行核发信用卡,决定额度,都可以用到资料科学,来协助行员做出上述事务的决策参考了。
资料科学在电商,分析消费者以及采取不同的行销目标
在电子商务公司上班的资料科学家,常运用顾客价值分群 (REM) 来分析手上的消费者面貌。包括消费者最近消费时间、消费频率、购物花费价钱,用这 3 项资料建立 3 个维度的模型。具体来说像是离上次购物距今的时间,花钱的数字,消费频率,高、中、低去排序。最后变成 3×3 的矩阵模型。
具体的例子,资料科学家观察到消费者购物频率不高,但一次下单出高单价,比如说结婚纪念日礼物,这时候购物网站就可以发讯息提醒消费者有可以买的物品。
网络购物广告也与一般广告有设定主打的对象,还有预期的效果。举例来说有时候消费者已经买了某个品项,近期不大可能再次购买的状况,却仍然看得到广告的状况,其实是厂商有其他的意思。比如说要目标是提升公司形象,打广告并不是浪费钱,最终目的是要深化品牌在消费者心中的地位。
资料科学家的工具箱
至于资料科学家常用工具,整个资料科学家的作业期,前期需要收集资料,资料进来之后需要建模。谈到资料科学常会提到是用 R 还是 Python,那是中期资料整理的部分。后期要建模,上线之后测试,还有视觉化。资料科学家在每一阶段都有适合用的工具,前期像是 Keras、Scala、TensorFlow、PyFlow,中间过程则最常用Pythoon、R,后期资料视觉化部分则有 Tableau,自刻的话用 d3.js,Apache Superset、Kibana、Banana 等工具。
Ethan 强调工具就只是工具,最重要的是基本概念。资料进来,如果输入不健全的资料,建模变成无意义。举例来说,要建立消费者会不会购买的模型,如果输入的资料都只有买的记录,那建出来的模型就是会歪掉了。工具只是工具,重要是概念,资料要均匀化处理,才会做出来有意义的模型。
Ethan 说资料越来越大,以往一天一百万笔资料,用单机采用数据库方式,就能跑得动。如今现在这时间一天 1GB, 2GB ,甚至多一点一天有快 1TB 的资料,单机已经无法负荷的了。所幸云端运算很普及了,只要向 Amazon 这类的云端业者租用服务,依具租用时间去计价,不用像早年得自己建立丛集式的架构,在上面用 Hadoop 分析建模。云端也省下维护的人力,有运算需求时再打开就好了。
Ethan 给想要踏入资料科学领域的人的建议,网络上有相当丰富的自学资源,各项应用也容易用开源方案组合出来。但是要做资料科学研究的话,有学科背景如数学、统计,会比较容易进行。
OneAD 提供好的广告技术方案,比两大业者更为开放的广告生态系
最后免得不了谈广告与内容产业的关系,该怎么设计广告版位,但不至于破坏使用者体验。OneAD 表示美国有 25% 的网络使用者装挡广告套件,德国是最夸张达到 80% 的装设比率。
线上广告目前最大的两家业者,不论在台湾还是国外,占了六成以上的数位广告比例。Facebook、Google 自己仗着自己生态系相当大,而筑起围墙花园。OneAD 的方案能做到跨通路的工具,行销人员能够做到真正的资料驱动的决策。
OneAd 相当重视伙伴 ,彼此合作达成整体市场的健康状态,彼此透过资料交换与共享,扩大资料应用的面向业界。相比两家大业者,他们有用户登入的资讯,OneAD 的方案没有有些人担忧的隐私问题,比较没有那么侵略。
OneAD 强调他们提供的影音广告方案,并没有不是要取代谁的目标,而是提供内容商以及广告主提供更多选择。媒体得到优质的广告内容,不干扰阅读体验,广告主不会担忧投放广告在奇怪的地方,伤害品牌名誉。
( 首图来源:OneAD)