谈起开放资料,最近沉寂不少。原因很多,包括能供应开放资料大宗的政府,并没有释出够重量级的资料集出来。像是前阵子财政部基于政治考量,不公布 20 等分位的赋税资料分布。由于政府资料大都是一般人民难以自行收集,政府各机关的态度影响开放资料甚大。这次台北市电脑公会,锁定媒体从业人员,办理开放资料媒体研讨会,实则是资料研讨会。活动请来的两位讲者李怡志和罗佩琪谈的是资料运用,说是开放资料就不怎么精确了。如同两位讲者都有说到,请忘记开放资料这件事情,我们谈的是资料运用。
百年前的疾病追追追,如何找到伦敦霍乱大爆发原因
电脑公会请来李怡志,谈资料分析。目前在 Yahoo 台湾工作的李怡志,拥有相当长时间经验处理资料运用在报导上,为公认的资料视觉化专家。对于 Open Data,由于现在有用、有价值分析的资料释出不多,他也说自己算是跑资料分析来做新闻,资料来源大都不是开放资料,并不算开放资料专家。他做得是资料新闻学 (data journalism)-用资料为依据来做新闻报导。资料视觉化则是让数据图形化,能让人一面了然因果关系,重点更凸显出来。
▲ 官方常常提供看似很齐全的资料,但细看下没办法继续追查下去
李怡志融合资料视觉化始祖 John Snow 与自身跑新闻的经验,做了真假参杂的情境故事,将讲到烂掉的经典资料视觉化, 伦敦霍乱大爆发的故事给予现代化的意义。这边提到的 John Snow 并不是冰与火之歌那一位镇守北方的私生子,而是当时在伦敦行医的医生,李怡志在演说中将他比喻为记者,追查伦敦霍乱爆发背后的真相。1854 年伦敦爆发霍乱大流行,John Snow 从官方拿到病例资料,但无法继续追查下去,只好一户一户亲自拜访调查。最后用点状分布图呈现水井与病例的空间分布,找出苏活区霍乱来源是某一口井水污染造成,进而让当局封掉这口井,不再使用。John Snow 也被视公共卫生的始祖。
▲ 图片来源:By John Snow (Rewardiv at en.wikipedia) [Public domain], from Wikimedia Commons
▲ 用现代化的技术热力图呈现病例的情形。图片来源:Flesh and Bone
▲ 李怡志用台湾的报纸现况模仿 1854 年伦敦霍乱大爆发,苹果日报可能的头版处理方式
▲ 李怡志用台湾的报纸现况模仿 1854 年伦敦霍乱大爆发,联合报可能的头版处理方式
▲ 李怡志用病例资料举例,去除可识别个人的案例资料,可以做不少事情
4 月 9 日,美国联邦政府 CMS (the Centers for Medicare & Medicaid Services)为了政府透明及开放的概念,将 2012 年的健康保险给付开放释出。由于资料量相当大,总共有 88 万健康照护机构的给付资料,直接就在网站上讲说请别用用 Excel 处理所有资料,因为没办法直接分析所有资料。除了提供 CSV 档之外,Excel 档得依字母分成好几个档案。
一般媒体除了直接分析资料当作报导素材以外,针对这些健保给付资料,还有很多不同的运用方式。像是 Pro Publica 卖整理好的资料给其他媒体,就不只是媒体的角色。或者是追求影响力,像华尔街日报为例,做出工具帮助小媒体,方便依照不同查询条件,运用这些整理过的资料。
▲ 华尔街日报将 2012 年的给付资料整理好,做出查询界面
李怡志举了几个运用数据到报导的例子,像是卫报等做资料新闻学的媒体,将报导所本的数据,附上原始数据。如果想要验证报导或是做衍生报导的人,可以直接用原始数据。李怡志分析方仰宁粉丝团按赞数,李怡志把自己收集的原始资料放出来,有兴趣的人可以进一步分析,有人做图发生方仰宁粉丝团的人数与生长曲线相仿。
▲ 方仰宁粉丝团的成长人数曲线
▲ 李怡志推荐的 Google Make Sense of Data MOOC 线上课程,类似的课程还有 School of Data
病后人生-社福资源资讯站
第二位讲者罗佩琪,是病后人生|一站式服务网的站长,相对于第一位讲者李怡志是资料分析专家,罗佩琪则是资料加值者,将分散在各处的政府补助资源弄成好查询的界面,方便大家快速找到想要的资源。
▲ 病后人生站长罗佩琪分享她的经验
罗佩琪之所以开始病后人生这个站,与他的家庭有关,父亲因公生病,突后重病没有工作能力,对家庭影响很大,她父亲公司人资提可从政府获得相关的补助资源,因而开始翻政府社福网站查找可用的补助。之后想说把这些资料分享出去,就开始病后人生这个网站了。
▲ 病后人生常见问题 FAQ
罗佩琪比喻自己是政府资源小爬虫,自己并不会写程式,顶多就是会善用别人做好的资讯工具。政府网站有时候会改版,原先文章连到的连结会失效。这方面罗佩琪感到相当困扰,她的应对之道就是会把找到的网页抓下来,再凭里头的关键字找到新的网页。病后人生网站采用 Blogger 系统,对于后续维护来说也会是问题。卫福部有份辖下机构的清单,但很可惜并无经纬度资讯。运用由李小淮开发地址经纬度转换工具,用到 Google Maps API 驱动的 geo-coding 功能,将卫福部的长照机构,地址转成经纬度,方便后续应用,像是搭配 CartoDB 呈现空间分布。
▲ 用 CartoDB 显示长照机构分布与当地机构可服务人数,站长用了不少资讯工具达成她想做的事情
这次台北市电脑公会请来媒体,谈谈资料可以如何运用在媒体。姑且不论媒体是否能将资料分析融入其工作,而不只是报导的题材,但请来的两位可说相当好。政府真的释出更多开放资料,甚至重量级资料也释出的话,这次谈到的资料分析以及资料清洗的能力,就能真正让开放资料的使用动机出现了,不然现况只是笑笑政府提供那什么鬼开放资料。