这年头不只行销人员要注意数据,连影艺人员、政治人物也需要注意网络的舆论讨论。但与英文相比,在中文环境下要做舆情分析平台仍有不少待克服之处。从台湾大学技术转移的蓝星球,成员拥有 20 年处理中文文字分析能力,推出新的蓝星球要努力跟上网络最新潮流。
蓝星球 2013 年成立,之前成员在台大资工系就读硕、博士班,为服务数位典藏数据库开始发展文字分析技术。因此蓝星球在数位典藏计划结束后,决定成立公司,并获得台大技转及台大投资。
蓝星球的蛛思 CHOOSE 舆情智慧分析平台,能分析台湾媒体报导的热点。明年 Q1 将增加分析台湾社群网站资讯的能力,Q3 加入分析中国新闻,Q4 加入分析中国社群网站资讯功能。
蓝星球副总经理宋浩博士坦言,尽管很多团队在做中文语意分析,但成果还不是很好,因此还没有一家做最好最佳的团队出线。比起英文每个单字之间有空格,省下很多断句的工夫,中文字词间并没有空格,像是全台大停电指的是什么,是全台湾大停电,还是学校台大停电了,需要知道实际发生什么事情,才能判断。蓝星球的方法是用大名词为句子断句,之后才用短点的名词断句分析句子意思,找出最合理的解释。
▲ 蓝星球蛛思的后台界面。
宋浩博士还举出中文的字词词性分析不易,不像英文有词性变化。每年新出现的社群流行用词,如好棒棒,需要搭配字词出现的平台分析正面或反面意思,像是妈妈宝宝讨论区里好棒棒是指正面例子,而 PTT 好棒棒偏负面表述。他们团队在劳基法修法之前也猜不到一例一休变成社群常讨论的名词。
▲ 蛛思能够比较特定类别新闻,以手机新闻为例,能比较两支手机的功能差异。
蓝星球另外还有提供给 B2B 的方案,提供客制化的服务透事 THOUGHTS,能透过蓝星球独家的中文探勘分析系列技术,为公司行销人员找到茫茫网海需要的宝贵资讯,进一步转换为公司决策所需的商情。
(首图来源:蓝星球)