前些时日机器学习的新闻很多,Google 开源其 Tensor FLow 系统,6 天后微软宣布 DMTK 也要开源,最后连 IBM 也有。如今非营利组织也来凑一角。维基媒体基金会推出物件版本评估服务 (Objective Revision Evaluation Service, ORES),希望用机器学习的方式,找出含有恶意意图的内容增修,纠出像涂鸭、打广告这种防不胜防的事情。当然,维基基金会做的专案,一定是预设开源释出。
维基基金会采用机器学习的技术,对于群众贡献而且是处理文字资料的维基百科相当少见。由维基基金会资深研究科学家 Aaron Halfaker 导入 ORES 算法,希望能够透过新的程式脚本找出打广告、涂鸦、大规模破坏等行为,把宝贵的人力用在实际内容产出和人际沟通上。现行的自动化脚本已经运作很久,得有新的技术进来刺激技术革新。
以下为 ORES 采用的三种编辑品质管制 AI 和一种条目品质模式 AI,以及布署的维基百科语言:
context | models | |||
---|---|---|---|---|
damaging | goodfaith | reverted | wp10 | |
dewiki German Wikipedia | ||||
enwiki English Wikipedia | ||||
eswiki Spanish Wikipedia | ||||
fawiki Persian Wikipedia | ||||
frwiki French Wikipedia | ||||
hewiki Hebrew Wikipedia | ||||
idwiki Indonesian Wikipedia | ||||
itwiki Italian Wikipedia | ||||
nlwiki Indonesian Wikipedia | ||||
ptwiki Portuguese Wikipedia | ||||
trwiki Turkish Wikipedia | ||||
ukwiki Ukranian Wikipedia | ||||
viwiki Vietnamese Wikipedia | ||||
wikidatawiki Wikidata |
“借由结合开放资料和开源机器学习算法,我们的目标是希望让维基百科的品质监控更加透明、可审计,并且很容易尝试。”Halfaker 说。“虽然引进 AI 和机器学习来处理大量社交的事情很怪,但我不觉得我们现在做的事情跟先前的软件更新有什么不同。”
▲ ORES Logo。(Source:wikimedia)
维基基金会此次推出 ORES 预估要对抗编辑人数停滞不前甚至下滑的问题,让机器学习用来纠出恶意编辑,希望能够让宝贵的人力用在刀口,也就是实际的内容生产上。
目前英文维基百科已经有几个品质管制的自动化工具,尽管很成功维持维基百科的品质,但却同时提高新手贡献的障碍,这些自动化工具常常回退新手的编辑,因为新手有时候会出于无心,以及不熟悉编辑语法或工具,不小心移除片段。
▲ ORES 的破坏预测模型。(Source:维基媒体官方部落格截图)
另 一方面,引入自动化工具同时也加强新手指导工作,则能缓和老手跟新手的相处问题,老手对维基上的规距较熟悉,老手对没编辑的新手会看不顺眼,有时候用不知道哪边翻找来的规章指责新手,或者常会认定新手未照维基方针的内容编写,是来打广告、知名度,而吓跑潜在的贡献者。用 ORES 能够让有经验的维基编辑,在判断编辑是否有恶意或广告意图时,能够有客观的依据,较不会带有情绪性。
ORES 目前已经在 14 个维基百科语言站启用,还没有应用到中文维基百科。现在中文维基百科上也有几个自动化 AI 的运作,分别侦测单纯繁简转化、清空整篇文章或章节等破坏行为。
相关连结
- Artificial intelligence service gives Wikipedians ‘X-ray specs’ to see through bad edits
- Artificial Intelligence Aims to Make Wikipedia Friendlier and Better
- Wikipedia now has an AI enforcer to filter through joke entries
(首图来源:wikimedia)