欢迎光临GGAMen游戏资讯




维基百科最高产量的作者,凭一己之力把小语种推上第二多条目

2024-11-24 204


正如网络最常用的语言是英语,英语版维基百科同样也是全球 309 种语言中内容最丰富的。今年 1 月,英语版维基百科条目正式突破 600 万条。

奇妙的是,全球第二多条目的语言,并不是西班牙、法语等“大语种”维基,而是宿雾语(Cebuano)版维基,共有 538 万条目。

如果你没听过这种语言,也很正常。

宿雾语是菲律宾使用的小语种,懂得讲宿雾语的人合计不超过 2 千万。且宿雾语版维基虽然有 500 多万条,但管理员只有 6 人,活跃用户也只有 14 人;相比之下,英语版单管理员就有 1,143 人,活跃用户更超过 10 万人。

原来宿雾语版维基 500 多万个条目,99% 内容是名为“Lsjbot”的机器人完成的。同时它也是维基百科最高产的作者。

状态好,一天能创立 10 万个条目

Lsjbot 的“爸爸”Sverker Johansson 是瑞典物理学家,拥有语言学、经济学和土木工程学位。他的妻子是菲律宾人,通晓宿雾语,因此 Lsjbot 在瑞典语和宿雾语维基百科都有创作内容。

Johansson 表示,自己一直以来都对“一切事物的起源”充满兴趣,并认为维基百科未来应可“让所有人了解所有事”。于是,他花了几个月编写出 Lsjbot,想用更快捷的方式将维基百科推向“囊括一切”的美好愿景。

▲ Sverker Johansson。(Source:Lsj / CC BY)

Lsjbot 做的事情有点像“拓荒”,将 0 变成 0.5。

它不会撰写系统丰盈的条目,只会简单创立一个条目,放上最基本的资讯,这种条目称为“小条目”(stub),有待用户进一步补充和丰富内容。Lsjbot 专注的领域也比较窄,主要都是生物物种和地理相关内容。

▲ Lsjbot 一般生成的小条目。(Source:网页截图)

Lsjbot 生成内容的过程也非常程式化。首先,Johansson 会先就特定领域编写模板,然后寻找可信、机器可读的数据库为资讯来源,再让 Lsjbot 根据模板“填空”,并完成后期发表工作。效率高时,Lsjbot 一天能完成 10 万条小条目。

听这个工作描述,大家也能感觉到,Lsjbot 虽冠名几百万条条目,但内容其实都只是干巴巴的“骨头”,缺乏人类的创造力和思考,自然惹来部分活跃作者的不满。

整体来说,我反对机器人生成的小条目。(它们)只包含或多或少正确的分类资讯,但却缺乏动物外观等重要资讯。

41 岁的 Achim Raschka 说,他是德语版维基百科的积极贡献者,常常会花好几天完成一篇关于某种植物的深度条目。

Johansson 也承认,Lsjbot 创造的内容的确很无趣,但也坚持这些内容有自己的价值。在他看来,Lsjbot 的条目能补充一些维基社群缺乏的领域。

维基百科作者的多样性被诟病许久,有研究发现在维基百科撰写内容的人大部分都是住在北半球发达国家的男性白领,擅长科技产品。Johansson 指出,瑞典语版的维基百科,关于《魔戒》角色的条目就超过 150 条,但关于越南战争的内容却少于 10 条:

我对托尔金没意见,且相对(越战的)“春节攻势”,我也更熟悉(《魔戒》)索伦发起的战争,但这样真的是均衡的百科全书吗?

虽然 Lsjbot 的内容“干巴巴”,但 Johansson 希望这些知识骨干能抛砖引玉,启发未来维基作者探讨原有社群“舒适圈”以外的内容。

这也是为什么我认为 Lsjbot 这个“拓荒牛”只将 0 做成了 0.5,因为得有人类创造性参与,0.5 才能走向 1。

维基百科除 Lsjbot 外,还有大量不同功能的机器人,已成为社群不可或缺的成员。

维基百科的“机器人军团”

我们常开玩笑说,机器人得来一次大罢工,所有人才会懂得感恩它们对社群的奉献。

(如果没有机器人)这个网站将需要我们做更多工作,编辑工作过载率也会大大提升。

生活在澳洲的 Chris Grant 说,他是维基百科社群专门负责管理机器人的组织“机器人审批组”(Bot Approvals Group,BAG)成员。

是的,机器人在维基百科应用历史悠久,广泛到 2006 年就设立专门审核和管理机器人的 BAG。

从流程来看,如果有维基作者想在社群应用机器人,必须先向 BAG 提交申请,阐述机器人的功能、程式语言及预计涉及的页面数等资讯。随后,BAG 的成员会综合多方面预估可能的影响,并决定是否通过。即便是通过审核的机器人,开发者每增加一个功能,机器人都必须重新提交审批。

截至 2018 年,维基百科应用的机器人数早已破千,且不断发展。2019 年的论文《The Roles Bots Play in Wikipedia》研究分析维基百科的机器人,并以职能分为 9 大类:像 Lsjbot 用其他数据来源生成页面的“生成者”(Generator )、负责修复超链接、文档之类的“维修者”(Fixer)、更新数据,记录用户状态的“文字员”(Clerk)、提供维基作者建议的“顾问”(Advisor)等。

▲ 维基百科机器人 9 大类。

这些机器人大部分都帮人类编辑完成社群非常繁杂的批量工作,同时也提供新加入的成员编写内容时的帮助建议,清除各类恶性内容。当然,机器人也有犯错的时候,基于维基编辑系统修改纪录的透明化,管理者也能及时更正错误和优化机器人。

没有机器人,维基百科将是一片混乱。

自称 Hersfold 的维基百科管理员接受《BBC》采访时说。

当人们反对 Lsjbot 时,是在反对什么?

既然机器人在维基百科的历史悠久,像 Lsjbot 这种内容生成型的也不少,为什么人们仍一直争辩 Lsjbot 的使用合理性?

维基百科诞生次年,首个应用的机器人“rambot”就已诞生,且还是和 Lsjbot 类似的内容生成型机器人。

当时,rambot 从美国人口普查公开资料里提取地理资讯,在英文版维基创建了 3 万条美国城镇的小条目,同时也是维基百科第一个机器人。后来,这些条目逐渐由人类作者完善丰富,增添各种历史事件和旅游资讯。

截至 2009 年,英文版维基百科由机器人和辅助程式参与的编辑占总数 28.49%。

为什么做类似事情的 Lsjbot 却一直被攻击?

主要还是比例问题。

正如开头提及,宿雾语版维基的活跃用户只有十多人,而 Lsjbot 生成的条目有 500 多万条,部分人认为这个小社群不可能完成如此大量的完善工作。

因此,当新用户来到宿雾语版维基百科时,看到的就只有品质低下的条目,并会因此离开,或失去动力编辑贡献。

2017 年,因宿雾语版维基大部分都是机器生成内容,用户 KATMAKROFAN 提出关闭该版维基。

最终,委员会就此议题讨论的公开页面宣布驳回提议,表示“理解专案机器人生成内容的问题的确需要关注”,建议“收紧内容品管”。

所以说,人们争辩的其实是社群营运问题,同时,也在讨论机器人产生的内容如何影响人类创作的积极性,并不涉及机器人创作品质本身。

Johansson 今年接受 Vice 采访时表示,出于对社群“态度改变”的考虑,现在 Lsjbot 已不再在宿雾语版维基创建新条目,只负责维护类工作。

虽然 Lsjbot 不再创建新条目,这类机器人的作品也称不上“创作”,但人类对写作机器人的探索一直没停过。

有的算法在写作,有的算法在默默影响人类写作

2019 年,华盛顿大学的团队突然想到一个曲线打击假新闻的方法──想要创造最好的检测假新闻的算法?也许我们得先写一个擅长写假新闻的算法。

于是,Grover 诞生了。

只需要输入标题,Grover 就能生成一段假新闻。《Fastcompany》编辑曾以《为什么川普一天要做 100 个俯卧撑 ?》为题,让 Grover 发挥:

当你想到俯卧撑时,第一个想到的形象绝对并不是美国总统。

做为三军统帅,川普的健康状况并不怎样。他承诺一旦当选总统就会锻炼身体,而且在《飞黄腾达》中,他曾对阿诺‧史瓦辛格的技术大加嘲讽,如果没有什么能阻止川普不做“川普式的俯卧撑” 。

不过就连川普自己也承认,不管你的工作多么适合你,要想驾驭自己的身体都是极其困难的。那么,是什么让三军统帅走上正轨呢?答案是 100 个俯卧撑。

虽然这段话看着看着让人觉得不妥,但仍无法否认它对川普言论风格的掌握不错,还挺“创造性”的。看到这里,你也许也会想起小米的小爱同学写的诗句。Grover 论文的第一作者 Zellers 很好地总结出算法写作存在的普遍问题:

尽管书写看起来很流畅,但 Grover 和其他神经语言生成器所写的文章包含了机器独有的语言怪癖,这暴露了它们的机器起源。

正是因为算法写出来文章的“古怪”,它们正成为人类作家的一个寻找灵感的工具。

小说家 Sigal Samuel 最开始因好奇试玩了 OpenAI 的写作算法 GPT-2。这个算法能基于人输入词语或句子来“接话”。

Samuel 觉得,虽然算法反馈的东西很随机,但不时能冒出一些她意想不到的内容,激发她的灵感。所以,现在当她“灵感便秘”时,有时会用 GPT-2 进行“畅想”:

身为一名作家,你无法随时都身处创作研讨会或找到合适的朋友讨论想法。所以有这样的人工智能做参谋兼合作者还挺好的。

与此同时,也有自己不写作的算法,很有可能在更潜移默化地塑造人类未来的写作。

在美国,采用算法来为学生文章评分的学校至少遍布了 21 个州。这些算法的“底子”是数百篇经人类教师批改的文章和反馈。就和面试算法一样,这些改作文的算法同样被指存在偏见。

有家长反馈,算法批改文章的方式没有让自己的孩子更懂写作,只是鼓励了他们用各种浮夸的词语来换取高分。

(Source:Unsplash)

不过,算法批改文章和人工批改间的最重要差别还是在于透明度──当文章是由人工批改,当你遇到困惑或不同意的结果,你可以去问改这个文章内容的人为何会做出这样的决定,但如果换做是算法,我们永远无法知道它的评价标准和原因。

无论是自己去写作的算法,还是被用于辅助人类写作的算法,未来这些工具只会有增无减。

也许它们的“语言怪癖”非​​常明显──这可以是像 Lsjbot 创造的小条目的“干巴巴感”,也能是 Grover 的“乍一看顺畅,细看觉得不妥”,但这不应该成为我们忽视它们的理由。无论喜欢与否,它们都将在不同程度上影响人类写作的创作。

当尼采开始用打字机写作后,他的朋友发觉他的散文变得更紧实,拥有了一种“强悍力道”。而他自己也认为“我们的写作工具会参与塑造思考”。在和机器人同行的算法时代,我们的写作又会如何演化?

(本文由 爱范儿 授权转载;首图来源:pixabay)

延伸阅读:

  • 维基百科有六千多个机器人编辑,它们会吵架吗?
2020-04-03 19:29:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 游戏头条 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯 资讯头条 游戏头条
0