12 月 5 日是各位老司机、福利姬的末日,因美国名社交分享网站 Tumblr 当天突然推出新的政策──Tumblr 将全面禁止任何成人内容,新规定于 17 日正式施行。
这不是天经地义的事吗,有何大惊小怪?
和多数人心中的“和谐社群”定义不同,新规定发表之前,Tumblr 这个以年轻人为中心的社群网络平台以收容大量色情内容(主要为文章、静态图和 gif 图)闻名全球。
▲ Tumblr 截图。
Tumblr 创始人 David Carp 曾表示,色情相关内容占网站流量 2~4 个百分点。2012 年,一份当月刊发的意大利研究报告显示,这数字迅速增长,甚至有近半网友遇过避无可避的成人内容,对此评论 Tumblr 没有回应。
时至今日,雅虎旗下这家社交网站,尽管只有超出 0.1% 账号出产色情内容,但却有 22% 甚至更多用户关注、点赞、转寄上述账号的发文。有研究指出,正是这种“分享”行为,导致另外 28.5% 的 Tumblr 用户无意中接触到色情内容。
俗话说得好,常在河边走,哪有不湿鞋?
就在两周前,苹果将 Tumblr App 从 App Store 移除,原因是侦测和移除儿童色情的自动化系统故障。从类别来看,尽管 Tumblr 也能看到类似天文地理历史科学的各种“小清新”内容,但相比前者来说只是冰山一角罢了。
至此,Tumblr 启动 AI 除黄计划,并郑重表示要将成人内容“赶尽杀绝”。
AI 除黄靠谱吗?
Tumblr CEO Jeff D’Onofrio 声明表示,Tumblr 的 AI 除黄计划并不是禁止裸体政治抗议或大卫雕像。这要求 AI 具备极强的成人内容辨识能力,同时也依靠人类帮助训练和控制系统。
简单来说,Tumblr 希望打造可辨识裸体但又不会将裸体雕像误认为成人内容的人工智能系统。尽管这对人来说是一件再简单不过的事,但对 AI 来说可是难度达到“鸡蛋里挑骨头”等级。
▲ 换做你是 AI,看到这种场景有没有想骂人的冲动?
说到这里,想必会有人问:“Why?”
实际上,AI 辨识影像的过程分为资讯抓取、前处理、特征抽取;选择、分类器设计;分类决策三大块。第一部分,AI 将图片特征点取出来,并透过符合数据库获得属性,并最终生成判定。
也就是说,除了成人内容相关的敏感辞汇、特征点抓取,想让 AI 区分真人与雕塑就需要在此基础上再符合特征点的材质等特性。难点在于,初期 AI 只能按照指定几个“标签”分析图片类别,对图片物体是肉体还是大理石、是塑胶还是泡沫……这种问题无法精确分析。
简单的智慧系统更无法像人立刻在随机图片找到哪些标签应该衡量,哪些不值得衡量。将这问题对应 Tumblr 的除黄计划,解决问题的唯一办法就是尽可能全面地抓取图片、文字的特征,这对系统而言必将承受巨大负荷。
▲ 特征点辨识。
如何避免这样的恶性循环?Tumblr CEO Jeff D’Onofrio 表示,公司不断增加投资推动此政策,包括符合产业标准的机器监控、不断壮大的人类仲裁团队及便于举报滥用行为的用户工具。透过让更多用户及相关人员参与,Tumblr 希望人工智能的学习能力能逐步培养成 AI 除黄系统,获得精准的筛选能力。
除了人工合作,针对以上问题雷锋网曾在《世界最大黄网要用 AI “鉴黄”,还号称要让鉴黄师下岗》文章向图普科技营运总监姜泽荣提出疑问,他的回答是:“如果是一支 1.5 小时的影片,一秒一张截图,上述数量影片的基础上足以训练出效果尚可的模型。”
由此来看,尽管 Tumblr 辨识物件是图片和文字,但对此量级的社交网站(也不只这家在做类似的事)来说,训练出“可用”的 AI 除黄系统自然不在话下。
对 Tumblr 来说任重而道远
既然不在话下,为啥还任重道远?
从目前效果来看,尽管声明 Tumblr 明确提出会着重训练 AI 在性取向言论和色情内容方面的筛选能力,以便避免前者被认为是不当内容屏幕蔽掉。但有回馈称被错误禁止的内容甚至包括加菲猫的图片、蝙蝠侠吃法兰克福的图片和英国名厨戈登‧拉姆齐拿着一块米糕并称之为“隆胸”的图片。
▲ AI:嗯,这只喵长得灰常儿童不宜,屏蔽!
纽约自由摄影师罗拉‧汤普森表示,不得不手动申诉团队解锁这些图片,虽然他贴的标签确实是“色情”(如“食品色情”),但显然和色情无关。
从成本方面看,Tumblr 的社交网站属性让内容量源源不断,这就需要 AI 除黄系统具备强大的 GPU 运算能力,高速端对端影像处理速度及较高带宽标准。雷锋网文章曾提到:“算力方面,原本千万等级的样本在 GPU 为单机单卡情况下训练时间要接近一个月,仅 1 万张图片常只有一张色情图,为了辨识这张图片,AI 扫描的成本即为 1 万次。”由此可见,AI 除黄确是费钱费力的大工程。
从风险系数看,AI 除黄计划执行同时也伴随各种其他风险。首先,针对用户属性的 AI 除黄师必须要尽量全面抓取用户在平台的各类资料,谁都无法担保这些资料最终会流向何处(尽管每家都说“我们绝对安全”)。
3 月 16 日,Facebook 被曝在 2014 年有超过 5 千万用户资料遭“剑桥分析”公司非法传送政治广告,此次事件曝光后,Facebook 一天内市值蒸发 60 亿美元。尽管直到目前 Facebook 仍因此事深陷动荡中,但 CEO 马克祖克柏却在多次听证会否定公司有意侵犯用户隐私并参与相关交易。
真相浮出水面之前我们不知道真相究竟是什么,但这足以证明──当你尝试开始收集并利用用户资料达成某些目的时,一旦出事,即使你浑身都是嘴巴也难洗白。
短期效果、长期成本及风险系数,对 Tumblr 来说,AI 除黄系统不同于某成人影片网站,除了有效筛选成人向内容,还要从中将正常性谈论筛选出来建议给大家,如果为做这件事的难度打分数,我给五颗星!
可见,Tumblr 的 AI 除黄计划的确任重而道远,现在我们看到的仅是一条规定,一切将在 12 月 17 日分晓。
(本文由 雷锋网 授权转载;首图来源:shutterstock)
延伸阅读:
- 遭苹果下架,Tumblr 痛定思痛宣布禁情色内容