最近几年人工智能技术大幅成长,许多应用也如雨后春笋冒出,能自动判断录影时机的 Google Clips 摄影机,就是在人工智能与机械学习的协助下,让算法辨识镜头下的人、微笑、宠物、日落、地标等景色,但算法如何进一步判断摄影时机,仍是个艰困的挑战。
透过真人评分
Google Clips 是款不需额外操作,就能自动判断录影时机的摄影机,设计理念有三大要点,首先开发团队希望所有运算能在 Clips 完成,并保有长效电池续航力与降低摄影延迟,优点是不需上传任何资料到服务器,不但更能保障使用者隐私,也能在没有网络连线的环境使用。
再者开发团队规划以拍摄短片为主,而非静态照片,不但有助于记录欢乐时光的氛围,也能透过较长的影片弥补单张照片不易抓到完美时机的缺陷。最后,Clips 只专注透过内容的趣味性判断录影的起迄时间,并不考虑构图、光线、色调等摄影技巧。
接下来的问题,就是如何训练 Clips 算法,让它知道怎样的场景有趣。如同一般机械学习,开发团队着手建立数千部不同主题影片构成的数据库,并让摄影与影片剪辑专家评定影片优劣,让算法能以此衡量影片趣味的素材为何。然而这样又会产生新的问题,那就是我们该如何将影片有系统、平顺地 0~100 分中评分。
为了解决这个问题,开发团队准备了第二套数据库,他们将影片切割为许多片段,随机挑选 2 片段,询问受测者(人类)比较喜欢哪段。让受测者以“2 选 1”评定,比直接为影片定分数容易许多,且受测者给予的答案也相当接近,当分析 1,000 支影片切出的 5,000 万片段“2 选 1”数据后,就能透过计算方式得到整部影片(而非片段)的分数(对,数字没错。靠人类分析 5,000 万笔片段是相当累人的工作)。
将数据库交给类神经网络
有了评分的资料后,接下来开发团队要定义“影片有趣的原因”,于是他们假设影片中如人物、动物、树木等景物可能是吸引人的元素,并从 Google 图像数据库超过 27,000 笔不同的标签挑选数百种重要的标签,用于辨识影片中的景物。
再使用服务器级的电脑训练后,开发团队为运算效能有限的装置,打造了较小巧的 MobileNet Image Content Model 算法模型,并挑选更关键的标签,以利将运算能力集中于刀口。
训练的最后一步,就是将 Image Content Model 算法模型计算出的数据,与人类评定的分数互相比较,如此一来算法就知道哪些特征是人类觉得有趣的部分。如此一来操作过程中,即便画面景物从未出现于训练资料,但系统仍可以判断哪些是人类觉得有趣的部分,进而自行判断最佳拍摄时机。
开发团队也提到,由于 Clips 并不像自驾车那类装置有移动能力,需要使用者放于特定位置或配戴在身上,因此“乔角度”就需依赖使用者的人肉智慧。
(本文由 T客邦 授权转载;首图来源:Google)