Facebook 开源 3 款人工智能软件，教电脑“看”图片有哪些物体 04月02日更新

从人类的视角出发，一张图片是由物件和背景构成，不过对电脑而言，图片是由不同颜色的像素构成，很难判断出哪些是背景、哪些是物体，以及这些物体是什么。不过，Facebook 人工智能研究团队（FAIR）克服这些挑战，于本月 26 日开源 3 款人工智能影像辨识工具，成功教电脑如何用人类视角辨识图像。

Facebook 利用机器学习，让算法学习人类的神经网络如何认知物体和环境。例如，让算法接收多张绵羊图片，并且告诉算法这是绵羊，之后电脑便可以自行辨识出图片中的绵羊。

这 3 款人工智能工具分别为 DeepMask、SharpMask 和 MultiPathNet：

例如，DeepMask 虽然可以找出图片中有狗和绵羊，却无法区分两者，需要仰赖 MultiPathNet 辨识物体；结合这 3 款工具后即为一套影像辨识系统，可以让电脑在“像素”阶段如人类般理解图像。

Facebook 在部落格指出，透过影像辨识系统，未来不用特地在图片上标记物体，也可以用文字搜寻到特定图片。这项技术对视障者也相当实用，例如，只要用手指轻触图片，该系统便可告知图片中包含哪些物体，让视障者“看”见影像。

此外，这项技术也可加强扩增实境（AR）的应用，例如，侦测出图片中的三明治含有多少卡路里，或是运动员是否处于良好的健康状态，以及让使用者模拟家具放在房间的样子、试穿虚拟衣服等商业应用。

下一步，Facebook 希望能让这套工具辨识影片中的物体，不过物体在影片中不断移动，辨识难度更高。可想见，这项技术将有助于Live直播影片的推广，可更容易向使用者推荐符合兴趣的影片。

根据《The Verge》报导，除了 Facebook，Google 也已将类似的人工智能工具用于图片搜寻、email 的自动回复功能、以及搜寻字词“自动完成”功能，并开源这套人工智能算法 TensorFlow。

（本文由数位时代授权转载；首图来源：Facebook）

Facebook 开源 3 款人工智能软件，教电脑“看”图片有哪些物体