人工智能要“撞墙”?无法理解语义将是巨大阻碍
AI成为热词已经很久了,你可能听过这样的说法,“我们正处于一场AI革命之中。你可能还听说过“神经网络”,由深度学习算法驱动,利用海量数据训练出的复杂程序。机器智能发展的速度之快,可能远远超过我们的想象。
目前的AI程序可以识别人脸,可以将语音转录成文字。有些程序甚至可以发现小型的金融诈骗; 给出模糊的关键字,就能找到相关的信息所在网页; 给出目的地,就能找出两点之间最优的路径; 下棋能下过围棋和国际象棋世界冠军,还能在翻译几百种语言。重点是,AI在未来还有更多可能——自动驾驶汽车、自动化癌症检测工具、家居清洁机器人,甚至可能将科学发现也自动化...这些听起来很遥远,却逐渐成为AI领域的主流。
Facebook的创立者扎克伯格今日宣称,在接下来的五到十年,Facebook会继续发展AI,,让AI的“感官”比人类更灵敏,不管是视觉、听觉、语言还是一般认知方面。谷歌DeepMind团队的首席科学家列格(Shane Legg)预测,“在20世纪的第三个十年中期,人工智能会达到人类智能水平。”
我本人已经在AI领域工作数十年,听到过无数人预测“人工智能将与人类智能相当”的预测,见证一次又一次的失败后,我很确定,最新的这些预测也有不足之处,也难以实现。现在的AI系统最大的痛点、最缺乏的就是人类智能的实质——理解人类所处的境况,并了解其意义的能力。数学家、哲学家 Gian-Carlo Rota曾经问过,“我很想知道人工智能会不会跨越‘意义’的阻隔?什么时候才能理解事物背后的含义?”对我来说,这仍然是?人工智能发展过程中最重要的问题。
机器最大的问题就是缺乏人类的理解能力。这一点已经在现代人工智能基础的缺陷中显现出来。虽然现在的程序比起二三十年前复杂多了,功能也越来越强大,但是最近有一系列研究显示,深度学习系统的学习方式和人类有很大差别,其结果可能不可靠。
我来举几个例子。
如果你用手机的语音识别将下面这句话转成文字,“The bareheaded man needed a hat”(光头男人需要一顶帽子),手机可能给出不同的结果“The bear headed man needed a hat.”(熊头男人需要一顶帽子)。如果你用谷歌翻译将如下句子翻译成法语,“I put the pig in the pen”(我把猪放进猪圈),得到的结果中,“pen”(圈)会被误译成法语中的笔(“Je mets le cochon dans le stylo” )
研究发现,只要研究者在文本中加入一些“混淆视听”的小片段,文本读取程序就很容易被糊弄:有些可以“读取”文本、然后回答问题的程序,会因为加入的无关细节导致“阅读理解”有误。另外一项研究指出,有些识别人脸和物体的程序被誉为深度学习领域里程碑式的进步。但这些程序在光线不同、有无使用滤镜或者其他改变的不同情况下,也有可能出现严重失误。而人类的识别几乎不受这些)因素的影响。
最近一项研究显示,给人脸图像加上少量“底噪”就足以干扰最先进的人脸识别算法,使其表现水平大幅下跌。还有一项研究(花名“房中大象”,The Elephant in the Room,比喻显而易见的事物)发现,如果一张房间客厅的图像中,在某一个角落加入大象的图像,深度学习视觉程序在将图片中的物品归类时,就会出差错。
而且,很多程序已经“掌握”了某电子游戏或者某种棋类,水平远超人类,但只要对游戏内容(背景颜色或目标位置)做小小的改变,程序就会书输得一败涂地。
即使是最优秀的AI程序,在环境不同时,哪怕只是和训练数据有很小的差别,可靠程度也大大降低。不过,目前相关的例子并不多。这类系统犯错的时候,看起来无伤大雅,影响不大,但是后果有可能很严重:比如,你要登机了,机场的安检系统把你的脸和一个罪犯的脸相混淆; 或者你乘坐自动驾驶汽车,但由于光线原因,算法没有意识到车即将穿过马路...都有可能带来灾难性后果。
而更让人担忧的是近来AI系统在对抗性情况下展现出的脆弱性。在这些例子中,怀有恶意的黑客可以对某些图像做出肉眼无法识别,但会影响程序正常运行的细微改变,使得程序出错,引发危险和灾难。
这种类型的攻击几乎在每个AI应用领域都有实例,包括计算机视觉、医学影响处理、语音识别和语言处理等等。多项研究均表明,理论上,黑客只需要做很小规模的变动,很容易就能糊弄人脸识别和物体辨认系统:在“停止”路标上贴个贴纸,就能妨碍自动驾驶汽车的视觉系统,让算法以为是“让行”标志。黑客还能下“无声命令”:对音频做一些调整后,人耳听起来像是背景音乐的音频,Siri或者Alexa“听来”却是指令。
这些潜在的弱点都很清楚地展现了AI 领域的进展面临的阻碍:真正理解事物背后的含义。任何和AI系统打交道的人都知道,在与人类相似的视觉能力、语言流利度和游戏天才的背后,这些程序的行事方式和人类截然不同:他们并不理解输入数据和输出结果的含义。这种理解能力的缺乏,会让程序在难以预知的错误和恶意攻击面前变的不堪一击。
要跨过意义这层阻隔,我们需要什么?如何能让机器更深入地理解自己所处的境况,而不是通过浅薄的表面特征来做判断呢?要得到这个问题的答案,我们要先了解人类认知。
人类对自身面对情况的理解有广泛、直觉般的“常识”作为基础,我们知道世界如何运转、其他生物可能出现的行为,尤其是其他人可能的举动。另外,我们对于身边世界的理解能力是基于自己的概括能力,根据经验形成抽象概念,做类比。简单说来,人类可以灵活地将自身形成的概念运用到新的环境中来。研究人员几十年来不断实验,希望赋予AI系统这种人类只能,使其也具有直觉般的常识和人类概括的能力,但是即使科学家已经十分努力,这方面的的进展仍然非常缓慢。
很多已经投入实际应用的AI系统其实缺乏常识,也又不具备人类理解力其他关键因素。虽然有些人非常担心“超级智能”AI系统会给人类世界造成威胁,但是AI系统带来的最大威胁在于我们过度相信它们,在不了解他们的限制的前提下,就赋予他们很大的自主权。正如AI研究者Pedro Domingos在《主人算法》(The Master Algorithm)一书中所说的那样,“人们都担心电脑会越来越聪明,然后主宰世界,但是现实的问题是:它们太愚蠢,却已经主宰了世界。”
AI的商业化竞争给了研究者巨大的压力,因为他们必须在短暂的时间内做出“足够好”的AI系统。但是,想要实现开发真正可靠的AI系统的目标,我们必须从自己身上找答案:更深入地认识人类认知能力,了解人类认识世界的稳定可靠的认知机制。要冲破AI面临的“意义之墙”的阻隔,光是盯着更大规模的网络、更多的数据集可能收效甚微; 把目光投向这个领域的根源,钻研(人类智能与计算机智能的)交叉学科,去探索智能的本质,反而会让我们离答案更近一步。
本文来自: 36氪