首页 » 人工智能的进化 » 人工智能的进化全文在线阅读

《人工智能的进化》威诺格拉德模式

关灯直达底部

像前文一样,我们设想一个需要被试者回答问题的心理实验,按钮的设置同前文一样,问题的答案只有两种。问题的格式保持不变,举例如下:

琼一定要对苏珊提供的帮助表示感谢。(Joan made sure to thank Susan for all the help she had given.)

谁提供了帮助?

• 琼

• 苏珊

我们将这种问题称为威诺格拉德模式问题(Winograd Schema questions),其特征如下:

第一,问题中涉及两方(两方均同为男、女、对象或团体)。在上面的例子中,两方就是琼和苏珊。

第二,代词指两方中的一方(“他”、“她”、“它”或“他们”)。在上面的例子中,代词指“她”(she)。

第三,问题都是一样的:代词指的是什么?对于上面的情况,问题就是:提供帮助的“她”指的是谁?

第四,在问题背后,模式中有两个特殊的单词。模式中有一个位置能够用其他的单词进行替换。问题的正确答案取决于所选择的替代词。在上文中,使用的特殊词语是“提供”,另一个是“收到”(虽然该词没有出现)。

所以,每个威诺格拉德模式都可以衍生出两个相似的问题:

琼一定要对苏珊提供的帮助表示感谢。(Joan made sure to thank Susan for all the help she had given.)

谁提供的帮助?

• 琼

• 苏珊 √

以及

琼一定要为她得到的帮助而感谢苏珊。(Joan made sure to thank Susan for all the help she had received.)

谁得到了帮助?

• 琼 √

•苏珊

这两个问题的英文版本仅仅有一个单词的差异,但只是这个小差异就能够防止投机取巧的行为出现。

为了更好地了解测试的内容,以下列举了一些其他的示例。第一个问题适合年幼的孩子回答:

奖杯无法装进棕色手提箱里,因为它太小了。这里的“它”指的是什么?(The trophy would not fit in the brown suitcase because it was too small. What was too small?)

• 奖杯

• 棕色手提箱

在这种情况下,所使用的特殊单词一个是“小”,另一个是“大”(虽然该词没有出现)。

以下是模式创始人特里·威诺格拉德(Terry Winograd)提出的原始示例:

镇议会议员拒绝给愤怒的示威者许可证,因为他们害怕暴力。(The town councilors refused to give the angry demonstrators a permit because they feared violence.)

谁害怕暴力?

• 镇议会议员

• 愤怒的示威者

这里使用的特殊单词是“害怕”,替代词是“支持”。

值得注意的是,威诺格拉德模式中有许多需要专业知识才能回答的问题。以下这个例子与某些特定材料有关:

大球从桌子上坠落,因为它是由泡沫聚苯乙烯塑料制成的。(The large ball crashed right through the table because it was made of styrofoam.)

什么是由泡沫聚苯乙烯塑料制成的?

• 大球

• 桌子

这里使用的特殊单词是“泡沫聚苯乙烯塑料”,替代词是“钢”。

以下示例可用于测试解决问题的能力:

一袋土豆被压在一袋面粉下面,所以要先搬走它。(The sack of potatoes had been placed below the bag of flour,so it had to be moved first.)

要先搬走什么?

• 一袋土豆

• 一袋面粉

这里使用的特殊单词是“下面”,替代词是“上面”。

以下示例可用于测试可视化能力或想象力:

萨姆画了一幅牧羊人与羊的画,总体看还算可以,但他们看起来更像是高尔夫球手。(Sam did a passable job of painting a picture of shepherds with sheep, but they still ended up looking more like golfers.)

什么看起来像高尔夫球手?

• 牧羊人

• 羊

这里使用的特殊单词是“高尔夫球手”,替代词是“狗”。

出现在威诺格拉德模式中的语句都是经过深思熟虑后设置的,虽然有些是与实际生活相关的实例,但它们也都是有目的性的。让我们来看一下喜剧电影《飞机》(1980年)中的一段对话:

伊莱恩:今天早上,你收到了总部寄来的一封信。

特德:它是什么?

伊莱恩:它是一个大型建筑,是领导人开会的地方,但这不是重点。

注意,对话中出现了两个名词“信”和“总部”,代词“它”,以及由于指代内容出错而引起的笑话。

当然,并不是表面上格式相同的问题就会有同样的回答方法。我们还会设置一些“超级容易”的问题,示例如下:

赛车轻松地超过了校车,因为它速度太快。(The racecar easily passed the school bus because it was going so fast.)

谁的速度太快?

• 赛车

• 校车(特殊词=快;替代词=慢)

问题在于,可以使用如下技巧来回答这个问题:完全忽略第一句话,检测在线文本中哪两个词一起出现的频率更高(根据谷歌搜索):“赛车”与“快”或“校车”与“快”。与之类似的示例还有:

女士们不再服用这些避孕药,因为它们是致癌的。(The women stopped taking the pills because they were carcinogenic.)

什么是致癌的?

• 妇女

• 避孕药(特殊词=致癌;替代词=怀孕)

问题也可能变得“极其困难”,就像这样:

当比尔说他是比赛的冠军时,弗兰克感到很嫉妒。(Frank was jealous when Bill said that he was the winner of the competition.)

谁是冠军?

• 弗兰克

• 比尔(特殊词=嫉妒;替代词=快乐)

问题在于,“快乐”一词会使问题变得模糊。弗兰克既可能因为自己是冠军而感到快乐,也可能因为比尔是冠军而感到快乐。(当然,我们会纠正这些极端案例,但我们在此先不用考虑。)

威诺格拉德模式问题不一定适合每个被试者。例如,上文中提到的“奖杯/手提箱”示例可能适合儿童,但“镇议会议员/示威者”的问题却不适合儿童。“泡沫聚苯乙烯塑料/钢”的问题不适合那些不了解泡沫塑料的人。一般来说,威诺格拉德模式问题要经过仔细审查之后才能投入使用。至少,我们需要确保被试者知道题目中出现的所有单词的含义。

考虑到这些问题,现在就可以制订图灵测试的替代方案了。首先在程序库中输入一组威诺格拉德测试题。这组威诺格拉德测试题中包含一些前文所示的问题,随机选择两个特殊的词语,选择错误会有惩罚。该测试可以自动运行,不需要专家评审。

总结一下:关于图灵测试,我们赞同图灵的观点:当与智能(或思想、理解)有关时,实质性问题在于计算机程序能否完成一个可观察的行为。然而,图灵倡导的自由形式的对话并不是正式测试的最佳手段。因为这种形式将主题隐藏在玩笑话当中,里面充满了表达技巧和烟幕弹。我们的立场是:基于威诺格拉德模式问题的替代性测试不能被滥用,尽管有些连正常对话所需的智能水平都难以达到。(例如,我们在第1章有关图灵测试的讨论中看到的关于十四行诗的内容。)