wsc是什么意思(wsc是啥)

常驻编辑生活妙招 2022-03-09 wsc

2012年的一篇论文中，计算机科学家提出了一个更客观的测试，称之为“威诺格拉德模式挑战（Winograd）”的模式挑战。此测试已被AI语言领域广泛采用，作为评估机器理解能力的一种有效方式，也许是最好的方式——尽管它并不完美。模式由一对句子组成，这些句子仅相差一个词，每个句子后跟一个问题。VXy拜客生活常识网

【威诺格拉德模式挑战：英語：Winograd Schema Challenge，缩写WSC，是多伦多大学计算机科学家提出的机器智能测试，该测试是对传统图灵测试的改进，在机器不能使用谷歌搜索（或类似搜索引擎）来正确回答问题的前提下，通过向机器询问特别设计的选择题来检测其人机交互的智能水平】VXy拜客生活常识网

VXy拜客生活常识网

这里有两个例子：VXy拜客生活常识网

例一VXy拜客生活常识网

第1句：我把瓶子里的水倒进杯子里，直到它满了。问题：什么是满的，瓶子还是杯子？第2句：我把瓶子里的水倒进杯子里，直到杯子空了。问题：什么是空的，瓶子还是杯子？VXy拜客生活常识网

例二VXy拜客生活常识网

第1句：乔的叔叔在网球上仍然可以击败他，尽管他已经 30 岁了。问题：谁大，乔还是乔的叔叔？第2句：乔的叔叔在网球上仍然可以击败他，即使他比他年轻 30 岁。问题：谁更年轻，乔还是乔的叔叔？VXy拜客生活常识网

基于神经网络的语言模型在测试上达到了大约 97% 的准确率，这大致相当于人类的表现。VXy拜客生活常识网

在每个句子对话中，一个词的差异可以改变代词所指的事物或人。正确回答这些问题似乎需要常识性的理解。“威诺格拉德模式挑战（Winograd）”正是为了测试这种理解而设计的，目的是尽量减少人工智能对人类语言的误解和理解上的脆弱性。VXy拜客生活常识网

随着大型神经网络语言模型的出现，人工智能程序解决 Winograd 模式的能力迅速提高。2020年，OpenAI的GPT-3通过Winograd测试的准确率达到90％，在专门针对这些任务进行训练后，其他语言模型的表现甚至更好。最近的人工智能语言理解竞赛SuperGLUE，某神经网络语言模型达到了约 97% 的准确率，这种准确性接近人类的水平。VXy拜客生活常识网

这是否意味着神经网络语言模型已经达到了人类的理解水平？VXy拜客生活常识网

VXy拜客生活常识网

不必然，尽管竞赛创建者尽了最大的努力使竞赛的问题无法通过谷歌或其他引擎搜索，但是这些挑战，就像许多其他当前的人工智能语言理解测试一样，对于神经网络在不理解的情况下也能表现良好成绩是允许的（高分低能）。VXy拜客生活常识网

例如，句子“跑车超过邮车因为它开得更快”和“跑车超过邮车因为它开得更慢”。通过庞大英语词、句语料库上训练的语言模型将吸收“跑车”和“快”之间以及“邮车”和“慢”之间的数学相关性。因此，仅仅根据大量数据训练出来的关联性不用借鉴任何理解也能正确的回答类似问题。目前各类类似SuperGLUE的比赛中无法排除利用统计相关性作答正确的情况。VXy拜客生活常识网

当前神经网络语言模型已经变得越来越大，而且它们越大在这种挑战中的得分就越高。目前最好的神经网络语言模型——已经在TB级文本上进行训练，然后在数千个WinoGrande（Winograd等增强版本）示例上再进一步训练——已经能够接近90% 的正确率（人类获得大约 94% 的正确率）。这种性能的提高几乎完全是由于神经网络语言模型及其训练数据大小增加的。VXy拜客生活常识网

理解语言需要理解世界，而只接触语言的机器无法获得这样的理解。VXy拜客生活常识网

VXy拜客生活常识网

这些越来越大的神经网络语言模型最终是否达到了人类的常识性理解？部分科研人员认为这不太可能。WinoGrande竞赛的结果带有一些重要的警示意义。例如，由于挑战赛的句子依赖于人工编写，因此编写的质量和连贯性参差不齐。此外，用于剔除“谷歌搜索”句子的方法可能过于简单，人工又无法发现大型神经网络所有的统计捷径。

wsc是什么意思(wsc是啥)

相关阅读:

热门信息

热门文章

最近发表

wsc是什么意思(wsc是啥)

相关阅读:

猜你喜欢

热门信息

热门文章

最近发表