中国新闻报道 >消费>

AI理解不了“他她它”咋办？动词成为新突破口，机器人听到抹黄油就知道拿刀

来源：IT之家中国新闻报道作者：张璠发布时间：2022-12-22 18:44

给AI下指令的时候，总觉得和人交流不一样。

是的，虽然AI可以理解一些特定的人类指令，比如:

帮我从餐厅拿把椅子。

但如果改成只有代词和动词的模糊指令，AI会很困惑:

帮我找个能垫脚的东西。

现在，终于有研究人员提出了一种新的处理方法:AI不能学习理解动词吗。

动词本身和一些特定的名词绑定在一起比如抹黄油这个动作，肯定离不开刀叉之类的名词

只需要将它们进行匹配，无需刀叉等名词指令，AI也能准确找出目标对象:

目前，该论文正式收录于NeurIPS 2022，相关模型已经开源:

那么它是如何训练AI理解动词的呢。

盖名词，让AI看图找东西

本文提出了一个称为TOIST的框架。

TOIST面向任务的实例分割转换器，这是一种基于转换器的实例分割新方案。

实例分割不同于语义分割的全图切割，它还具有目标检测的特点。比如下图直接找出与名词两厢对应的对象:

此前，案件分割模型通常分为两步第一步是检测可能的目标，第二步是对可能的目标进行排序并预测最可能的结果

但与这种方式不同的是，TOIST框架直接采用了一个整体的Transformer框架，其中解码器中的自我关注机制可以建立候选目标之间的偏好关系。

TOIST框架分为三个部分。

其中，多模态编码器负责提取特征标记，变换器编码器负责聚合两种模式的特征，并基于变换器解码器中的注意机制预测最合适的目标。

随后，提出了一种新的名词—代词提取方法来训练模型。

具体来说，基于知识提炼框架，以无监督学习的方式训练AI通过上下文猜测名词原型。

比如原来的实例分割任务是用滑板挖洞，但是在训练模型的时候，名词滑板会被代词某物代替:

这种分割效果在实际案例中表现如何。

目标探测准确率提高10.9%

本文在大规模任务数据集COCO—Tasks上对TOIST进行了测试。

评价方法采用mAP，常见于目标检测等视觉任务。

简单来说，TOIST在例如分割和目标检测方面比以前的SOTA模型表现得更好，而添加了名词代词提取方法的增强版TOIST的表现比TOIST in好上一层楼。

与目前最好的Yolo+GGNN相比，增强版TOIST的决策帧精度图在目标检测任务中提高了10.9%，在案例分割任务中，mask精度比Mask—RCNN+GGNN提高了6.6%。

对于名词—代词提取方法，与TOIST的原始版本相比，实例切分的准确率分别提高了2.8%和3.8%。

在具体的案例表现上，模型效果也非常接近实际的分割真值。

比如图中，算法甚至识别出啤酒瓶盖可以用桌子打开，在理解上可以说是满分:

我们实验室其实是负责机器人的研究的，但是在平时的调查中发现，用户有时候更喜欢向机器人描述需求，而不是直接告诉他们该做什么。

换句话说，AI算法是用来让机器人想得更多，而不仅仅是一个听从命令的助手。

李鹏飞，清华大学智能产业研究院博士生，毕业于中国科学院大学他的研究兴趣是自动驾驶和计算机视觉

对大视觉—语言模型感兴趣的朋友可以试试这个新思路~

论文地址:

项目地址:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

中国新闻报道

上一篇：英特尔新款至强W系列工作站处理器爆料：6-56核，最高支持8通道内存

标签

国内新闻 More

财经 More

旅游 More

娱乐 More

汽车 More

房产 More

健康 More

教育 More

消费 More

时尚 More

公益 More

企业 More

案例 More

AI理解不了“他她它”咋办？动词成为新突破口，机器人听到抹黄油就知道拿刀

上一篇： 英特尔新款至强W系列工作站处理器爆料：6-56核，最高支持8通道内存

中国新闻报道诚招频道加盟、广告代理，并承接企业宣传、活动采访、网络直播、新闻发布等合作，具体事宜联系qq：3183650697

上一篇：英特尔新款至强W系列工作站处理器爆料：6-56核，最高支持8通道内存