他们也希望这次开放能够促进人工通用智能A2019iyiou

2019-05-14 19:47:20 来源: 昭通信息港

12月17日早些时候,微软在其官方博客上宣布发布了一个包含10万个问题和答案的数据集,研究者可以使用这个数据集来创造能够像人类一样阅读和回答问题的系统。此外,微软计划效仿ImageNet,与其他人合作、终创办正式的竞赛等。

这个数据集名叫MS MARCO,表示Microsoft MAchine Reading COmprehension(微软机器阅读理解)。其背后的团队声称这是目前这一类别中有用的数据集,因为这个数据集是基于匿名的真实数据构建的。通过将该数据集免费开放给更多的研究者,该团队希望能够促进机器阅读领域的研究突破,就像之前研究者已经在图像识别和语音识别领域所取得颠覆性突破一样。

他们也希望这次开放能够促进“人工通用智能(AGI/artificial general intelligence)”的长期目标的实现,即创造出能够像人类思考的机器。

微软Bing搜索引擎部门合作伙伴组的程序经理(partner group program manager)Rangan Majumder是这个项目的,他说:“为了实现人工通用智能的目标,我们首先需要机器能够像人类一样阅读和理解文档。这个数据集是向这个方向迈出的一步。”

Majumder说,目前回答复杂问题的系统仍然还处在婴儿阶段。Bing这样的搜索引擎和小娜那样的虚拟助手还只能回答一些基本的问题,比如“光明节那天开始?”或“2000乘以43等于多少?”

Majumder说,但在许多案例中,搜索引擎和虚拟助手只会将用户引导至一些搜索结果。当然用户仍然会获得他们想要的信息,但那也需要用户在搜索结果列表中寻找所需的答案链接。

为了实现更好的自动问答系统,研究者需要更强大的训练数据。这样的训练数据需要能够教会人工智能系统识别问题和组织答案,并终能够根据它们之前从未见过的特定问题构建出自己的答案。

Majumder及其团队(包括微软的一些研究者和从事产品开发的人)表示,MS MARCO数据集是非常有用的,因为该数据集的问题基于来自Bing搜索引擎和小娜虚拟助手的真实的、匿名的查询。该团队根据研究者所认为的更有趣的查询而对这些问题进行了选择。除此之外,这些问题的答案都是根据真实的页而人工书写的,准确性已经过了验证。

通过提供真实的问题和答案,这些研究者表示他们可以训练出能更好地应对人们常问问题的细微差别和复杂性的系统,其中包括那些没有明确答案或有多个可能答案的问题。

比如说,这个数据集中包含了这样一个问题:“What foods did ancient Greeks eat?(古希腊人吃什么食物?)”要正确回答这个问题,他们需要检索多个文档中的信息,给出谷物、蛋糕、牛奶、橄榄、鱼、大蒜和卷心菜等食物作为答案。

微软首席人工智能科学家、深度学习技术中心(Deep Learning Technology Center)合作伙伴研究经理(partner research manager)邓力说之前的数据集在设计上都有一些特定的限制和局限性。这能让研究者可以更轻松地创造出可以被机器学习研究者形式化为所谓的“分类问题(classification problem)”的解决方案,但却不能帮助机器理解问题的实际文本。

邓力说MS MARCO的设计目的是为了帮助研究者实验更先进的深度学习模型,从而推动人工智能研究的进一步发展。

他说:“我们的数据集不只是为了使用真实世界数据,也是为了移除这些限制,以使新一代的深度学习模型能够在它们回答问题之前先理解数据。”

Majumder说系统回答复杂问题的能力能够帮助人们更有效地获取信息,从而增强人类的能力。

让我们举个例子,假设一个加拿大学生需要了解她是否满足一个贷款项目的申请资格。搜索引擎可能会将该用户引导至一系列的相关站,然后她需要自己阅读那些条条款款然后才能得出结论。但如果她有更好的工具,她的虚拟助手就能帮助她扫描这些信息,然后给出一个更细致的、甚至个性化的答案。

Majumder说:“鉴于世界上的许多知识都是以书写的形式存在的,如果我们能让机器像人类一样阅读和理解文档,我们就为所有各种各样可能的情形开启了大门。”

长期目标:“人工通用智能(artificial general intelligence)”

至少就目前而言,研究者还仍然远远不能创造出能够理解人类所说的、看见的或写出的内容的系统——很多人将其称为“人工通用智能”。

在过去几年,微软与其它地方的机器学习和人工智能研究者在创造识别对话中单词的系统上已经取得了极大的进步,在准确识别图像组成上也是如此。

Majumder说,“微软在语音识别和图像识别上已经起着领头作用,现在我们也打算带领阅读理解的研究。”

但是,他提到这不是任何单独一家公司就能解决的难题。Majumder说他们团队开放这个数据集的一个原因就是想要与领域内的其他人合作。

MS MARCO类似于机器学习和人工智能的其它领域的训练集,包括ImageNet数据集——它被认为是测试图像识别进展的数据集。微软的一个研究团队曾使用ImageNet来测试自己的深度残差络,在图像识别的准确率上有了巨大的提升。

MS MARCO团队也打算效仿ImageNet,创建一个取得研究成果的团队排行榜。终,他们可能会像ImageNet年度挑战赛一样创造一个更正式的比赛。

任何想要下载并将其用于非商业应用的研究人员都可以免费使用MS MARCO数据集。

2011年嘉兴零售E轮企业
2007年成都大健康企业
广州人工智能会展
本文标签: