匹兹堡大学研究人员通过视频游戏提升AI技术新水平

【据美国匹兹堡大学网站2018年11月5日报道】美国匹兹堡大学的研究人员通过在模拟现实世界的游戏环境中学习和测试决策算法取得了较为不错的效果。

工业工程师通常会处理以运营为重点的问题,例如运输、物流、供应链、能源系统和医疗保健等。这些问题所处的环境没有为测试算法技术提供最佳的试验环境,一旦失败往往会导致严重的后果,而现有的决策往往又是通过不断试错而寻找出来的。解决这种矛盾的一种解决方案是通过历史数据来寻找最佳决策方案,然而这种方案却很难用于测试学习自适应行为的算法。

为此,他们采用视频游戏作为替代方案。视频游戏不仅充满了复杂的决策制定(玩家的每一次操作都可作为一次选择),而且与现实世界不同的是它提供了良好的试错环境。同时,使用游戏环境进行算法测试要快得多,往往在几个小时内就可以评估数十万个游戏玩法决策的结果。为了测试他们的算法,研究人员使用了MOBA游戏(例如LOL或风暴英雄),在这类游戏中玩家通过控制一个英雄角色与队友配合,在保护自家基地的同时摧毁敌方基地。他们设计的算法用于评估41条信息,然后输出22种不同的动作(包括移动、攻击、购买装备等)中的一种,最后将不同的训练方法相互比较。其中效果最好的“玩家”使用了一种被称为蒙特卡洛树搜索的方法来生成数据然后将其输入网络。蒙特卡洛树搜索是用于决策的策略,其中“玩家”随机地选取动作,然后,该算法分析游戏结果,以便为更成功的动作赋予更多权重。随着时间的推移和游戏的多次迭代,算法将更多地选取成功几率大的动作,并使“玩家”在赢得游戏方面变得更好。

Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to copyright@dreamgo.com. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to info@dreamgo.com.
版权声明:以上内容为用户推荐收藏至Dreamgo网站,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知copyright@dreamgo.com进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系info@dreamgo.com