围棋算啥?吃豆游戏上 微软AI也完爆人类
微软研究人员创建了一个人工智能的系统,这个系统能够在20世纪80年代风靡全球的电子游戏吃豆人小姐(Ms. Pac-Man)中获得最高分,系统使用了分治策略来更大程度地影响AI代理,从而完美地通关游戏。
今年年初,微软收购了一家人工智能初创公司Maluuba。Maluuba公司团队运用强化学习技术(机器学习的分支),在吃豆人小姐游戏Atari 2600版本中表现完美。使用这种方法,该团队在这个游戏中得到的分数高达999,990。
位于加拿大蒙特利尔的麦吉尔大学(McGill University)、从事计算机科学研究的Doina Precup副教授表示,AI研究人员的常常使用各种电子游戏来测试他们研发的系统,但研究人员发现吃豆人小姐游戏是最难攻克的。
但是,Precup表示,相比于研究人员所取得的成就而言,她对于研究人员获得成果的过程更加感兴趣。为了在吃豆人小姐游戏中获得更高的分数,Maluuba公司团队将操控吃豆人小姐游戏的大问题分解成若干个小问题,然后将小问题分发给AI代理解决。
Precup说:“这个分治策略的想法让Maluuba公司的研究人员使用不同的系统来实现同一个目标,这是一件非常有趣的事情”。
她还说到:“这个想法类似于一些大脑如何工作的理论,它可以更大程度地影响AI代理教学,从而利用有限的信息来完成更为复杂的任务。倘若能够完美利用分治策略,那人工智能将向前跨越一大步,这真的令人感到尤为兴奋。”
Maluuba团队将这种分治策略称之为混合式奖赏架构(Hybrid Reward Architecture),这个方法使用了150多名人工智能代理,每个代理与其他代理相互独立地精通吃豆人小姐游戏。比如,一些代理成功找到一个豆子将获得的奖励,而另外一些代理由于幽灵的存在必须呆在原处。
然后,研究人员在吃豆人小姐游戏中创建了一个顶级代理,就像一家公司的高级经理一样,顶级代理能够获得所有代理的建议,综合分析后由顶级代理来决定吃豆人小姐该如何移动。
顶级代理会根据选择各个方向前进的代理数量的大小来决定移动方向,但同时也需要考虑到代理想要往某个方向移动的反应强度。
例如,如果100个代理想向右边移动,因为向右边走是他们的最佳路径,但有3个人想要向左边移动,因为右边有一个致命的幽灵,那这3个代理向左边移动的反应强度明显强于其他代理,考虑到幽灵的存在,顶级代理应该决定向左移动。
Maluuba公司的研究室经理Harman Van Seijen,对于他们的最新研究成果发表了一篇文章,文章中写到,当每位代理都果断地做出选择,顶级代理综合利用每个代理的信息后做出最佳选择,那么在吃豆人小姐游戏中就可以获得最好的结果。Harman Van Seijen说:“虽然每个代理只关心一个特定的问题,但是他们之间有很好的相互作用”。
Harman Van Seijen
为什么AI主要研究攻克吃豆人小姐游戏
需要运用最先进的AI研究方法来击败类似于上世纪80年代Atari吃豆人小姐游戏这样的简单游戏,这看上去很匪夷所思。
但是Maluuba公司的项目经理RahulMehrotra表示,使用算法来赢得这些简单的电子游戏其实非常困难,因为在玩游戏的过程中可能会遇到的各种各样的情况。
Mehrotra表示:“许多从事人工智能的公司构建游戏智能算法,因为公司希望人工智能能够像人类一样拥有打游戏的技能。”
SteveGolson是吃豆人小姐游戏街机版的创始人之一,他说到,吃豆人小姐最初定位是街机游戏,希望游戏对人们有持续吸引力而走出宿舍,所以吃豆人小姐游戏必须掌握人类不可完全征服的游戏程序。
Steve Golson
运营咨询公司Trilobyte Systems的Golson说到,他们故意设计了吃豆人小姐游戏比普通吃豆人游戏更加不可预测,所以玩家们很难打通关。复杂的游戏使得研究人员试图使用AI代理来对随机环境做出理想的反应。
Golson还说到:“使用AI代理来通关吃豆人小姐游戏是可行的,但由于游戏的随机性,所需要设计的AI程序将尤为复杂。”
强化学习
对于在不断发展的强化学习领域工作的研究人员来说,这种不可预测性极有价值。在AI研究中,强化学习是监督学习的副本,是一种更常用的人工智能方法,它能够让系统在做任务时变得更好。
通过强化学习,代理对其每个动作都采取积极或消极的反应,通过不断地试验和犯错误来最大限度地获得积极反应或奖赏。
具有监督学习的AI系统,通过给出良好和不恰当的示例,来学习如何在对话中做出适当的回应。而强化学习系统则是通过系统在对话中做出正确的回应,而后获得更高级别反馈的方式来学习对话。
AI专家认为,强化学习可以用于创建AI代理,这样的代理可以做出更多的决定,能够完成更复杂工作,为人们提供更高水平的服务。
Mehrotra表示,他们开发的能够通关吃豆人小姐游戏的系统,就可以为人们提供更好的服务。它可以在特定时间或任意时间帮助公司的销售部门预测商品的潜在客户。该系统可以使用多个代理,每个代理代表一个客户,可以预测很多重要因素,例如:哪些客户会续签合同,哪些合同对于公司是有价值的。
有了AI系统预测的帮助,销售主管可以把更多的时间放在潜在客户身上,如此会提高出售机会,因为销售人员的目光已经瞄准了最容易下订单的客户。
Van Seijen表示,他希望这种分治策略可以被用在AI的其他研究领域,如自然语言处理领域。他还说到:“分治策略使人们在解决真正复杂的问题的方式上取得进步。”
上一篇:百度外卖突然惨败!再也没人吃了
相关文章
-
蓝屏不一定是微软的锅!这个高了也不行
很多玩家在选购PC电源的时候,往往会把注意力放在额定功率上,这个做法并没有错误,然而这还不够全面,因为评价一款电源是否优秀...
2017-06-16 10:41:14阅读全文 -
快打补丁!微软一口气修复49个安全漏洞:XP赫然在列
6月14日是微软月度例行安全补丁日,尽职尽责的软件帝国一口气发布了一大堆补丁,总计修复了多达49个漏洞,包括至少27个高风险的远程代码执行漏洞,并且涉及各个操作系统,...
2017-06-15 10:14:32阅读全文 -
微软补上一个漏洞 牵扯出一段间谍往事
6月14日,每月的第二个周二是微软公司集中发布一批影响其产品安全漏洞的补丁日。...
2017-06-15 10:13:49阅读全文 -
微软颤抖 这款PC系统秒杀Windows
随着坚果Pro手机的首发,Smartisan OS系统中新增了多种功能。从锤子便签,到大爆炸(BigBang)、OneStep、闪念胶囊,锤子Smartisan...
2017-06-14 10:18:04阅读全文 -
微软厚道!停更的Windows XP也有新补丁
今天是微软的例行补丁日,一大波Windows系统迎来了累积性更新。
2017-06-14 10:07:40阅读全文
而且,令人意外的是,已经停止支持的Windows XP微软并没有撒手不管,它同样迎来了累积性更新。... -
ZEALER王自如请来苍井空跨界测评:尺度之大辣眼睛
今晚,科技测评人同时也是ZEALER创始人王自如在微博正式预告,定于23号(周日)晚20点与苍井空一块来场跨界直播,对象是;安全套...
2017-07-21阅读全文 -
蚂蚁金服的这六步棋 要让全国人民再次惊呼!
大家都知道支付宝近期一直致力于推动社会进入无现金化,从老家杭州一路北上和武汉天津等城市签约共建无现金城市之后,现如今取得了哪些进展?又还打算在哪些地方继续发力?...
2017-07-21阅读全文 -
无敌!全球最赚钱的公司一览:四大银行完秒苹果
昨天,财富中文网放出了全球500强公司,其中中国上榜公司数量连续第十四年增长,今年达到了115家,当然排在前列的还是那几个熟悉的身影。 现在财富中文网又汇总了一个更有趣的榜单...
2017-07-21阅读全文 -
惨遭封杀!天天快递怒怼京东:理由荒谬
菜鸟和顺丰的大战刚过去没多久,京东和天天快递也开撕了。昨天,京东发布公告称,为了确保用户和商家在使用物流服务当中的体验,京东将从7月31日起,暂停天天快递服务。 ...
2017-07-21阅读全文 -
苹果和高通打架 科技巨头全都力挺苹果齐怼高通
高通向苹果提供调制解调器芯片,有了这种芯片,iPhone和iPad才能实现通信和移动数据网络的连接。 ...
2017-07-21阅读全文