帝游网提供最新手游APP下载和游戏攻略!

快手布局斗地主游戏,DouZero学习算法挑战AlphaZero,实现从零突破

发布时间:2024-10-27浏览:41

试试就试试。

快手团队开发的斗地主AI命名为DouZero,意思是像AlphaZero一样从零开始训练,不需要加入任何人类知识。

只用4个GPU,短短几天的训练时间,就在Botzone排行榜上的344个斗地主AI中排名第一。

而且还有在线试玩(链接在文章最后),手机也能运行。

在线试玩中演示的是三人斗地主,玩家可以选择扮演地主、地主的上家或下家。

选择当地主来玩玩看,可以打开显示AI手牌功能,更容易观察AI决策过程。另外可以设置AI考虑时间,默认是3秒。

在AI的回合,会显示面临的决策和每种打法的预测胜率。

有时可以看到AI并不是简单地选择当前胜率最高的打法,而是有更全局的考虑。

斗地主对AI来说,很难

从博弈论的角度看,斗地主是“不完全信息博弈”。

围棋是所有棋子都摆在棋盘上,对弈双方都能看到的完全信息博弈。

而斗地主每个玩家都看不到其他人的手牌,对于AI来说更有挑战性。

在棋牌类游戏中,虽然斗地主的信息集的大小和数量不如麻将,但行动空间有10^4,与德州扑克相当,而大多数强化学习模型只能处理很小的行动空间。

斗地主的所有牌型总共有27472种可能。

像下图的手牌就有391种打法。

且斗地主的行动不容易被抽象化,使搜索的计算成本很高,像Deep Q-Learning和A3C等强化学习模型都只有不到20%的胜率。

另外作为不对称游戏,几个农民要在沟通手段有限的情况下合作并与地主对抗。

像扑克游戏中最流行的“反事实后悔最小化”(Counterfactual Regret Minimization)算法,就不擅长对这种竞争和合作建模。

全局、农民和地主网络并行学习

首先将手牌状态编码成4x15的独热(one-hot)矩阵,也就是15种牌每种最多能拿到4张。

DouZero是在Deep Q-Learning的基础上进行改进。

使用LSTM(长短期记忆神经网络)编码历史出牌,独热矩阵编码预测的牌局和当前手牌,最终用6层,隐藏层维度为512的MLP(多层感知机)算出Q值,得出打法。

除了“学习者”全局网络以外,还用3个“角色”网络分别作为地主、地主的上家和下家进行并行学习。全局和本地网络之间通过共享缓冲区定期通信。

△学习者和角色的算法

DouZero在48个内核和4个1080Ti的一台服务器上训练10天击败了之前的冠军,成为最强斗地主AI。

下一步,加强AI间的协作

对于之后的工作,DouZero团队提出了几个方向:

一是尝试用ResNet等CNN网络来代替LSTM。

以及在强化学习中尝试Off-Policy学习,将目标策略和行为策略分开以提高训练效率。

最后还要明确地对农民间合作进行建模。好家伙,以后AI也会给队友倒卡布奇诺了。

柯洁在围棋被AlphaGO击败以后,2019年参加了斗地主锦标赛获得了冠军。

不知道会不会有AI“追杀”过来继续挑战他。

在线试玩:https://www.douzero.org

GitHub项目地址:https://github.com/kwai/DouZero

论文地址:https://arxiv.org/pdf/2106.06135.pdf

参考链接:[1]https://www.sohu.com/a/285835432_498635

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

用户评论

眷恋

这倒是一个有趣的尝试!我一直都喜欢玩斗地主,如果人工智能能打得更好,那我倒是想看看它是怎么学习的。从零学,意味着它需要自己理解游戏的规则和策略,这真的太酷了!

    有19位网友表示赞同!

﹏櫻之舞﹏

感觉有点像是科技虚张声势啊,打牌终究是需要很多经验和实战积累的,单纯依靠算法就能战胜人类玩家吗?我还是更相信人的智慧,毕竟斗地主不仅考验智力,还需要观察对方的心理变化。

    有10位网友表示赞同!

我就是这样一个人

快手开发DouZero, 从零学习对标AlphaZero ? 真的是一个让人眼前一亮的发展!我一直都觉得 AI 要走向更成熟的方向,突破局限性,应用到生活场景中才更有意义. 斗地主这个最火爆的游戏如果能被AI驾驭,那可就太厉害了!

    有10位网友表示赞同!

别留遗憾

我也玩斗地主,经常和朋友比赛。现在AI杀入这片领土也让我的兴奋感飙升!期待未来的智能斗地主能带来更多乐趣,还能看看 AI 会用哪些策略打败我们人类玩家。

    有13位网友表示赞同!

闲肆

从AlphaZero开始, 人工智能就展现出了惊人的学习能力.DouZero将这个能力应用到斗地主的领域, 让人印象深刻! 从零开始学习更像是一个“挑战自我”的举动, 真的是很有远见!

    有12位网友表示赞同!

作业是老师的私生子

AI真的能打败人类玩家吗? 我感觉有些怀疑,毕竟斗地主还是和人的心理博弈有关,AI很难完全模拟人的这种复杂情绪。也许是未来科技发展到一定程度后才能实现吧!

    有10位网友表示赞同!

稳妥

我支持快手将AI运用在生活中,让它更贴近我们,比如玩游戏、聊天。如果DouZero能成功学习斗地主的规则和策略,那确实是一个非常棒的例子!

    有17位网友表示赞同!

■□丶一切都无所谓

希望DouZero能够快速发展成熟,带来更多元化的游戏体验!也许将来我们可以和AI一起组队打牌,还能从它身上学习到很多新花样。

    有15位网友表示赞同!

哽咽

我更相信人工智慧未来将会改变我们的生活方式,也期待它能为游戏行业带来更多创新玩法!

    有5位网友表示赞同!

百合的盛世恋

这种技术发展方向我还是比较关注的,毕竟AI玩好斗地主需要考虑很多因素,比如时机、策略等等,这其实也是对人类思维模式的一种模拟和学习。很期待这个项目能够取得成功!

    有16位网友表示赞同!

回到你身边

说实话,我有点担心AI杀入游戏领域会不会让人失去游戏的乐趣?毕竟玩家之间互相交流、竞争才是游戏最精彩的部分,现在有了AI会不会显得比较单薄呢?

    有17位网友表示赞同!

从此我爱的人都像你

我一直关注人工智能的发展趋势,这个DouZero项目确实很有特点。从零开始学习不仅能考验AI的能力,也能让我们更深入了解其学习机制。期待它能够取得令人瞩目的成绩!

    有17位网友表示赞同!

雪花ミ飞舞

这真是一个新奇的想法!把人工智能应用到斗地主里,让这个传统游戏变得更加智能化和有趣。我也很想看看AI会用什么样的策略战胜人类玩家?也许我还能从它的玩法中学习到一些新的技巧呢!

    有15位网友表示赞同!

烟花巷陌

快手真的越来越厉害了!开发这样一款智能游戏平台很有创新精神,也为人工智能的应用提供了很好的平台。我相信DouZero一定能够吸引很多玩家来体验,也会带给人们全新的游戏感受。

    有7位网友表示赞同!

执拗旧人

这只是AI技术发展的开始,未来它将会应用到更多领域,改变我们的生活方式!也许有一天,我们会和AI一起玩各种各样的游戏,甚至进行更深入的交流互动。那是一个更加精彩的未来展望!

    有9位网友表示赞同!

黑夜漫长

感觉现在的科技发展越来越快了, 一方面让人期待的同时也感觉有些担忧啊. 比如这AI斗地主, 未来会不会取代人类玩家?那我们还能玩什么游戏呢?

    有14位网友表示赞同!

冷落了自己·

这个DouZero项目听起来很让人兴奋!如果AI能够从零开始学习打牌,那么它一定能掌握非常精妙的策略和技巧。希望未来我们可以和智能AI一起参与到游戏中,并从中获得乐趣和启发。

    有19位网友表示赞同!

热点资讯