训练 AI 使用强化学习玩口袋妖怪红

2023年10月18日下午7:47 • 工具软件

许多用途、生产力技巧、自动化、工作流程和其他使用 AI 来提高您的结果、技能等的方法。然而，到目前为止，我们还没有介绍的一个应用程序是使用 AI 来玩神奇宝贝红。本指南提供了了解有关使用强化学习训练 AI 模型的更多信息的机会。以及AI在游戏中的学习过程，AI的成功和失败，AI开发的技术细节，有效运行实验的策略，未来的改进以及如何在自己的计算机上运行程序，如果您有兴趣。

人工智能被训练使用强化学习来玩神奇宝贝红，这个过程始于人工智能对游戏一无所知，只有按下随机按钮的能力。在五年的模拟游戏时间里，人工智能学会了捕捉神奇宝贝，进化它们，甚至击败了健身房的领导者。这个学习过程由奖励系统指导，该系统激励人工智能完成目标并通过反复试验来学习。

训练AI使用强化学习玩口袋妖怪

人工智能的学习过程被可视化，以了解其行为和决策。这种可视化为人工智能的学习过程提供了宝贵的见解，并有助于指导人工智能训练的未来改进。观看下面的视频，了解有关该过程的更多信息并查看其实际效果。

鼓励人工智能探索游戏地图并寻找新奇事物，发现新屏幕会给予奖励。然而，这一学习过程并非没有挑战。由于新颖性奖励系统，人工智能有时会专注于某些领域。为了调整AI的行为，修改了奖励系统，例如提高新颖性奖励的门槛，以鼓励探索新地点。添加了额外的奖励以激励 AI 参与战斗并升级其神奇宝贝。

人工智能学会了导航游戏地图，参与战斗，甚至利用游戏的随机数生成器。对人工智能的行为进行了分析和可视化，以了解其学习过程和决策。该分析表明，AI与游戏环境的交互以及奖励功能的设计是训练过程中的关键考虑因素。

人工智能使用称为近端策略优化的强化学习算法进行训练。选择该算法是因为它能够处理神奇宝贝红的复杂和动态环境。然而，人工智能的训练并非没有挑战。在游戏中回溯的需要、运行训练的成本以及仔细设计奖励函数的需要都是必须考虑的因素。

运行AI的训练可以在个人计算机上完成，并在项目的GitHub存储库中提供说明。但是，请务必注意，默认情况下，游戏将在 32K 步或大约一小时后终止。这可以通过调整ep_length变量来增加，但它也会使用更多的内存。默认情况下，这最多可以使用大约 100G 的 RAM。这可以通过减少num_cpu或ep_length来减少，但它可能会影响结果。此外，在开始改进之前，模型行为可能会在前 50 次左右的训练迭代中退化。

使用强化学习训练 AI 模型的步骤：

1. 问题表述：

状态空间：定义代理可能遇到的所有可能状态的集合。
操作空间：定义代理可以执行的所有可能操作的集合。
奖励函数：定义一个基于状态-操作对提供标量奖励的函数。
策略：代理用来根据当前状态确定下一步操作的策略。
目标：通常，目标是最大化预期的累积奖励，通常会随着时间的推移而打折。

2. 环境设置：

您可以使用预先构建的环境（如OpenAI Gym），也可以构建一个模拟您尝试解决的问题的自定义环境。

3. 初始化参数：

初始化策略和其他参数，如折扣系数、学习率等。

4. 训练循环：

观察：观察环境的当前状态。
操作选择：使用当前策略选择要在观察状态下执行的操作。
执行：执行操作并观察新的状态和奖励。
学习：根据观察到的奖励和过渡更新策略或中间函数（如价值函数或行动-价值函数）。
循环：继续此过程，直到满足终止条件，该条件可以是最大迭代次数、问题定义的令人满意的学习水平或其他条件。

5. 政策改进：

经过充分培训后，优化或优化策略以获得更好的性能，这可以使用策略迭代、价值迭代等技术或通过更高级的方法（如参与者-评论家模型）来完成。

6. 评估：

在测试环境或实际方案中运行经过训练的代理以评估其性能。

算法：

在学习阶段可以使用不同的算法，每种算法都有自己的优点和缺点：

价值迭代、策略迭代：主要用于教育目的的基本方法。
Q-Learning，Sarsa：适用于高维状态空间的无模型方法。
深度Q网络（DQN）：将Q学习与深度学习相结合。
策略梯度：直接优化策略功能。
参与者-评论家：结合基于价值和基于策略的方法。

库和工具：

Python库，如TensorFlow，PyTorch，用于构建神经网络，如果你使用函数逼近器。
用于环境模拟的OpenAI Gym。

通过强化学习，人工智能已经学会了在游戏世界中导航、参与战斗，甚至利用游戏的机制。尽管面临挑战，但人工智能的培训为人工智能的学习过程和决策提供了宝贵的见解，并为人工智能在游戏中的未来改进和应用铺平了道路。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun261039.html

人工智能定义策略

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何在较旧的不受支持的Mac上安装macOS Sonoma

上一篇 2023年10月18日下午7:47

创建 AutoGen 多 AI 代理应用程序以更有效地解决问题

下一篇 2023年10月18日下午7:48

工具软件

Microsoft、谷歌和人工智能巨头在人工智能服务中加强儿童保护措施

为了打击人工智能（AI）技术的潜在滥用，Microsoft和谷歌宣布承诺在其生成式人工智能服务中实施新的儿童安全措施。这些承诺是与致力于打击儿童性虐待的非营利组织 Thorn 和 …

2024年4月25日
谷歌Google

谷歌正在将 SGE AI 摘要扩展到美国的更多用户，即使他们没有注册

美国的一些用户开始在搜索页面顶部获得人工智能生成的查询摘要。新的搜索从顶部结果中提取信息，提供参考链接和图像，并以一口大小的句子总结信息，使用户能够快速获得查询的答案。这可能会让…

2024年4月6日
最新资讯

Threads 在美国推出了一项新的“Trending Now”功能

美国的 Threads 用户已开始在他们的 Feed 中看到一个新的“Trending Now”部分。在这里，用户可以找到热门话题，这些话题正在激发平台上越来越多的对话。Trend…

2024年4月2日
新的人工智能模型可以在有限的人工干预下相互交谈和学习

人工智能系统正在快速发展。发表在《自然》杂志上的一篇新论文强调了人工智能网络的发展，该网络不仅可以仅依靠书面指令来学习和执行任务，还可以教另一个没有此类指令或经验的“姐妹”人工智能…

工具软件 2024年4月2日
MS Outlook中未显示的组日历：组

集团日历总结了即将举行的活动并记录了重要会议，以保持可持续的工作流程。但是，如果组日历未显示在 Microsoft Outlook 中怎么办？鉴于所有组成员都使用组日历，这可能会很…

2024年4月1日 • 工具软件
工具软件

Mistral AI 创始人 Arthur Mensch 讨论开源 AI

Mistral AI 创始人 Arthur Mensch 讨论开源 AI 在 AI Ascent 大会上，Mistral AI 的创始人 Arthur Mensch 提出了一个令人…

2024年3月29日
工具软件

创建可信赖 AI 模型的 5 个基本原则

创建可信赖 AI 模型的 5 个基本原则随着人工智能（AI）越来越多地渗透到我们的生活中，对这些系统的信任变得至关重要。IBM 概述了五项基本原则，这些原则对于创建 AI 模…

2024年3月29日
微软Microsoft

微软为厂商定义 AI PC：必须配备 Copilot 键

英特尔、微软、高通以及 AMD 等科技巨头，近月来一直在推广所谓的「AI PC」概念。虽然我们仍在等待微软就其Windows中人工智能大计的更多细节进行分享，英特尔已开始公布微软…

2024年3月29日
工具软件

NVIDIA 和 AI 个人计算的未来

NVIDIA 和 AI 个人计算的未来 NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 和 Imbue 首席执行官 Kanjun Qiu 在最近的一次采访中解…

2024年3月26日
我该使用哪款 AI？AI 模型的超能力与现状

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
工具软件

有关 OpenAI Q-STAR 的更多细节揭晓

有关 OpenAI Q-STAR 的更多细节揭晓关于 OpenAI 的 Q-STAR 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（EBM）来生成响应。据报…

2024年3月24日
工具软件

MacBook的基本技巧和窍门

MacBook的基本技巧和窍门对于希望提高工作效率和个性化数字工作空间的 MacBook 用户来说，这里有大量功能等待您去发现。本指南将引导您了解几个不可或缺的提示和技巧，这些技…

2024年3月24日
工具软件

发现惊人的三星 Galaxy S24、S24+ 提示和技巧

三星 Galaxy S24、S24+ 提示和技巧随着技术的不断发展，三星走在最前沿，推出了 Galaxy S24 系列。这个现代工程的奇迹不仅拥有显着的硬件改进，而且还通过其软件…

2024年3月21日
Linux命令

如何在 Ubuntu 20.04 LTS 上安装和使用 Ansible

在 Ubuntu 上安装 Ansible 的步骤 20.04 LTS 1. 更新 Ubuntu 20.04 在这里，我们使用 Ubuntu 20.04 配置为 Ansible No…

2024年3月17日
Linux命令

在 Ubuntu 上安装和配置 Ansible 22.04 Linux

在 Ubuntu 上安装 Ansible 的步骤 22.04 LTS 这里给出的在 Ubuntu 22.04 上安装 Ansible 的步骤和命令也适用于 Ubuntu 20.04…

2024年3月17日
苹果Apple

如何在 iOS 17.4 中自定义 iPhone 上的应用程序图标

如何在 iOS 17.4 中自定义 iPhone 上的应用程序图标自定义 iPhone 的主屏幕已成为个性化设备的一种令人兴奋的方式，尤其是随着 iOS 17.4 更新的推出。这…

2024年3月15日
工具软件

如何在没有互联网连接的情况下私下运行人工智能

如何在没有互联网连接的情况下私下运行人工智能如果您正在寻找一种方式，在您自己的本地计算机或家庭网络上享受触手可及的人工智能（AI）的力量，而不必担心损害您的隐私。您现在可以在…

2024年3月15日
工具软件

如何使用 AI 通过日志行集思广益书籍故事情节

如何使用 AI 通过日志行集思广益书籍故事情节如果你想利用人工智能的力量来帮助你集思广益你的下一本书的想法或故事情节，你可能会对一种新的头脑风暴技术感兴趣，这种技术专注于布莱克·…

2024年3月15日
Microsoft表示目前不支持在 Windows 10 中卸载 Copilot

Copilot 已引入 Windows，以改进您的工作流程。但是，您可能需要将其删除。无论您不喜欢 Microsoft 在系统中实现 AI 的方法还是出于其他原因，目前都不支持在 …

2024年3月15日 • 微软Microsoft
工具软件

Figure01 搭载ChatGPT视觉和语音转语音通信的机器人

Figure01 搭载ChatGPT视觉和语音转语音通信的机器人想象一下，在这个世界里，配备人工智能的人形机器人不仅可以与您交谈，还可以像人一样理解周围的环境并与之互动。Open…

2024年3月15日
工具软件

我们对 ChatGPT-5 有什么期待？

我们对 ChatGPT-5 有什么期待？伊戈尔·波加尼（Igor Pogany）最近发表了演讲，重点介绍了ChatGPT-5等语言模型未来迭代的预期进步和能力，以及个人和企业准备…

2024年3月15日
苹果Apple

如何在 iOS 17.4 中自定义 iPhone 上的应用程序图标

如何在 iOS 17.4 中自定义 iPhone 上的应用程序图标自定义 iPhone 的主屏幕已成为个性化设备的一种令人兴奋的方式，尤其是随着 iOS 17.4 更新的推出。这…

2024年3月15日
工具软件

Cognition Labs Devin AI 软件工程师详解

Cognition Labs Devin AI 软件工程师详解认识 Devin，这是人工智能领域的突破性发展，被誉为世界上第一位完全自主的 AI 软件工程师。这不仅仅是任何人工智…

2024年3月14日
苹果Apple

10 款很棒的 Apple Mac 生产力应用程序

10 款很棒的 Apple Mac 生产力应用程序在熙熙攘攘的数字时代，最大限度地提高 Apple Mac 的工作效率比以往任何时候都更加重要。无论您是在处理工作任务、管理个人项…

2024年3月14日
工具软件

如何使用 ElevenLabs 制作 AI 音效

如何使用 ElevenLabs 制作 AI 音效如果您正在寻找一种使用人工智能（AI）快速轻松地创建丰富不同音效以满足您所有需求的方法。在查看 ElevenLabs 的 AI…

2024年3月14日