如何评估强化学习智能体的性能？

强化学习 (RL) 和监督学习都是机器学习领域的重要技术，但它们服务于不同的目的，并以独特的方式运行。监督学习侧重于基于标记的数据集学习从输入数据到输出标签的映射。此过程涉及在提供正确答案的已知数据集上训练模型，从而允许模型预测不可见数据的结果。相比之下，强化学习是关于训练代理通过与环境交互来做出决策。代理不是标记输出，而是通过接收反馈作为基于其行为的奖励或惩罚来学习，从而引导其实现最佳行为。

这两种方法的训练过程有很大的不同。在监督学习中，模型在固定数据集上进行多轮训练，调整其参数以最小化预测误差。例如，如果您正在构建垃圾邮件过滤器，您将使用带标签的电子邮件数据集 (垃圾邮件或非垃圾邮件)，以便模型了解哪些特征指示垃圾邮件。相反，在强化学习中，智能体探索环境，采取行动，并从这些行动的结果中学习。例如，在像国际象棋这样的游戏中，RL代理玩很多游戏，从胜利和失败中学习，最终制定策略来提高其性能。

另一个关键区别是培训期间收到的反馈的性质。在监督学习中，反馈是直接和即时的，因为模型是在具有已知输出的显式示例上训练的。该模型可以清楚地看到其预测与实际标签的接近程度。另一方面，在强化学习中，反馈经常被延迟。代理可能会执行不会立即产生奖励或惩罚的动作，因此代理必须从较长的动作序列中学习。这可能涉及一系列复杂的决策，其中一个动作的奖励可能只有在几个后续动作之后才能完全理解。总体而言，虽然这两种方法都旨在提高绩效，但它们通过根本不同的学习和反馈方法来实现。