Question

我在研究加强学习方面的细微问题,虽然许多论文提出了学习政策的有趣方法,但似乎都预先假定他们知道描述该领域行动的图表结构。例如,。你们将如何了解这一图表的等级,而不仅仅是政策?

Answer 1

在Dietterich simportQ,图表是人工制作的。它被认为是系统设计员的任务,其方式与代表空间和奖励职能相同。

视你重新努力取得的成就,你可能希望自动缩小国家空间,学习相关特征,或将经验从简单任务转移到更复杂的任务。

d 我建议你刚开始阅读文件,其中提到与你有联系的LexQ。如果不知道你想要取得什么成就,我就没有什么描述性(而我实际上不是目前所有RL研究的顶点),但你可能会在Louo、Bel &、McCollum或Madden &、Howley等文件中找到相关的想法。

Answer 2

2. 本文件介绍了一个良好的起点:

N. Mehta, S. Ray, P. Tadepalli, and T. Dietterich. 2. 自动发现并转让LexQ Hierarchies。在2008年国际机器学习会议上。

Answer 3

当时有该代理人去做事情。你们不知道自己的内部目标(图表)。你们如何看待自己的目标?

这样做是不可能的。同样,我也不可能知道你在把这个目标推倒下来时会想到什么目标: 也许你们已经退休,也许你们会看到杀手,也许你们会去。

你们试图模仿一个代理人的内部目标结构。为了做到这一点,你需要就一套可能的目标以及这些行动如何代表这些目标提供某种指导。在研究文献中,这个问题已经根据“计划承认”以及使用POMDP(部分可观察到的标志性决定程序)进行了研究,但这两种技术都假定你确实知道其他代理人的目标。

如果你不了解目标,那么你可以做的是上述模式之一。 (这是我们人类所做的工作。) 我假定其他目标相同。我从不认为,“奥赫,他投下了手提电脑,他必须准备好打鸡,他带上人。或把它当作黑箱:简单的国家对行动功能,然后按照需要增加内部国家(豁免,任何人必须就此撰写文件,但我不知道谁)。