English 中文(简体)
学习等级强化工作队的结构
原标题:Learning the Structure of a Hierarchical Reinforcement Task

我在研究加强学习方面的细微问题,虽然许多论文提出了学习政策的有趣方法,但似乎都预先假定他们知道描述该领域行动的图表结构。 例如,。 你们将如何了解这一图表的等级,而不仅仅是政策?

最佳回答

在Dietterich simportQ,图表是人工制作的。 它被认为是系统设计员的任务,其方式与代表空间和奖励职能相同。

视你重新努力取得的成就,你可能希望自动缩小国家空间,学习相关特征,或将经验从简单任务转移到更复杂的任务。

d 我建议你刚开始阅读文件,其中提到与你有联系的LexQ。 如果不知道你想要取得什么成就,我就没有什么描述性(而我实际上不是目前所有RL研究的顶点),但你可能会在Louo、Bel &、McCollum或Madden &、Howley等文件中找到相关的想法。

问题回答

当时有该代理人去做事情。 你们不知道自己的内部目标(图表)。 你们如何看待自己的目标?

这样做是不可能的。 同样,我也不可能知道你在把这个目标推倒下来时会想到什么目标: 也许你们已经退休,也许你们会看到杀手,也许你们会去。

你们试图模仿一个代理人的内部目标结构。 为了做到这一点,你需要就一套可能的目标以及这些行动如何代表这些目标提供某种指导。 在研究文献中,这个问题已经根据“计划承认”以及使用POMDP(部分可观察到的标志性决定程序)进行了研究,但这两种技术都假定你确实知道其他代理人的目标。

如果你不了解目标,那么你可以做的是上述模式之一。 (这是我们人类所做的工作。) 我假定其他目标相同。 我从不认为,“奥赫,他投下了手提电脑,他必须准备好打鸡,他带上人。 或把它当作黑箱:简单的国家对行动功能,然后按照需要增加内部国家(豁免,任何人必须就此撰写文件,但我不知道谁)。





相关问题
Resample Filter of WEKA - How to interpret the result

I am currently strugeling with a machine learning problem whereas I have to deal with great unbalanced data sets. That is, there are six classes ( 1 , 2 ... 6 ). Unfortunately there are e.g. for class ...

How to recognize rectangles in this image?

I have a image with horizontal and vertical lines. In fact, this image is the BBC website converted to horizontal and vertical lines. My problem is that I want to be able to find all the rectangles in ...

Question About Using Weka, the machine learning tool

I m using the explorer feature of Weka for classification. So I have my .arff file, with 2 features of NUMERIC value, and my class is a binary 0 or 1 (eg {0,1}). Sample: @RELATION summary @...

Implementing a linear, binary SVM (support vector machine)

I want to implement a simple SVM classifier, in the case of high-dimensional binary data (text), for which I think a simple linear SVM is best. The reason for implementing it myself is basically that ...

libsvm model file format

According to this FAQ the model format in libsvm should be straightforward. And in fact it is, when I call just svm-train. As an example, the first SV for the a1a dataset is 1 3:1 11:1 14:1 19:1 39:...

Competitive Learning in Neural Networks

I am playing with some neural network simulations. I d like to get two neural networks sharing the input and output nodes (with other nodes being distinct and part of two different routes) to compete. ...

热门标签