A survey of preference-based reinforcement learning methods

被引：0

作者：

机构：

[1] Wirth, Christian

[2] Akrour, Riad

[3] Neumann, Gerhard

[4] Fürnkranz, Johannes

来源：

| 1600年 / Microtome Publishing卷 / 18期

关键词：

105;

D O I：

暂无

中图分类号：

学科分类号：

摘要：

引用

共 50 条

[41] Reinforcement Learning Interpretation Methods: A Survey
Alharin, Alnour
Doan, Thanh-Nam
Sartipi, Mina
IEEE ACCESS, 2020, 8 : 171058 - 171077
[42] Preference-based experience sharing scheme for multi-agent reinforcement learning in multi-target environments
Zuo, Xuan
Zhang, Pu
Li, Hui-Yan
Liu, Zhun-Ga
EVOLVING SYSTEMS, 2024, 15 (05) : 1681 - 1699
[43] Decoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement Learning
Zhu, Tianchen
Qiu, Yue
Zhou, Haoyi
Li, Jianxin
THIRTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, VOL 38 NO 15, 2024, : 17202 - 17210
[44] APReL: A Library for Active Preference-based Reward Learning Algorithms
Biyik, Erdem
Talati, Aditi
Sadigh, Dorsa
PROCEEDINGS OF THE 2022 17TH ACM/IEEE INTERNATIONAL CONFERENCE ON HUMAN-ROBOT INTERACTION (HRI '22), 2022, : 613 - 617
[45] Preference-based decision making for personalised access to Learning Resources
Department of Special Education, University of Thessaly, Argonafton and Filellinon Street, Volos, GR 38221, Greece
不详
不详
Int. J. Auton. Adapt. Commun. Syst., 2008, 3 (356-369):
[46] Preference-Based Assistance Map Learning With Robust Adaptive Oscillators
Li, Shilei
Zou, Wulin
Duan, Pu
Shi, Ling
IEEE TRANSACTIONS ON MEDICAL ROBOTICS AND BIONICS, 2022, 4 (04): : 1000 - 1009
[47] Contextual Bandits and Imitation Learning with Preference-Based Active Queries
Sekhari, Ayush
Sridharan, Karthik
Sun, Wen
Wu, Runzhe
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 36 (NEURIPS 2023), 2023,
[48] A Policy Iteration Algorithm for Learning from Preference-Based Feedback
Wirth, Christian
Furnkranz, Johannes
ADVANCES IN INTELLIGENT DATA ANALYSIS XII, 2013, 8207 : 427 - 437
[49] Active Preference-Based Gaussian Process Regression for Reward Learning
Biyik, Lirdem
Huynh, Nicolas
Kochenderfer, Mykel J.
Sadigh, Dorsa
ROBOTICS: SCIENCE AND SYSTEMS XVI, 2020,
[50] Preference-based valuation of treatment attributes in haemophilia A using web survey
Carlsson, K. Steen
Andersson, E.
Berntorp, E.
HAEMOPHILIA, 2017, 23 (06) : 894 - 903

← 1 2 3 4 5 →