Probability matching and reinforcement learning

被引：5

作者：

Rivas, Javier ^{[1
]}

机构：

[1] Univ Leicester, Dept Econ, Leicester LE1 7RH, Leics, England

来源：

JOURNAL OF MATHEMATICAL ECONOMICS | 2013年 / 49卷 / 01期

关键词：

Probability matching; Reinforcement learning; DECISION-MAKING; FORM GAMES;

D O I：

10.1016/j.jmateco.2012.09.004

中图分类号：

F [经济];

学科分类号：

02 ;

摘要：

Probability matching occurs when an action is chosen with a frequency equivalent to the probability of that action being the best choice. This sub-optimal behavior has been reported repeatedly by psychologists and experimental economists. We provide an evolutionary foundation for this phenomenon by showing that learning by reinforcement can lead to probability matching and, if the learning occurs sufficiently slowly, probability matching does not only occur in choice frequencies but also in choice probabilities. Our results are completed by proving that there exists no quasi-linear reinforcement learning specification such that the behavior is optimal for all environments where counterfactuals are observed. (C) 2012 Elsevier B.V. All rights reserved.

引用

页码：17 / 21

页数：5

共 50 条

[1] Reinforcement learning by probability matching
Sabes, PN
Jordan, MI
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 8: PROCEEDINGS OF THE 1995 CONFERENCE, 1996, 8 : 1080 - 1086
[2] Exploration and recency as the main proximate causes of probability matching: a reinforcement learning analysis
Carolina Feher da Silva
Camila Gomes Victorino
Nestor Caticha
Marcus Vinícius Chrysóstomo Baldo
Scientific Reports, 7
[3] Exploration and recency as the main proximate causes of probability matching: a reinforcement learning analysis
da Silva, Carolina Feher
Victorino, Camila Gomes
Caticha, Nestor
Baldo, Marcus Vinicius Chrysostomo
SCIENTIFIC REPORTS, 2017, 7
[4] PROBABILITY-LEARNING AS A FUNCTION OF MOMENTARY REINFORCEMENT PROBABILITY
WILLIAMS, BA
JOURNAL OF THE EXPERIMENTAL ANALYSIS OF BEHAVIOR, 1972, 17 (03) : 363 - &
[5] PROBABILITY MATCHING, THE MAGNITUDE OF REINFORCEMENT, AND CLASSIFIER SYSTEM BIDDING
GOLDBERG, DE
MACHINE LEARNING, 1990, 5 (04) : 407 - 425
[6] STIMULUS CHARACTERISTICS AND REINFORCEMENT IN PROBABILITY LEARNING
SCHWAAB, EL
CUTTER, HSG
PSYCHOLOGICAL REPORTS, 1969, 24 (02) : 372 - &
[7] DISCRIMINATION LEARNING AS A FUNCTION OF THE PROBABILITY OF REINFORCEMENT
NORTH, AJ
MCDONALD, RD
JOURNAL OF COMPARATIVE AND PHYSIOLOGICAL PSYCHOLOGY, 1959, 52 (03): : 342 - 344
[8] Reinforcement learning of choice probability.
Zhang, J
Mueller, S
JOURNAL OF MATHEMATICAL PSYCHOLOGY, 1998, 42 (04) : 486 - 486
[9] LUMINANCE AND REINFORCEMENT DELAY IN PROBABILITY LEARNING
LAKOTA, RA
MADISON, HL
JOURNAL OF EXPERIMENTAL PSYCHOLOGY, 1971, 88 (02): : 277 - &
[10] LUMINANCE AS A REINFORCEMENT PARAMETER IN PROBABILITY LEARNING
BOUDEWYN.PA
MADISON, HL
JOURNAL OF EXPERIMENTAL PSYCHOLOGY, 1970, 83 (03): : 502 - &

← 1 2 3 4 5 →