#d 成瘾机制
#d 间歇性可变奖励
-
机制: 虽然只有10%的精彩内容(高奖励),但它的出现是随机、不可预测的。这触发了大脑最强大的学习机制——可变比率强化程序(类似老虎机、赌博)。
-
多巴胺作用:
-
行为效果: 这种模式比固定奖励(如每日签到)或固定比率奖励(如刷10次必出1次精彩)更能让人上瘾和持续行为。
在阶段2:预期奖励:不确定性最大化 → 预期价值虚高(大脑将“平庸内容概率”压缩至20%以下)
随机性使得大脑难以形成稳定准确的预期,无法有效下调预期来匹配实际奖励频率(90%的平庸内容),导致行为持续。
#d 输入输出
推测任务 |
从「奖励机制」到「行为效果」的推测 |
知识类型 |
联结模型 |
输入空间 |
维度1:奖励的类型(固定奖励、固定比率奖励、间歇性可变奖励) 维度2:奖励的随机性程度 维度3:多巴胺的作用阶段(期待阶段、获得奖励阶段) |
输出空间 |
维度1:行为的持续性 维度2:上瘾的可能性 |
映射关系 |
描述1 奖励的随机性越高,越能引发大脑的可变比率强化程序,导致行为更持久。 描述2 在期待阶段,多巴胺的飙升会提升预期价值,使得“可能性的快感”大于“失望的痛感”,从而增强行为的持续性。 |
具体应用 |
例1 某游戏采用间歇性可变奖励机制,玩家每次打开宝箱都有可能获得稀有装备(高奖励),尽管大部分时候只获得普通物品(低奖励)。这种机制会让玩家持续参与游戏,因为每次开箱都伴随着强烈的期待感和多巴胺飙升。 例2 一款社交媒体应用通过算法随机推荐内容,用户偶尔会刷到极其有趣的内容(高奖励),而大部分内容则较为平庸(低奖励)。由于奖励的不可预测性,用户会持续刷新页面,期待下一次的惊喜内容。 |
在此处键入或粘贴代码
88a26e4e
(YJango)
2
原则上,输入空间中的每个维度都应该彼此独立。但实际可能难以揪出完全独立的,那有所重叠的话,也没太大关系
多巴胺的预测误差
- 正值误差(奖励 > 预期):多巴胺爆发 → 强化行为(如抽中SSR时的狂喜)
- 负值误差(奖励 < 预期):多巴胺抑制 → 行为减弱(如抽卡全落空的失落)
- 零误差(奖励 = 预期):多巴胺基线释放 → 维持行为(如每日签到拿固定积分)
推测任务 |
从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测 |
知识类型 |
联结模型 |
输入空间 |
维度1:实际奖励的大小 维度2:预期奖励的大小 |
输出空间 |
维度1:多巴胺释放的变化(爆发、抑制或基线释放) 维度2:行为的调整(强化、减弱或维持) |
映射关系 |
描述1 当实际奖励大于预期时,多巴胺爆发,导致行为被强化。 描述2 当实际奖励小于预期时,多巴胺受到抑制,导致行为减弱。 描述3 当实际奖励等于预期时,多巴胺保持基线释放,导致行为维持不变。 |
具体应用 |
例1 在抽奖活动中,参与者原本预期只能抽到普通奖品,却意外抽中大奖(奖励 > 预期),多巴胺爆发,促使他更频繁地参与类似活动(行为强化)。 例2 学生预计考试能得高分,但成绩公布后远低于预期(奖励 < 预期),多巴胺受到抑制,导致他对学习兴趣下降(行为减弱)。 |
这里的映射关系感觉怪怪的,是不是应该一个输入维度(子概念)对应另一个输出维度(子概念)呢,感觉这里不需要划分维度。
从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测中,输出空间的维度相互影响了:
输出空间
维度1:多巴胺释放的变化(爆发、抑制或基线释放)
维度2:行为的调整(强化、减弱或维持)
我把从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测。拆分成:从「奖励和预期的比较」到「多巴胺反应」的推测&&从「多巴胺反应」到「行为变化」的推测。
从「奖励和预期」到「多巴胺反应」的推测。
输入空间:所有可能的奖励和预期组合的集合。
维度1:实际奖励的大小。
维度2:预期奖励的大小。
输出空间:所有可能的多巴胺释放变化
维度1:多巴胺爆发
维度2:多巴胺抑制
维度3:多巴胺基线
映射关系:
描述1 当实际奖励 > 预期,多巴胺爆发。
描述2 当实际奖励 < 预期,多巴胺受到抑制。
描述3 当实际奖励 = 预期,多巴胺维持基线释放。
从「多巴胺反应」到「行为变化」的推测。
输入空间:所有可能的多巴胺释放变化
维度1:多巴胺爆发
维度2:多巴胺抑制
维度3:多巴胺基线
输出空间: 所有可能的行为变化的集合。
维度1:行为强化
维度2:行为减弱
维度3:行为维持
映射关系:
描述1 :多巴胺爆发,导致行为被强化。
描述2 :多巴胺受到抑制,导致行为减弱。
描述3 :多巴胺维持基线释放,导致行为得以维持。
yjango
(YJango(浆果))
7
这是最符合原则的。
不过实际应用中,不符合原则的很多,自己能理解就好了。
于博意思是拆分成“从「奖励和预期的比较」到「多巴胺反应」的推测&&从「多巴胺反应」到「行为变化」的推测。”最符合原则是吧?也可以写成下面这样,能理解就行。
推测任务 |
从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测 |
知识类型 |
联结模型 |
输入空间 |
维度1:实际奖励的大小 维度2:预期奖励的大小 |
输出空间 |
维度1:多巴胺释放的变化(爆发、抑制或基线释放) 维度2:行为的调整(强化、减弱或维持) |
映射关系 |
描述1 当实际奖励大于预期时,多巴胺爆发,导致行为被强化。 描述2 当实际奖励小于预期时,多巴胺受到抑制,导致行为减弱。 描述3 当实际奖励等于预期时,多巴胺保持基线释放,导致行为维持不变。 |
|
|
我更倾向于看作是两个推测任务。一个是从【奖励机制】到【多巴胺状态】;另一个是从【多巴胺状态】到【人的行为】。
实际来看,这样会更合理一些。因为你无法控制【多巴胺状态】,你能控制的只有【奖励机制】。从【奖励机制】到【多巴胺状态】这个推测任务下,可以有各种各样的知识,那么你就可以研究这个推测任务下的知识,看看哪种知识更能影响【多巴胺状态】。从【多巴胺状态】到【人的行为】这个推测任务下,也有各种各样的知识,你可以研究各种各样的多巴胺状态能发生什么样的行为。
这两个推测任务探究出来的知识,你也可以组合起来运用。比如我探究明白了多巴胺A状态,能稳定造成人的A’行为,那么我为了控制人的A’行为的稳定发生,我可以逆推探究【什么样的奖励机制】能稳定造成【多巴胺A状态】这个知识。
这也是为什么于博在信息推测一节中说:“知识总是属于某个「信息推测(任务)」的,但一个信息推测中,可以建构出多个知识。”https://www.modevol.com/episode/l8wlrf30o4dgt65vb6o6c5uy
1 个赞