输入空间的维度1和维度2是否相互影响?

#d 成瘾机制

#d 间歇性可变奖励

  • 机制: 虽然只有10%的精彩内容(高奖励),但它的出现是随机、不可预测的。这触发了大脑最强大的学习机制——可变比率强化程序(类似老虎机、赌博)。

  • 多巴胺作用:

    • 期待阶段多巴胺飙升: 重点不在于获得奖励后的多巴胺爆发,而在于寻找/期待奖励过程中(手指下滑的瞬间)多巴胺的持续升高。这种不确定性本身极大提升了预期价值,让大脑觉得“下一个可能就是精彩内容”。

    • “可能性的快感” > “失望的痛感”: 即使90%是失望(轻微负向误差),但10%的巨大惊喜(强烈正向误差)带来的强化效应远超多次小失望的削弱效应。大脑会高估小概率高奖励事件的价值。

  • 行为效果: 这种模式比固定奖励(如每日签到)或固定比率奖励(如刷10次必出1次精彩)更能让人上瘾和持续行为。

    在阶段2:预期奖励:不确定性最大化 → 预期价值虚高(大脑将“平庸内容概率”压缩至20%以下)

随机性使得大脑难以形成稳定准确的预期,无法有效下调预期来匹配实际奖励频率(90%的平庸内容),导致行为持续。

#d 输入输出

推测任务 从「奖励机制」到「行为效果」的推测
知识类型 联结模型
输入空间 维度1:奖励的类型(固定奖励、固定比率奖励、间歇性可变奖励)
维度2:奖励的随机性程度
维度3:多巴胺的作用阶段(期待阶段、获得奖励阶段)
输出空间 维度1:行为的持续性
维度2:上瘾的可能性
映射关系 描述1 奖励的随机性越高,越能引发大脑的可变比率强化程序,导致行为更持久。
描述2 在期待阶段,多巴胺的飙升会提升预期价值,使得“可能性的快感”大于“失望的痛感”,从而增强行为的持续性。
具体应用 例1 某游戏采用间歇性可变奖励机制,玩家每次打开宝箱都有可能获得稀有装备(高奖励),尽管大部分时候只获得普通物品(低奖励)。这种机制会让玩家持续参与游戏,因为每次开箱都伴随着强烈的期待感和多巴胺飙升。
例2 一款社交媒体应用通过算法随机推荐内容,用户偶尔会刷到极其有趣的内容(高奖励),而大部分内容则较为平庸(低奖励)。由于奖励的不可预测性,用户会持续刷新页面,期待下一次的惊喜内容。
在此处键入或粘贴代码

原则上,输入空间中的每个维度都应该彼此独立。但实际可能难以揪出完全独立的,那有所重叠的话,也没太大关系

多巴胺的预测误差

  • 正值误差(奖励 > 预期):多巴胺爆发 → 强化行为(如抽中SSR时的狂喜)
  • 负值误差(奖励 < 预期):多巴胺抑制 → 行为减弱(如抽卡全落空的失落)
  • 零误差(奖励 = 预期):多巴胺基线释放 → 维持行为(如每日签到拿固定积分)
推测任务 从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测
知识类型 联结模型
输入空间 维度1:实际奖励的大小
维度2:预期奖励的大小
输出空间 维度1:多巴胺释放的变化(爆发、抑制或基线释放)
维度2:行为的调整(强化、减弱或维持)
映射关系 描述1 当实际奖励大于预期时,多巴胺爆发,导致行为被强化。
描述2 当实际奖励小于预期时,多巴胺受到抑制,导致行为减弱。
描述3 当实际奖励等于预期时,多巴胺保持基线释放,导致行为维持不变。
具体应用 例1 在抽奖活动中,参与者原本预期只能抽到普通奖品,却意外抽中大奖(奖励 > 预期),多巴胺爆发,促使他更频繁地参与类似活动(行为强化)。
例2 学生预计考试能得高分,但成绩公布后远低于预期(奖励 < 预期),多巴胺受到抑制,导致他对学习兴趣下降(行为减弱)。

这里的映射关系感觉怪怪的,是不是应该一个输入维度(子概念)对应另一个输出维度(子概念)呢,感觉这里不需要划分维度。

把你觉得合理的映射关系写出来

从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测中,输出空间的维度相互影响了:
输出空间
维度1:多巴胺释放的变化(爆发、抑制或基线释放)
维度2:行为的调整(强化、减弱或维持)
我把从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测。拆分成:从「奖励和预期的比较」到「多巴胺反应」的推测&&从「多巴胺反应」到「行为变化」的推测。

从「奖励和预期」到「多巴胺反应」的推测。

输入空间:所有可能的奖励和预期组合的集合。

维度1:实际奖励的大小。

维度2:预期奖励的大小。

输出空间:所有可能的多巴胺释放变化

维度1:多巴胺爆发

维度2:多巴胺抑制

维度3:多巴胺基线

映射关系:

描述1 当实际奖励 > 预期,多巴胺爆发。
描述2 当实际奖励 < 预期,多巴胺受到抑制。
描述3 当实际奖励 = 预期,多巴胺维持基线释放。

从「多巴胺反应」到「行为变化」的推测。

输入空间:所有可能的多巴胺释放变化

维度1:多巴胺爆发

维度2:多巴胺抑制

维度3:多巴胺基线

输出空间: 所有可能的行为变化的集合。

维度1:行为强化

维度2:行为减弱

维度3:行为维持

映射关系:

描述1 :多巴胺爆发,导致行为被强化。
描述2 :多巴胺受到抑制,导致行为减弱。
描述3 :多巴胺维持基线释放,导致行为得以维持。

这是最符合原则的。

不过实际应用中,不符合原则的很多,自己能理解就好了。

于博意思是拆分成“从「奖励和预期的比较」到「多巴胺反应」的推测&&从「多巴胺反应」到「行为变化」的推测。”最符合原则是吧?也可以写成下面这样,能理解就行。

推测任务 从「奖励与预期的比较」到「多巴胺反应及行为结果」的推测
知识类型 联结模型
输入空间 维度1:实际奖励的大小 维度2:预期奖励的大小
输出空间 维度1:多巴胺释放的变化(爆发、抑制或基线释放) 维度2:行为的调整(强化、减弱或维持)
映射关系 描述1 当实际奖励大于预期时,多巴胺爆发,导致行为被强化。 描述2 当实际奖励小于预期时,多巴胺受到抑制,导致行为减弱。 描述3 当实际奖励等于预期时,多巴胺保持基线释放,导致行为维持不变。

我更倾向于看作是两个推测任务。一个是从【奖励机制】到【多巴胺状态】;另一个是从【多巴胺状态】到【人的行为】。

实际来看,这样会更合理一些。因为你无法控制【多巴胺状态】,你能控制的只有【奖励机制】。从【奖励机制】到【多巴胺状态】这个推测任务下,可以有各种各样的知识,那么你就可以研究这个推测任务下的知识,看看哪种知识更能影响【多巴胺状态】。从【多巴胺状态】到【人的行为】这个推测任务下,也有各种各样的知识,你可以研究各种各样的多巴胺状态能发生什么样的行为。

这两个推测任务探究出来的知识,你也可以组合起来运用。比如我探究明白了多巴胺A状态,能稳定造成人的A’行为,那么我为了控制人的A’行为的稳定发生,我可以逆推探究【什么样的奖励机制】能稳定造成【多巴胺A状态】这个知识。

这也是为什么于博在信息推测一节中说:“知识总是属于某个「信息推测(任务)」的,但一个信息推测中,可以建构出多个知识。”https://www.modevol.com/episode/l8wlrf30o4dgt65vb6o6c5uy

1 个赞