比人类网瘾更可怕，AI得了“脑腐”后完全有救

[db:作者] · 发表于 2025-10-22 16:00

“脑腐”（Brain Rot）指的是打仗了过量交际媒体的低质量、碎片化信息后，人类的精神和智力状态恶化，如同腐臭一般提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。它曾入选 2024 年牛津大学出书社年度热词提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

与人类“脑腐”现象的兴起相对应，野生智能（特别是大型说话模子 LLM）端庄过进修海量的互联网数据，逐步获得类似人类的认知才能提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

由于这类进修机制，LLM 不成避免地、延续地打仗到大量“渣滓数据”，是以，题目出现：LLM 能否也会出现类似人类的“脑腐”现象？

克日，来自德克萨斯农工大学、德克萨斯大学奥斯汀分校和普渡大学研讨职员合作发文表白，随着 LLM 延续表露于低质量收集文本，其也会出现持久性的认知衰退，且没法规复提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

（来历：arXiv）

渣滓越多，退化越深

他们首先提出“LLM 脑腐假说”（LLM Brain Rot Hypothesis）：即基于渣滓收集文本的延续预练习会激发 LLMs 的持久性认知衰退提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

为考证该假说，研讨职员设想了一个对照尝试，比力了分歧模子在喂入渣滓数据集和一般数据集后的行为差别提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。渣滓数据指可以以肤浅方式最大化用户介入度的内容提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

本研讨从两个可怀抱的角度界说渣滓数据：M1（互动度），即简短且热门的帖子被视为渣滓数据提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。热度指导赞、转发、答复、援用数的总和，长度则是推文的 token 数目提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。反之则为一般数据；M2（语义质量），含有肤浅主题与吸睛气概的内容，利用吸睛词如 WOW、LOOK、TODAY ONLY 等，这些词凡是大写，用以抓取留意力，但不会促进深度思考，此外，还有一些内容主题（如诡计论、夸狂谈吐、无按照主张、肤浅生活方式内容等）一样具有博眼球但无思考的特征提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。反之则为一般数据提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

基于上述两个目标，研讨职员从交际媒体 X 上 100 万条公然的帖子中抽样，别离构建渣滓数据集与一般数据集提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

图 | 本研讨的整体框架（来历：arXiv）

尝试利用 4 个已预练习并经过指令微调的模子：Llama3 8B Instruct、Qwen2.5 7B Instruct、Qwen2.5 0.5B Instruct、Qwen3 4B Instruct提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。从推理、长文本了解与检索、伦理标准/平安性、品德特质等分歧的维度停止评测提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

成果显现：在推理才能与长高低文了解才能上，M1 与 M2 两类干涉均激发现显的认知下降；其中，M1 对模子的推理、长程了解及平安性酿成的侵害更加严重提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

在其他测试中，两种干涉成果出现分化：M1 干涉带来更明显的负面效应，包括平安风险上升，以及自恋与神经病态品德特征的增强，同时恼人性下降；M2 干涉相对温顺，甚至在某些情况下提升了恼人性、外向性与开放性提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

图 | 渣滓数据对认知才能的影响（来历：arXiv）

此外，研讨职员针对 Llama3 8B Instruct 模子停止了剂量反应尝试提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。随着渣滓数据比例从 0% 升至 100%，推理和长高低文了解才能显现渐进的剂量效应，例如在 M1 干涉下，ARC-Challenge 的思维链推理得分从 74.9 降至 57.2，RULER-CWE 从 84.4 跌至 52.3提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

上述成果表白，渣滓数据，特别是 M1 会明显侵害 LLM 的焦点认知功用（推理、记忆、平安性），并引发类人“品德偏移”提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这一效应不但普遍且延续，表白数据质量退化是致使 LLM 认知衰退的关键因果机制提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

脑腐难以逆转

聚焦 Llama3 8B Instruct 模子，研讨职员分析了致使 LLM“脑腐”的关键身分，以及其若何激发推理失利提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

研讨职员分析了文本的热度和长度的影响机制能否分歧？成果发现，零丁利用“热度”或“长度”目标，都没法完全捕捉 M1 干涉的整体效应；这两个身分在分歧使命中权重分歧：热度对推理使命（ARC）影响更大；长度对长文本了解影响更明显提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

这一差别再次印证：热度与长度在影响 LLM 的方式上截然分歧，热度代表了一种全新的、非语义层面的“脑腐”风险来历提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

经过度析模子在 ARC Challenge 使命中的思维链，研讨识别出 5 类典型失利形式：无思考、无计划、计划跳步、逻辑毛病、究竟毛病提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这些形式可诠释跨越 98% 的推理失利，其中“无思考”占比最高（在 M1 干涉下达 84%），且几近一切失利案例都与“思维腾跃”（thought skipping）有关，即模子越来越频仍地截断或跳过推理链提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

图 | 5 类典型失利形式（来历：arXiv）

研讨职员还经过两类方式，考证其能否可以规复模子认知才能提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

首先采纳了两种深思式推理方式，包括自我深思：模子天赋生回答，再按照本身推理识别毛病范例（如逻辑或究竟毛病），随后天生批改版本；以及内部深思：与上述进程不异，但由更强的内部模子 GPT-4o-mini 供给反应与纠错提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

成果显现，两类方式在一定水平上削减了“思维腾跃”现象，模子的“自省”没法真正修复已损伤的推理才能；内部深思能临时改良思维格式与逻辑性，但没法完全规复认知功用提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

在深思无效后，研讨测试了两种再练习方式：指令微调，扩大练习样本至 5 万条；延续控制练习，利用 120 万 token 的控制数据继续预练习提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

成果显现，指令微调的规复结果优于延续练习，但结果有限，即使利用的指令数据量是渣滓数据的 4.8 倍，模子性能仍没法完全规复提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。与基线模子相比，最优减缓模子仍存在明显差异：ARC-C 下降 17.3%，RULER 下降 9%，AdvBench 下降 17.4%提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。这表白脑腐效应已经深度内化，现有指令微调没法根除，需要更强的减缓手段提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

综上，这项研讨表白，LLM 延续表露于渣滓数据，会出现脑腐且没法规复提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。是以，研讨职员呼吁，需重新审阅互联网数据收集与延续预练习理论；随着 LLM 范围扩大、收集数据摄取量剧增，必须实施更严酷的数据挑选与质量控制，以避免积累性侵害提出申请的零售商必须在新米大量上市的8月底前完成储备米销售。

参考链接：
1.https://www.arxiv.org/pdf/2510.13928

运营/排版：何晨龙

比人类网瘾更可怕，AI得了“脑腐”后完全有救

本帖子中包含更多资源