您的位置：首页 >首页栏目 > 企业 >

世界微资讯！GPT-5将死于GPT-4背刺？牛津剑桥研究警告：AI训AI成「剧毒」，会让模型崩溃！

来源：创业邦时间：2023-06-17 06:17:02

最差的人类语料，也要胜过AI生成的文本。

随着GPT-4、Stable Diffusion和Midjourney的爆火，越来越多的人开始在工作和生活中引入生成式AI技术。

甚至，有人已经开始尝试用AI生成的数据来训练AI了。难道，这就是传说中的「数据永动机」？

(资料图)

然而，来自牛津、剑桥、帝国理工等机构研究人员发现，如果在训练时大量使用AI内容，会引发模型崩溃（model collapse），造成不可逆的缺陷。

也就是，随着时间推移，模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下，这个情况也无法避免。

因此研究人员呼吁，如果想要继续保持大规模数据带来的模型优越性，就必须认真对待人类自己写出来的文本。

论文地址：https://arxiv.org/abs/2305.17493v2

但现在的问题在于——你以为的「人类数据」，可能并不是「人类」写的。

洛桑联邦理工学院（EPFL）的最新研究称，预估33%-46%的人类数据都是由AI生成的。

训练数据，都是「垃圾」

毫无疑问，现在的大语言模型已经进化出了相当强大的能力，比如GPT-4可以在某些场景下生成与人类别无二致的文本。

但这背后的一个重要原因是，它们的训练数据大部分来源于过去几十年人类在互联网上的交流。

如果未来的语言模型仍然依赖于从网络上爬取数据的话，就不可避免地要在训练集中引入自己生成的文本。

对此，研究人员预测，等GPT发展到第n代的时候，模型将会出现严重的崩溃问题。

那么，在这种不可避免会抓取到LLM生成内容的情况下，为模型的训练准备由人类生产的真实数据，就变得尤为重要了。

大名鼎鼎的亚马逊数据众包平台Mechanical Turk（MTurk）从2005年启动时就已经成为许多人的副业选择。

科研人员可以发布各种琐碎的人类智能任务，比如给图像标注、调查等，应有尽有。

而这些任务通常是计算机和算法无法处理的，甚至，MTurk成为一些预算不够的科研人员和公司的「最佳选择」。

就连贝佐斯还将MTurk的众包工人戏称为「人工人工智能」。

除了MTurk，包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心，能够提供创建、标注和总结各种数据的方法，以便进行调查和实验。

然而，来自EPFL的研究发现，在这个人类数据的关键来源上，有近乎一半的数据都是标注员用AI创建的。

论文地址：https://arxiv.org/abs/2306.07899v1

模型崩溃

而最开始提到的「模型崩溃」，就是在给模型投喂了太多来自AI的数据之后，带来的能够影响多代的退化。

也就是，新一代模型的训练数据会被上一代模型的生成数据所污染，从而对现实世界的感知产生错误的理解。

更进一步，这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题，尤其是如果生成AI随着时间的推移学会在其响应中只生成某个种族，而「忘记」其他种族的存在。

而且，除了大语言模型，模型崩溃还会出现在变分自编码器（VAE）、高斯混合模型上。

需要注意的是，模型崩溃的过程与灾难性遗忘（catastrophic forgetting）不同，模型不会忘记以前学过的数据，而是开始把模型的错误想法曲解为现实，并且还会强化自己对错误想法的信念。

举个例子，比如模型在一个包含100张猫图片的数据集上进行训练，其中有10张蓝毛猫，90张黄毛猫。

模型学到的结论是，黄毛猫更普遍，同时会倾向于把蓝毛猫想象的比实际更偏黄，所以在被要求生成新数据时可能会返回一些类似绿毛猫的结果。

而随着时间的推移，蓝毛的原始特征在多个训练epoch中逐渐被侵蚀，直接从蓝色变成了绿色，最终再演变为黄色，这种渐进的扭曲和丢失少数特征的现象就是模型崩溃。

具体来说，模型崩溃可以分为两种情况：

1. 早期模型崩溃（early model collapse），模型开始丢失有关分布尾部的信息；

2. 后期模型崩溃（late model collapse），模型与原始分布的不同模式纠缠在一起，并收敛到一个与原始分布几乎没有相似之处的分布，往往方差也会非常小。

与此同时，研究人员也总结出了造成模型崩溃的两个主要原因：

其中，在更多的时候，我们会得到一种级联效应，即单个不准确的组合会导致整体误差的增加。

1. 统计近似误差（Statistical approximation error）

在重采样的每一步中，信息中非零概率都可能会丢失，导致出现统计近似误差，当样本数量趋于无限会逐渐消失，该误差是导致模型崩溃的主要原因。

2. 函数近似误差（Functional approximation error）

该误差主要源于模型中的函数近似器表达能力不足，或者有时在原始分布支持之外的表达能力太强。

众所周知，神经网络在极限情况下是通用的函数近似器，但实际上这种假设并不总是成立的，特别是神经网络可以在原始分布的支持范围之外引入非零似然。

举个简单例子，如果我们试图用一个高斯分布来拟合两个高斯的混合分布，即使模型具有关于数据分布的完美信息，模型误差也是不可避免的。

需要注意的是，在没有统计误差的情况下，函数近似误差只会发生在第一代，一旦新的分布能被函数近似器描述出来，就会在各代模型中保持完全相同的分布。

可以说，模型强大的近似能力是一把双刃剑：其表达能力可能会抵消统计噪声，从而更好地拟合真实分布，但同样也会使噪声复杂化。

对此，论文共同一作Ilia Shumailov表示：「生成数据中的错误会累积，最终迫使从生成数据中学习的模型进一步错误地理解现实。而且模型崩溃发生得非常快，模型会迅速忘记最初学习的大部分原始数据。」

解决方法

好在，研究人员发现，我们还是有办法来避免模型崩溃的。

第一种方法是保留原始的、完全或名义上由人类生成的数据集的高质量副本，并避免与AI生成的数据混合，然后定期使用这些数据对模型进行重新训练，或者完全从头训练一遍模型。

第二种避免回复质量下降并减少AI模型中的错误或重复的方法是将全新的、干净的、由人类生成的数据集重新引入训练中。

为了防止模型崩溃，开发者需要确保原始数据中的少数派在后续数据集中得到公正的表征。

数据需要仔细备份，并覆盖所有可能的边界情况；在评估模型的性能时，需要考虑到模型将要处理的数据，甚至是最不可信的数据。

随后，当重新训练模型时，还需要确保同时包括旧数据和新数据，虽然会增加训练的成本，但至少在某种程度上有助于缓解模型崩溃。

不过，这些方法必须要内容制作者或AI公司采取某种大规模的标记机制，来区分AI生成的内容和人类生成的内容。

目前，有一些开箱即用的解决方案，比如GPTZero，OpenAI Detector，或Writer在简单的文本上工作得很好。

然而，在一些特殊的文本中，这些方法并不能有效执行。比如，在EPFL研究中有ChatGPT合成的10个总结，而GPTZero只检测到6个是合成的。

对此，研究人员通过微调自己的模型来检测AI的使用，发现ChatGPT在编写本文时是最常用的LLM。

对于构建的检测AI数据的方法，研究人员利用原始研究中的答案和用ChatGPT合成的数据，训练了一个定制的「合成-真实分类器」。

然后用这个分类器来估计重新进行的任务中合成答案的普遍性。

具体来讲，研究人员首先使用真正由人类撰写的MTurk回应，和合成LLM生成的回应，来训练特定任务的「合成-真实分类器」。

其次，将这个分类器用于MTurk的真实回应（其中众包人可能使用，也可能没有依赖LLM），以估计LLM使用的普遍性。

最后，研究者确认了结果的有效性，在事后比较分析击键数据与MTurk的回应。

实验结果显示，这个模型在正确识别人工智能文本方面高达99%的准确率。

此外，研究人员用击键数据验证了结果，发现：

- 完全在MTurk文本框中写的总结（不太可能是合成的）都被归类为真实的；

- 在粘贴的总结中，提取式总结和LLM的使用有明显区别。

具体来讲，人工智能生成的文本通常与原始总结几乎没有相似之处。这表明AI模型正在生成新文本，而不是复制和粘贴原始内容的一部分。

「人类数据」很重要

现在，人们普遍担心LLM将塑造人类的「信息生态系统」，也就是说，在线可获得的大部分信息都是由LLM生成的。

使用综合生成数据训练的LLM的性能明显降低，就像Ilia Shumailov所称会让模型患上「痴呆症」。

而这个问题将会变得更加严重，因为随着LLM的普及，众包工作者们已经广泛使用ChatGPT等各种LLM。

但对于人类内容创作者来说，这是一个好消息，提高工作效率的同时，还赚到了钱。

但是，若想挽救LLM不陷于崩溃的边缘，还是需要真实的「人类数据」。

1. 人类数据在科学中仍然是至关重要的

2. 在合成数据上训练模型可能会带来偏见和意识形态永久化

3. 随着模型变得流行和更好/多模态，采用率只会增加

总的来说，由人类生成的原始数据可以更好地表示世界，虽然也可能包含某些劣质、概率较低的数据；而生成式模型往往只会过度拟合流行数据，并对概率更低的数据产生误解。

那么，在充斥着生成式AI工具和相关内容的未来，人类制作的内容或许会比今天更有价值，尤其是作为AI原始训练数据的来源。

参考资料：

https://arxiv.org/abs/2306.07899v1

https://arxiv.org/abs/2305.17493v2

本文（含图片）为合作媒体授权创业邦转载，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

标签：

热门资讯

【天天聚看点】天马行空挥洒创意！《狂想乐园》今日上市！ 万代南梦宫娱乐与LimbicEntertainm...
61城房价回到1年前天津、长春和哈尔滨新房二手房全下降-热推荐 二手房价格走势弱于新房价格。近日...
茂名个人社保最低一个月缴费多少钱茂名市个人社保缴费标准2023|世界通讯 社保多少钱一个月？个人交社保大概...
范家村_关于范家村的简介世界通讯 音频解说1、范家村辖有范家沟、蒋...

观察

图片新闻

[路演] 天康生物：公司正积极布局食品加工业务已推出七大系列三十多个单品-全球即时 天康生物（002100）6月16日在全景...
篮协召开媒体日！姚明亲承艾伦因伤病被弃，李凯尔仍在路上！全球头条 篮协召开媒体日！姚明亲承艾伦因伤...
朱珠北京上课被拍，素颜独坐在最后一排，配合同学拍照超亲和 6月16日，演员朱珠登上热搜，原因...
助力建设全球研发中心城市，湖南湘江圣湘生物产业基金落户长沙当前信息 6月16日，湖南湘江圣湘生物产业基...

精彩新闻

北京开展97家养老服务机构服务质量星级评定及抽查-当前关注 6月16日，北京商报记者从北京市民...
环球播报:“守住钱袋子·护好幸福家” 邵阳农商银行开展防范非法集资集中宣传活动 “守住钱袋子·护好幸福家”邵阳农...
抖音成为杭州亚运会持权转播商环球速递 【环球网科技综合报道】6月14日，...
抢下商标仍说不造车，华为究竟需要一个怎样的问界？ 抢下商标仍说不造车，华为究竟需要...
当前速递！湖北秭归：屈原故里赶制粽子迎端午 湖北秭归：屈原故里赶制粽子迎端午...
如何助力退役军人就业成都这场发布会干货十足世界百事通 如何助力退役军人就业成都这场发布...
红薯怎么做才好吃家常做法大全 关于红薯怎么做才好吃家常做法大全...
魔兽世界怀旧服正义之手哪里出_反击磁石和正义之手-全球观点 1、武器战士正义之手比黑手饰物好...
《梦幻新诛仙》2周年联手多位重磅嘉宾，跨界联手样样精彩世界观点 周年庆作为每款游戏一年里最重磅的...
张莉莉个人资料图片_张莉莉环球快播 1、演员张莉莉影视作品：1992《团...
离开北京之前，阿根廷将帅都说了什么？_微头条 阿根廷主教练斯卡洛尼在比赛中若有...
videoboy杂志怎么下载_videoboy|微资讯 1、能下杂志么？？？没听说过╮(╯...
华泰证券旗下华泰国际财务发行一笔中期票据，发行金额为2630万美元 ... 2023年6月16日，华泰证券(601688 ...
全球速看：我国首次开展舱外辐射生物学暴露实验 央视网消息（新闻联播）：空间站梦...
天天快资讯：投资商们为何将眼光聚焦在长沙雨花区这十大片区？ 解读新商业的财经新媒体,报道资本...
又传头部券商降薪！下调投行员工固定薪酬降幅超5000元？券业降薪为何频频刷屏？ 券商降薪传闻再度刷屏。今日，头部...
国家发改委：将抓紧出台恢复和扩大消费的政策文件积极推动国家骨干冷链物流基地建设 6月16日，国家发改委举行6月例行新...
【世界独家】指纹模块_指纹模 1、买打卡指纹膜犯法。2、像这种情...
氢氧化钠和硫酸铜反应_氢氧化钠和硫酸铜 1、氢氧化钠与硫酸铜反应的现象是...
黑兔年属兔人穿什么颜色黑兔年属兔人穿什么颜色衣服|世界短讯 红色。黑兔年是属兔人的本命年，运...
独角兽概念股龙头股有哪些_独角兽概念股什么意思焦点热讯 1、独角兽概念股的兴起，缘于2018...
今夜雨再来！闷热、潮湿、多雨“三聚头”，梅雨或开始动真格 据国家气候中心预计：6月18日前后...
韩剧tv时间表在哪里？韩剧tv找到时间表的方法 你们是不是也喜欢使用韩剧tv软件呢...
天水市医保局张勤学一行在甘谷开展参保扩面专题调研活动 为推动城乡居民基本医疗保险参保扩...
余承东：比亚迪是少数能活下来的巨头之一小公司造不了车 快科技6月16日消息，2023未来汽车...
每日报道：wind10开机黑屏好长时间才正常-win10开机黑屏很久才进入桌面 1、原因是独立显卡冲突造成的，关...
天天热头条丨药械化专展亮相哈洽会推动黑龙江医药产业高质量创新发展 多彩贵州网讯（本网记者赵野平）“...
全球看点：最新！比尔盖茨回复黄晓明 6月16日，在@盖茨基金会发布的视频...
阿里巴巴全球数学竞赛决赛即将开启 电商报快讯：6月16日消息，2023阿...
【天天新要闻】6分钟连进两球！国足终于打疯了，队长破僵局，艾克森巧妙助攻 比赛开始后，国足连续形成威胁攻势...
六枝特区气象台继续发布雷电黄色预警信号【Ⅲ/较重】【2023-06-16】 六枝特区气象台2023年6月16日21时5...
[路演]广汇能源：23Q1 LNG外销量同比增长98.46% 正在部署斋桑油田勘探井建设工作_环球讯息 6月16日下午，广汇能源（600256 S...
成都人才公寓怎么申请？（附申请指南） 成都人才公寓申请入口：点击进入一...
浙江首票内河运费扣减落地湖州新举措助力企业新发展_重点聚焦 n轮船在缓缓靠港　严德龙　摄...
吸血的虫有哪些_吸血的虫有哪些种类 每到夏天，除了天气炎热，最让大家...
天天速递！无惧好莱坞编剧大罢工《毒液3》定档2024年秋季 1905电影网讯虽然编剧大罢工尚在进...
洛阳钼业(03993)为其他全资子公司合计提供总额预计不超11亿元的担保-每日讯息 洛阳钼业(03993)公布对外担保计划...
辽宁抚顺英烈纪念碑被烈士家属指刻错名字，官方：将从源头核查|全球聚看点 辽宁抚顺英烈纪念碑被烈士家属指刻...
市监总局通报粽子抽检情况，不合格样品均为超范围使用食品添加剂 视觉中国图端午节临近，6月16日，...
【全球时快讯】宁波大学院士团队科研项目乘神舟飞船遨游太空 前不久，在中国酒泉卫星发射中心，...
古浪县气象台发布大风黄色预警信号【2023-06-16】天天即时 古浪县气象台2023年06月16日22时23...
景嘉微：公司JM9系列图形处理芯片尚不能满足ChatGPT等领域的应用需求 App6月16日消息，景嘉微在互动平台...
当前快看：敛财路上集体“翻车” 来源：中央纪委国家监委网站监制：...
2023梅州个人社保缴费标准梅州个人社保一个月要交多少钱？-全球热推荐 社保多少钱一个月？个人交社保大概...
不得向未满8周岁未成年人销售！盲盒经营新规公布 据市场监管总局消息，近日，市场监...
2022我国各省GDP对比，看看你的家乡的发展如何！世界热资讯 2022我国各省GDP对比，看看你的家...
国资委：央企要以上市公司为平台开展并购重组世界关注 日前，国资委召开中央企业提高上市...
《你好，妈妈》：山田洋次“母亲三部曲”迎来最终章每日关注 中国青年报客户端上海6月16日电（...
环球热点评！“流动的咨询台”——崇明海事局开展“安全宣传咨询日”活动 2023年6月16日是我国“安全宣传咨...
世界微资讯！我的世界全自动刷石机怎么做高级_我的世界全自动刷石机怎么做 1、首先准备一桶水和一桶岩浆　　...