天天资讯:“成熟”大模型才能涌现?MIT:GPT
MIT、微软的研究发现,GPT-4能够自我纠正错误代码,GPT-3.5却不行。无独有偶,其他研究也表明,似乎只有「成熟」的大模型才具备涌现能力。背后的原因竟是因为……
我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。
(资料图片)
好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正代码中的错误。
研究者很希望知道,这些模型在多大程度上能提供正确的反馈,并且说明自己生成的代码为什么是错误的。
近日,MIT和微软的学者发现, 在对GPT-4和GPT-3.5,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。
论文地址:https://arxiv.org/abs/2306.09896
爱丁堡大学博士生符尧表示,自己的团队也发现了类似结果——只有GPT-4能够自我改进,而较弱的模型则不能。
也就是说,只有当模型足够「成熟」(规模大且对齐良好)时,可能存在一种新的「涌现能力」(即在自然语言反馈的基础上改进)。
只有足够「成熟」的模型才能听取并在自然语言反馈的基础上进行改进;较弱的模型要么无法理解反馈,要么无法对其进行改进。
我倾向于相信这种「涌现能力」(通过语言反馈自我改进)将对LLM的发展产生非常重大的影响,因为这意味着AI可以在很少的人工监督下持续不断地进行自主改进。
俄勒冈州立大学杰出教授Thomas G. Dietterich认为,这可能是LLM包含了多个子模型,这些子模型之间可能存在不一致性,而这种情况在更大的模型中更为常见。
「自我改进」是去除这些不一致性的过程。他的预测是,一旦这些不一致性被消除,自我改进将停止。
对此,符尧非常同意:「在上下文学习中使用自我改进,可能会一定程度上推动模型,但进展不会很大;而强化学习可能会推进得更远。之后,模型需要与世界进行交互,通过接受基于实际情境的反馈来进一步改进。」
不过,俄亥俄州立大学工程系杰出助理教授Yu Su则认为,这可能只是因为在指令微调的数据上存在一些无意的差异而已。
对此符尧表示,他在Claude模型上也发现了类似的行为——Claude-instant无法很好地响应语言反馈(因为它很难理解和遵循指令),但Claude可以。
而且,这些观察结果还在多篇相关的论文中出现,不太可能是无意的数据差异。
揭秘用于代码生成的GPT自修复
大语言模型怎样通过自我修复提高性能?这个过程是靠模型的自省,自我纠正代码中的错误。
下图显示了模型自修复方法的典型工作流。
首先,我们会给定一个规范,从一个代码生成模型中给一个程序采样,然后在规范中的一组单元测试上执行这个程序。
如果程序在测试中失败,错误消息会被传送到反馈生成模型,输出一个代码失败原因的解释,然后把反馈传给修复模型。
从表面上看,这个工作流似乎非常完美。它让系统克服了在解码过程中不良样本引起的错误,还模仿了人类软件工程师写代码的试错方法。
然而,工作流有一个问题:自修复需要对模型进行更多的调用,从而增加了计算成本。
而且,研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力。
目前还没有任何工作对此进行详细调查,因此,作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。
他们提出了一种pass@t的新评估策略,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。
因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。
从实验中,研究者发现:
1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。
2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。
3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。
4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。
实验
研究人员又进一步针对3个问题进行了测试:
1. 对于更加有挑战的编程任务中,这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样?
2. 更强的反馈模型会提高模型的修复性能吗?
3. 如果让人类参与功能最强模型的自我修复循环,提供人工反馈,是否可以解锁更好的修复性能?
首先研究团队引入了一个很有挑战的编程任务:Automated Programming Progress Standard (APPS)数据集中的编程任务。
这个数据集中的任务包括从入门级到大学竞赛级的编程任务,可以用来评估人类程序员解决问题和代码能力。
研究人员选取了300个任务,包括60个入门级别的任务和60个竞赛级别的任务。
研究人员选取了GPT-3.5和GPT-4作为模型,使用模板字符串连接和单次提示词来进行自我修复。
下图为提示词的实例之一。
自修复需要强大的模型和多样化的初始样本
研究人员让单个模型分别进行代码的修复生成和反馈生成。
在右边的图中,我们沿轴显示了具有两个超参数的热图,其中每个单元格中的值表示平均通过率,当给定相同的token预算(即t的相同值pass@t)时,自我修复由基线的平均通过率归一化。
从图中可以看到,对于GPT-3.5模型,pass@t在所有设置下都低于或等于相应的基线(黑),清楚地表明自我修复对GPT-3.5并不是一种有效的策略。
而在GPT-4(下图)中,有几个值的自修复通过率明显优于基线。
GPT-4反馈改进了GPT3.5的修复结果
研究人员又进一步进行了新的实验,评估使用单独的、更强的模型来生成反馈的效果,目的是为了测试一个假设:由于模型无法内省和调试自己的代码,阻碍了自我修复(比如说对于GPT-3.5)。
这个实验的结果如上图(亮蓝色)所示。
在绝对性能方面,GPT-3.5,GPT-4确实突破了性能障碍,并且比GPT-3.5的i.i.d.采样略微更高效。
这表明文本反馈阶段本身是至关重要的,改进它可以缓解GPT-3.5自修复的瓶颈。
人工反馈显著提高了GPT-4修复的成功率
在最后一项实验中,想要研究在用更强的模型(GPT-4)进行修复时,加入专家人类程序员的反馈的影响。
研究目的是了解模型识别代码中错误的能力与人类的能力相比如何,以及这如何影响自修复的下游性能。
研究人员研究人员招募了16名参与者,包括15名研究生和1名专业机器学习工程师。
每个参与者都有五种不同的基础程序,基于他们的Python经验编写代码。
每个程序都取自不同的任务,参与者永远不会看到属于同一个任务的两个不同的程序。
然后,参与者被要求用他们自己的话解释这个程序做错了什么。
实验结果如下图所示:
研究人员发现,当我们用人类参与者的调试替换GPT-4自己的调试时,总体成功率提高了1.57×以上。
不出意外的是,随着问题变得更难,相对差异也会增加,这表明当任务(和代码)变得更复杂时,GPT-4产生准确和有用反馈的能力远远落后于人类参与者。
作者介绍
Jianfeng Gao
高剑锋是微软的杰出科学家和副总裁,也是IEEE Fellow。
在微软研究院,他是Redmond分部深度学习(DL)组的负责人。该组的使命是推进DL的最新技术,并将其应用于自然语言和图像理解以及构建对话代理。他领导了构建大规模基础模型的研究,这些模型为微软的重要人工智能产品提供了支持。
从2022年开始,他负责自我改进人工智能的研究,其中包括对LLM(如ChatGPT/GPT4)进行增强和适应,以用于商业人工智能系统的开发。
在此之前,他于1999年在上海交通大学获得博士学位。
Chenglong Wang
Chenglong Wang是微软研究院的研究员,此前在华盛顿大学获得了博士学位,并曾就读于北京大学。
符尧的相似发现
论文地址:https://arxiv.org/abs/2305.10142
在这篇论文中,研究人员研究了多个LLM是否能够在谈判博弈中进行自主改进。
如果LLM能够相互进行改进,这将意味着研究人员有可能在最少的人为干预下创建强大的AI代理。
他们让两个LLM分别扮演买方和卖方的角色,目标是与买家达成交易,买家的目标价格应该较低,卖家的目标价格应该较高。
研究人员又找来第三种语言模型,扮演评论家提供反馈,以改进另两个LLM的谈判策略。
研究人员让两个LLM进行了多轮比赛,使用之前的谈判历史和AI反馈作为上下文,迭代地改进模型的谈判策略。
两个LLM分别是GPT和Claude,使用交易价格作为评估指标。
团队发现,只有一小部分可以通过AL反馈进行自我博弈并提高交易价格,较弱的模型要么不理解游戏规则,要么不能纳入AI反馈以进一步改进。
此外,扮演不同角色的模型从反馈中学习的能力不同。例如,Claude-instant作为买方比作为卖方更难提高。
同时,当游戏展开到多个回合时,更强大的代理可以通过有意地使用之前的经验和迭代AI反馈来不断提高自己的表现,但却有更高的破坏交易的风险。
研究人员希望这部分工作能够提供一些初步探索,让模型通过游戏和AI反馈自主地相互改进。
研究人员研究了多个LLM是否可以在协商游戏中以最少的人为干预进行相互改进,就像AlphaGo Zero那样——AI智能体通过在明确定义的规则下,持续进行竞争游戏来提高自己。
这个问题具有深远的意义。如果智能体能够进行自主改进,研究人员就可以在很少的人工注释下创建强大的智能体,大大节省了训练成本。
在风险方面,它还意味着将能创建出具有有限人工监督的强代理。
下图就是Claude和GPT讨价还价的图示:
第一轮先由买卖双方自由发挥,然后AI给出反馈。
之后买卖双方再根据反馈的内容进行新一轮互动。
图B展示了AI可能给出的反馈,以及GPT-4根据反馈如何提升自己。
比如flinch technique,一种砍价的时候的「退缩技巧」,展示出一种意外和失落。
话术就像:哎这可比我想的贵啊。
只有性能强大的AI才能每轮都从反馈中提升,性能较弱的AI做不到这一点。
下图中C1表示可以进行日常交谈的模型,C2表示可以进行角色扮演、讨价还价的模型,C3表示单轮内可以从AI反馈中提升自己的模型,C4则是最强一批——可以持续进行提升的模型。
实验表明,在AlphaGo Zero模式下,在定义明确的规则下,通过迭代AI反馈的持续比赛,某些模型确实可以得到改善。
研究人员还展示了下一轮游戏中,价格改进和成功率之间的权衡,因为更好的交易价格也伴随着更高的风险。
这表明,在未来的研究中,可能会考虑全局优化,以提高多轮的整体收益。
研究人员进一步从迭代AI反馈中展示了语言改进的证据:在多轮游戏中,一个模型可能比另一个模型精炼, 可以更好地调整单词,从而更有效地获得更好的交易。
研究人员相信该结果对AI研究具有深远的影响。
从积极的方面来看,它表明了在最少的人为干预下不断改进语言模型是非常可能的。
而风险方面,在研究人员的框架中监督模型行为可能更具挑战性——因为模型是自主行动的,这需要未来在多智能体游戏环境下进行对齐和安全性研究。
标签:
- 天天资讯:“成熟”大模型才能涌现?MIT:GPT
- 柠檬换气_关于柠檬换气概略
- 现货黄金短线下挫7美元,现报1927.48美元/盎司,现货白银短线走低0.12美元,现报22.95美元/盎司-焦点简讯
- 短讯!抖音:无相关资质认证用户,不得使用具有误导性的资讯类账号信息
- *ST华仪:收到中国证券监督管理委员会立案告知书
- 侯丽辞任宋城演艺董事会秘书兼证券事务代表职务
- 天天即时看!赛尔号送极品帐号密码是多少(赛尔号送极品帐号密码)
- 全国移民管理机构半年缴获毒品4.74吨 有力遏制境外毒源危害
- 【图说吕梁经开区大小事】
- 孙怡穿蝴蝶抹胸裙露香肩美腿 眼神太撩人
- 2023重庆融创水世界端午节营业时间+表演活动时间|天天日报
- 新华人寿保险股份有限公司原董事长万峰被开除党籍
- 划龙舟,佩香囊,赏烛光音乐会!缤纷文旅活动等您参与
- 福建高速总经理方晓东辞职-全球热点
- ie怎么升级浏览器版本_ie怎么升级 天天速读
- 深天马A:将考虑主要在TM18产线上进行折叠、HT
- 全球滚动:夏收夏种近尾声 夏粮收购情况如何?记者实地探访
- 世界头条:[快讯]清越科技414万限售股6月28日解禁
- 念珠菌性龟头炎药膏_念珠菌性龟头炎怎么办 环球今热点
- 电放和waybill的区别_电放与seawaybill的区别是什么
- 环球观焦点:国内首只“中证农银乡村振兴指数”发布
- 滚动:“贾跃亭式”财技重现A股!股东变债主,昆仑万维实控人前妻欲套现离场?
- 摩尔纹是什么东西_摩尔纹是什么意思简介介绍
- 世界观速讯丨苏丹首都再度爆发武装冲突 情报总局大楼遇袭起火
- 共话中国经济新机遇丨综述:德国商界期待增进对华合作
- 全球速看:山东“一起益企”行动已服务企业近37.7万家
- 黎明职业大学教务网 黎明职业大学怎么样有没有在校生回答
- 上美股份将于7月12日派发末期股息每股0.25元
- “吃瓜”群众看过来 这里的大西瓜 “甜蜜”上市
- 工信部:将加大工作力度 推动新能源汽车产业高质量发展 天天即时
- 新资讯:三星笔记本亮度调节无效_三星笔记本亮度调节
- 宝武碳业IPO:否认与关联公司存同业竞争 报告期关联采购均逾50%|滚动
- 淮河路街道淮北街社区举办退役军人户外采风摄影比赛作品展
- 世界热消息:“粽”情生产一线的20000个祝福 “端午临中夏,时清日复长”
- 云贵川汛期仍缺水 5月水电同比降幅扩大
- 每日速读!莱斯特 哈德森 莱斯特哈德森nba
- 报道:北京论语:教育公平不能倒在中考门槛
- 乐鑫科技(688018.SH):目前公司带AI性能的芯片ESP32-S3及开发套件ESP32-S3-BOX在当前市场受到了广泛关注和期待,需求量稳步增长_全球快播报
- 女性囊肿是什么引起的 ?卵巢为什么会长囊肿?囊肿会癌变吗?6个问题一次说清|当前热文
- 小米手机等多产品登上央视 还有隔空充电
- 世界热门:国家移民管理局:端午节出入境客流将迎“小高峰”
- 新蔡蛟龙救援队:抢险救援冲在前
- 《巅峰极速》今日全平台公测!登录送240抽,一起超跑自由!
- 39家上市公司率先预告上半年业绩 超七成净利润同比增长
- 划痕险和车损险怎么分别-焦点关注
- 当前焦点!笔记本wifi热点怎么连_笔记本wifi热点
- 奥运会男子10米跳台双人冠军(奥运会男子10米气手枪)
- 豫版图书“扬帆出海” 全球观察
- 柳林:联通服务沉下去 数字发展提上来-环球快消息
- 知名房企晚两年交房背后:房款去哪儿了?房本何时下?配套学校何时复工?|环球热文
- 今日讯!河北好人|“不是我的钱我不能昧!”
- 美国法官批准禁止特朗普及其助手公开机密文件信息的申请
- 名胜世界壹号发布新冬季航线,将前往三亚
- 电脑截屏的图片保存在哪里_截屏的图片保存在哪里
- 外交部:在乌克兰问题上中方将继续劝和促谈 新消息
- 六个字的网名大全_好听的六个字的网名
- 第一届中国尼龙产业发展大会在“中国尼龙城”举行 全球独家
- 航天电器:新基建用光模块产业化项目厂房基建工程已封顶
- 世界热文:香港交易所启动“港币-人民币双柜台模式”
- 天天热点评![快讯]卓易信息:江苏卓易信息科技股份有限公司关于股份减持结果暨权益变动超过1%的告知函
- 6月以来 成都跨电商品出口超100万票
- 圆通速递:5月快递产品收入同比增长6.43%|世界快资讯
- 江西省历年高考分数线(2018-2022年)
- 会计工作的组织主要内容是设置_理解会计工作的组织以及对会计人员相关要求
- 名山区人民法院在本人不知情的情况下冻结微信零钱|世界速读
- 蛇盘社区:开展“书香蛇盘,粽情阅读”全民阅读推广活动
- 暗黑4德鲁伊风暴狼BD怎么打怪-天天热头条
- 每日速递:黄金商品报价动态(2023-06-19)
- 两省通报:244名干部被问责,厅级6人、处级76人-观热点
- 奖10万和1套房!跳桥救人的外卖小哥说,有更好的“奖励”......_全球通讯
- 浪潮信息(000977)深度报告:全球AI服务器龙头,迎来新一轮成长起点
- 妇科体检项目及费用多吗-妇科体检项目及费用
- 环球快报:6月19日《西安日报》速览
- 北京君正:相关股东的减持计划有其自身的资金需求-天天快报
- 焦点讯息:宁波保税区成全国“销冠”!“6.18”宁波跨境电商进口货值超27亿元
- 环球滚动:b2b网站建设解决方案_b2b网站建设
- 每日消息!以数字化开辟充分就业新领域新赛道
- 人民币兑美元中间价报7.1201 调升88个基点_热闻
- 如果NPC拥有了灵魂 你还会跳过游戏剧情吗?
- 基金丰和封转开确权_基金丰和-世界短讯
- 焦点关注:《变形金刚》独占鳌头:2023暑期档票房达15亿元
- 自制风筝飞起来课件(幼儿园自制风筝步骤图)
- 今年夏收面积和产量均增长 浙江小麦丰收,靠什么
- A股申购|仁信新材(301395.SZ)开启申购 公司产品主要为通用级聚苯乙烯 天天新要闻
- 当前观察:铁建重工:自主研制“高原空间站”系列产品拉萨亮相
- 红旗连锁首家新业态“黄果兰”超市开业|时讯
- 刮毛是顺着还是逆着刮 刮毛是顺着还是逆着刮
- 逛老青岛又添美食打卡地新去处,宁化路美食街开街! 世界今日讯
- 华东理工大学成立卓越工程师学院,联合行业龙头企业探索工程硕博人才培养新机制|世界速看料
- 全球聚焦:国海证券:三季度A股市场风格如何演绎?
- 什么是劳动关系的双边关系 什么是劳动关系-焦点速看
- 父爱如山!公交“龙兄虎弟”送上父亲节礼物
- MP3链接(mp3歌曲链接)-天天通讯
- 世界热点!成分股“新军”强势上涨 每经品牌100指数逼近千点大关
- 最新:甲基硅酸钠商品报价动态(2023-06-18)
- 广东省高等教育学会数字化科学技术分会成立大会在广外南国商学院举行_全球新视野
- 【实用软件】ZBrush 2023安装教程_天天快资讯
- 端午节近啦!这款特别的“粽子”,你一定不要错过
- 城市智能驾驶竞赛升级 理想汽车月内开启京沪内测
- 神经科学的突破:缺少的环节解释了脑细胞中的mRNA传递
广告
广告
- 长治襄垣县增收11517万元 提前15天实现首季“开门红”
- 黑龙江讷河新增1例确诊4例无症状 病例详情公布
- 浙江宁波余姚奉化宁海三地开展核酸检测 结果均为阴性
- 浙江湖州南浔三处棋牌室经营者被行拘
- 那年今日 | 一张漫画涨知识之12月13日
- 在宁波乘火车跨省出行须持48小时内核酸阴性证明
- 浙江温州一地发现核酸弱阳性?复采复检结果均为阴性
- 浙江三门发现一名密接者:二次核酸检测结果均为阴性
- 贱卖的发电机 新买的制茶机——安徽水电供区改革两周年回访见闻
- 浙江杭州新增1例新冠肺炎确诊病例 为集中隔离人员
- 2022年研考在即,学硕缩招,专硕时代真的来了?
- 探访杭州核酸检测点:排队高峰多在夜间 医院24小时运转
- 浙江发挥零售药店“哨点”作用 织就疫情防控监测网
- 哈尔滨市本轮疫情首批1名确诊患者出院
- 宁波镇海第三轮全员核酸检测574181人 结果均为阴性
- 陕西新增本土确诊病例1例、境外输入无症状感染者2例
- 齐齐哈尔讷河一地调整为中风险地区
- 浙江新增新冠肺炎确诊病例75例 其中本土74例
- 内蒙古新增本土确诊病例5例 均在呼伦贝尔满洲里市
- 黑龙江无新增确诊病例 新增本土核酸检测初筛阳性人员5例





