GPT现状终于有人讲清楚了!还得是马斯克钦点的天才_全球速递
继Windows Copilot发布后,微软Build大会热度又被一场演讲引爆。
(资料图)
前特斯拉AI总监Andrej Karpathy在演讲中认为思维树(tree of thoughts)与AlphaGo的蒙特卡洛树搜索(MCTS)有异曲同工之妙!
网友高呼:这是关于如何使用大语言模型和GPT-4模型的最详尽有趣的指南!
此外Karpathy透露,由于训练和数据的扩展,LLAMA 65B“明显比GPT-3 175B更强大”,并介绍了大模型匿名竞技场ChatBot Arena:
Claude得分介于ChatGPT 3.5和ChatGPT 4之间。
网友表示,Karpathy的演讲一向很棒,而这次的内容也一如既往没有令大家失望。
随着演讲而爆火的,还有推特网友根据演讲整理的一份笔记,足足有31条,目前转赞量已超过3000+:
所以,这段备受关注的演讲,具体提到了哪些内容呢?
如何训练GPT助手?
Karpathy这次的演讲主要分为两个部分。
第一部分,他讲了如何训练一个“GPT助手”。
Karpathy主要讲述了AI助手的四个训练阶段:预训练(pre-training)、监督微调(supervised fine tuning)、奖励建模(reward modeling)和强化学习(reinforcement learning)。
每一个阶段都需要一个数据集。
在预训练阶段,需要动用大量的计算资源,收集大量的数据集。在大量无监督的数据集上训练出一个基础模型。
Karpathy用了更多例子作补充:
接下来进入微调阶段。
使用较小的有监督数据集,通过监督学习对这个基础模型进行微调,就能创建一个能够回答问题的助手模型。
他还展示了一些模型的进化过程,相信很多人之前已经看过上面这张“进化树”的图了。
Karpathy认为目前最好的开源模型是Meta的LLaMA系列(因为OpenAI没有开源任何关于GPT-4的内容)。
在这里需要明确指出的是,基础模型不是助手模型。
虽然基础模型可以回答问题,但它所给出的回答并不可靠,可用于回答问题的是助手模型。在基础模型上进行训练的助手模型,通过监督微调,在生成回复和理解文本结构方面的表现将优于基础模型。
在训练语言模型时,强化学习是另一个关键的过程。
通过用人工标记的高质量的数据进行训练,可以使用奖励建模来创建一个损失函数,以改善其性能。然后,通过增加正向的标记,并降低负面标记的概率,来进行强化训练。
而在具有创造性的任务中,利用人类的判断力对于改进AI模型至关重要,加入人类的反馈可以更有效地训练模型。
经过人类反馈的强化学习后,就可以得到一个RLHF模型了。
模型训练好了,接下来就是如何有效利用这些模型解决问题了。
如何更好地使用模型?
在第二部分,Karpathy主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。
Karpathy又给出了具体示例来说明:
当我们在写文章时候,我们会进行很多的心理活动,需要考虑自己的表述是否正确。而对于GPT来说,这只是一个序列标记(a sequence of tokens)。
而提示(prompt)可以弥补这种认知差异。
Karpathy进一步解释了思维链提示的工作方式。
对于推理问题,要想让自然语言处理中Transformer的表现更好,需要让它一步一步地处理信息,而不能直接抛给它一个非常复杂的问题。
如果你给它几个例子,它会模仿这个例子的模版,最终生成的结果会更好。
模型只能按照它的序列来回答问题,如果它生成的内容是错误的,你可以进行提示,让它重新生成。
如果你不要求它检查,它自己是不会检查的。
这就涉及到了System1和System2的问题。
诺贝尔经济学奖得主丹尼尔卡尼曼在《思考快与慢》中提出,人的认知系统包含System1和System2两个子系统。System1主要靠直觉,而System2是逻辑分析系统。
通俗来说,System1是一个快速自动生成的过程,而System2是经过深思熟虑的部分。
这在最近一篇挺火的论文“Tree of thought”(思维树)中也有被提及。
深思熟虑指的是,不是简单的给出问题的答案,而更像是与Python胶水代码一起使用的prompt,将许多prompt串联在一起。模型必须要维护多个提示,还必须要执行一些树搜索算法,来找出要扩展的提示。
Karpathy认为这种思路与AlphaGo非常相似:
AlphaGo在下围棋时,需要考虑下一枚棋子下在哪里。最初它是靠模仿人类来学习的。
但除此之外,它还进行了蒙特卡洛树搜索,可以得到具有多种可能性的策略。它可以对多种可能的下法进行评估,仅保留那些较好的策略。我认为这在某种程度上相当于AlphaGo。
对此,Karpathy还提到了AutoGPT:
我认为目前它的效果还不是很好,我不建议大家进行实际应用。我只是认为,随着时间的推移,我们或许可以从它的发展思路中汲取灵感。
其次,还有一个小妙招是检索增强生成(retrieval agumented generation)和有效提示。
窗口上下文的内容就是transformers在运行时的记忆(working memory),如果你可以将与任务相关的信息加入到上下文中,那么它的表现就会非常好,因为它可以立即访问这些信息。
简而言之,就是可以为相关数据建立索引让模型可以高效访问。
如果Transformers也有可参考的主要文件,它的表现会更好。
最后,Karpathy简单讲了一下在大语言模型中的约束提示(Constraint prompting)和微调。可以通过约束提示和微调来改进大语言模型。约束提示在大语言模型的输出中强制执行模板,而微调则调整模型的权重以提高性能。
我建议在低风险的应用中使用大语言模型,始终将它们与人工监督相结合,将它们看作是灵感和建议的来源,考虑copilots而不是让它们完全自主代理。
关于Andrej Karpathy
Andrej Karpathy博士毕业后的第一份工作,是在OpenAI研究计算机视觉。
后来OpenAI联合创始人之一的马斯克看上了Karpathy,把人挖到了特斯拉。但也因为这件事,马斯克和OpenAI彻底闹翻,最后还被踢出局。在特斯拉,Karpathy是Autopilot、FSD等项目的负责人。
今年二月份,在离开特斯拉7个月后,Karpathy再次加入了OpenAI。
最近他发推特表示,目前对开源大语言模型生态系统的发展饶有兴趣,有点像早期寒武纪爆发的迹象。
传送门:
[1]https://www.youtube.com/watch?v=xO73EUwSegU(演讲视频)
[2]https://arxiv.org/pdf/2305.10601.pdf(“Treeof thought”论文)
标签:
推荐
- GPT现状终于有人讲清楚了!还得是马斯克钦点的天才_全球速递
- 老白干酒:库存与前两年相比更加合理-实时
- 奥比岛红宝石交易记录_奥比岛红宝石永久真号
- 天天快资讯丨一周医美资讯热点汇总(2023.5.29)
- 5月29日 11:16分 遥望科技(002291)股价快速拉升_环球热点
- 今头条!41岁结婚生子,44岁与田亮对簿公堂离婚,被前夫痛骂同性恋的她怎么样了
- 首届海峡两岸传统诗词交流大会在高平启动
- 三亚举办“六一”文艺汇演活动 秀出缤纷才艺 展现少儿风采_动态焦点
- 芯原股份上涨6.9%,科创芯片ETF华安(588290)上涨1.46%,冲击4连阳|快消息
- 洋山港冠东码头开港15年 吞吐量突破一亿标准箱 世界快看
- PlayStation发表会被指令人失望 SIE CEO做出回应
- 大名城:5月26日获融资买入807.46万元
- 沈阳理工大学图书馆_关于沈阳理工大学图书馆的介绍
- 数说中国|4月份工业生产继续恢复 企业利润降幅继续收窄_快消息
- 灰白与破碎的七彩玻璃_关于灰白与破碎的七彩玻璃介绍 世界简讯
- 焦点!滕哈赫:本场要为主场纪录而战,加纳乔下一个目标是成为首发球员
- 小米智能手机怎么取电池(小米老年人智能手机)-今日热讯
- 养猪还能赚钱吗?_全球速看
- 浙江72岁命案犯罪嫌疑人落网,村民:有路人老奶奶呼救遭一同杀害-环球新要闻
- 天天热推荐:白带常规检查多少钱_白带检查多少钱一次
- 五峰土家族自治县气象台发布大雾黄色预警【III级/较重】【2023-05-28】
- 震惊!董事长操纵自家股票,雇人拉高出货!盈利4800万,诡辩“市值管理”!证监会出手:罚没9600万!_看点
- 37℃,今天杭州创下最高气温历史同期第一!明天预计会更热
- 崔家坝:运用《民法典》成功化解邻里纠纷-环球信息
- 四川省造价师协会官网-四川省造价站官网 世界消息
- 环球热头条丨环境保护部令第39号(国家环境保护总局公告2007年第91号)
- 我国科技成果转化规模显著提升 环球新要闻
- 热讯:融合“硬科幻”和“爆笑梗”《天宫少年》献礼儿童节
- 后鼻韵母都有啥(后鼻韵母有哪几个简介介绍) 环球今热点
- 【世界报资讯】剧场变共创空间,让灵感落地
- 有一说一 | 是进化还是妥协? 从全新君越聊聊中高级轿车现状
- 天天速递!被猫抓伤怎么办_一定要做好以下工作
- 2年6750万?曝湖人无意为拉塞尔提供顶薪:三大选择解决控卫问题 焦点报道
- 5月13日黔西南州最新疫情消息通知
- 京东618低价购物狂潮
- 郑希怡电视剧大全_郑希怡电视剧_环球微动态
- 庄严服饰 - 和服插画特辑 2023.05.21-时讯
- 全球实时:台湾纳入美核保护?帅化民:吴钊燮空穴来风
- 天天讯息:青少年学太极的好处_太极的好处
- 人类一败涂地 60万年薪的高级工作可被AI取代:成本只要2000多
- 6打头的是什么股票(688打头的股票是什么股票) 天天即时看
- 江苏常熟:“湿”意盎然 展立体山水画卷|世界热资讯
- 行走江苏湿地城市|走进“湿”意常熟,感受诗意之美
- 全国学生资助管理中心2023年第1号预警:警惕“培训贷”陷阱 每日消息
- 快资讯:婴儿快速退烧的小妙招_婴儿多少度算发烧
- 丈夫长期喝酒打牌,妻子忍无可忍跪别婆婆:“这样的老公我不要”-世界新要闻
- 国家统计局解读:4月份工业企业利润降幅继续收窄 下阶段要着力恢复和扩大需求 每日看点
- 国内外85所知名高校齐聚郑州西亚斯学院 共话未来书院的发展与变革-焦点热讯
- 【天天热闻】2进1出,欧冠豪门重建,被巴萨重创太无奈!挖曼城硬核,皇马担忧
- 天天即时看!东海证券董秘袁忠未披露其硕士毕业院校 不久前公司被证监会立案
- 财通证券给予今世缘增持评级:稳步推进 决胜百亿
- 【智利海隆以西海域发生5.9级地震】据美国地质调查局地震信息网消息,北京时间27日06时18分25秒,智利海隆以西海域发生5.9级地震,震源深度为10.0公里。震中初步确定在南纬39.0293度和西经91.4284度。
- 这么好的存款产品你竟然不知道
- 食品流通许可证在哪里办理_焦点热闻
- 今日快讯:现货成交转好,郑棉承压下行
- 环球热文:宁为玉碎不为瓦全是成语吗(宁为玉碎不为瓦全的意思)
- 世界播报:雷克萨斯最高时速是多少公里_雷克萨斯最高时速是多少?
- 暗访高铁潮汕站:有黑车坐地起价,部分出租车拒载_天天精选
- 清炖蟹粉狮子头、冰糖扒蹄、百花酒焖肉三道大厨菜谱教给你们
- 穿越时空的少女_穿越时空的少女国语版|今热点
- 喝豆浆对女人有什么好处_喝豆浆对女人有哪些好处|全球即时
- 【大敦煌·绝色】四月八:敦煌莫高窟数万人欢度浴佛节
- 富信科技收到客户已启动ABCs(为债权人利益之转让)程序通知
- 巨湾技研毛文峰:XFC极速电池技术-探索与实践-环球报道
- 折旧摊销属于什么费用 折旧摊销-环球今亮点
- 天天视讯!减价加量?除了这,宋Pro DM-i冠军版还有哪些亮点?
- 北京地铁10号线线路图时刻表_北京地铁10号线线路图|每日头条
- 《机甲战魔》系列新作《机甲战魔:Titanic Scion》公开
- 到底怎么做好经营分析?
- 走进时庄遗址 探访4000年前“粮仓城” 文化旅游 全球速看料
- 800只人工繁育绿海龟在惠集中放流 刷新国内相关纪录_焦点速递
- 热点在线丨海沧区秋季小学招生入学办法(户籍片区招生)
- 天天百事通!2023年养老金上涨3.8%,同样是5000元,湖南和浙江上涨会一样吗?
- 环球今日讯!阿里拆云,下一个是谁?
- 泽库县气象台发布雷电黄色预警信号 【2023-05-25】 天天热闻
- 秦怡宁被骗到上界,石昊归来横扫三教,云曦定情信物再次出现
- 环球热消息:利好英镑!英国4月通胀超预期,投行上调加息预期
- 全球热议:二甲苯厂家_二甲苯青
- 婴儿房间可以点蚊香吗_婴儿房
- 环球热资讯!押注美债违约,美国短期国库券收益率升至7%,CDS合约比垃圾债还贵
- 二头六七爆今期开什么生肖_今期开什么生肖
- 2023浙江温州市鹿城区蒲鞋市街道招聘编外人员公告
- 沈阳外国语学校升学率_沈阳外国语学校_简讯
- 环球观点:又大又圆类似的词语_又大又圆类似的词语有哪些
- 南阳市卧龙区潦河坡镇:稻花田中农耕忙 共圆禾下乘“粮”梦|资讯推荐
- 志愿服务助文明 清洁卫生美环境 播报
- 胆固醇偏高吃的食物(胆固醇高吃13种食物好优质) 世界看热讯
- 天天热点评!佳发教育:公司控股股东、实际控制人袁斌解除质押1346万股
- 全球新消息丨登康口腔: 关于2023年度董事、监事、高级管理人员薪酬的公告
- 创新养老服务模式 为居家养老提供“北京方案” 环球最资讯
- 【世界新视野】杨枝甘露是什么_杨枝甘露为什么叫杨枝甘露
- 瞄准安全应急产业发展方向 重庆科技学院服务国家安全战略大局
- 山西运城市两级检察院党支部联合开展主题党日活动
- 全球热点评!失业了找不到工作!可以尝试这三个副业兼职,或许给你新的方向
- 《崩坏星穹铁道》幸运与不幸的选择攻略
- 全球热头条丨珠峰生态环境不断向好
- 全球关注:杭州小伙路边抓鸽子感染凶险真菌,若不及时诊治病死率较高
- cad怎么复制到另一个cad(怎么把cad图复制到另一个cad)
- 京东618不玩“套路” 让利消费者助力经济发展
- 【世界热闻】编钟乐舞实力“圈粉” 荆楚浪漫于斯为盛
X 关闭
行业规章
X 关闭