关闭广告

7B大模型测试成绩超GPT-4！微软新研究解决工具调用难题

智东西11360人阅读

智东西
作者徐珊
编辑云鹏

智东西3月11日消息，近日微软和俄亥俄州立大学的研究人员发布论文，提出了一种受到生物启发的可以增强大语言模型使用工具能力的方法，即模拟试错（STE）法，并将其开源。

该方法协调了试错、想象和记忆三个关键机制。具体而言，STE通过大模型的“想象力”来模拟使用工具的一些合理场景，从而尝试适配不同的大模型，随后从新的反馈中，获得反馈不断优化。

ToolBench实验结果显示，STE在上下文学习和微调设置下显著提高了大语言模型的工具学习能力，让Mistral-Instruct-7B实现了46.7%的性能提升，使其成绩超过了GPT-4。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

赵丽颖直播太实诚，被问儿子暖还是羊绒暖，赵丽颖果断选择儿子

扒虾侃娱浏览 1006

戴尔科技集团发布2024财年ESG报告重申ESG2025目标

网易科技报道浏览 10615

没钱也要发奖金？FF宣布员工激励计划：奖励现金或股权

手机中国浏览 14271

于正曝张檬已取出整容假体：整个人洋溢着自信光芒

网易娱乐浏览 15128

隐形大佬入主3年后，紫光集团怎样了？

华商韬略浏览 987

中联部部长：中国不会另起炉灶再搞一套所谓新秩序

环球网资讯浏览 75064

特斯拉Cybertruck雨刮器像＂巨型湿面条＂，功率高达1KW

IT之家浏览 12631

辛芷蕾拿影后是 “靠运作”？央视都看不下去，为她发声真解气！

娱乐圈笔娱君浏览 676

巩俐红毯上气场全开的秘诀竟是泰勒“玩剩的”？

想法浏览 17369

冬天避开花花绿绿！试试低饱和度的搭配简约高级耐看

静儿时尚达人浏览 13377

新质生产力“可感可及”，华强北机器人展演月“硬核度”爆表

南方都市报浏览 1470

将主持《浪姐4》？李湘回应：不去感谢湖南卫视

网易娱乐浏览 19681

百度官宣“文心一言”云服务将于3月27日上线

Tech星球浏览 19470

马斯克：下周将在X平台上直播特斯拉FSD驾驶系统V12版本

IT之家浏览 14268

提升冬日幸福感的8件小事，放松又治愈

LinkFashion 浏览 529

以高官“鼓励加沙巴勒斯坦人迁移”引争议

环球网资讯浏览 12844

50岁的女人想显气质少穿卫衣，推荐你试试这3款上衣，更时髦

静儿时尚达人浏览 11612

德云社张鹤伦凌雾天唱歌，好惬意

细语浏览 975

友宝在线的青年危机

斑马消费浏览 14542

ChatGPT只讲这25个笑话！幽默是人类最后的尊严

量子位浏览 16359

采用中置双出排气，新款长安UNI-V申报图曝光

天天汽车浏览 12314

7B大模型测试成绩超GPT-4！微软新研究解决工具调用难题

财务报告存在...

受好莱坞罢工...

对中国经济，...

普通人还是更...

初三男生杀害...

美军舰穿航台...

美国前财长对＂去美元化＂焦虑：美国正失去全球影响力

超300倍就清零！超高位科技股突然暴跌，中芯国际重挫7%

海外品牌瑟瑟发抖？乘联会：新能源汽车出口预计高增长

赵丽颖直播太实诚，被问儿子暖还是羊绒暖，赵丽颖果断选择儿子

戴尔科技集团发布2024财年ESG报告重申ESG2025目标

没钱也要发奖金？FF宣布员工激励计划：奖励现金或股权

于正曝张檬已取出整容假体：整个人洋溢着自信光芒

隐形大佬入主3年后，紫光集团怎样了？

中联部部长：中国不会另起炉灶再搞一套所谓新秩序

特斯拉Cybertruck雨刮器像＂巨型湿面条＂，功率高达1KW

辛芷蕾拿影后是 “靠运作”？央视都看不下去，为她发声真解气！

巩俐红毯上气场全开的秘诀竟是泰勒“玩剩的”？

冬天避开花花绿绿！试试低饱和度的搭配简约高级耐看

新质生产力“可感可及”，华强北机器人展演月“硬核度”爆表

将主持《浪姐4》？李湘回应：不去感谢湖南卫视

百度官宣“文心一言”云服务将于3月27日上线

马斯克：下周将在X平台上直播特斯拉FSD驾驶系统V12版本

提升冬日幸福感的8件小事，放松又治愈

以高官“鼓励加沙巴勒斯坦人迁移”引争议

50岁的女人想显气质少穿卫衣，推荐你试试这3款上衣，更时髦

德云社张鹤伦凌雾天唱歌，好惬意

友宝在线的青年危机

ChatGPT只讲这25个笑话！幽默是人类最后的尊严

采用中置双出排气，新款长安UNI-V申报图曝光

7B大模型测试成绩超GPT-4！微软新研究解决工具调用难题

财务报告存在...

受好莱坞罢工...

对中国经济，...

普通人还是更...

初三男生杀害...

美军舰穿航台...

美国前财长对＂去美元化＂焦虑：美国正失去全球影响力

超300倍就清零！超高位科技股突然暴跌，中芯国际重挫7%

海外品牌瑟瑟发抖？乘联会：新能源汽车出口预计高增长

赵丽颖直播太实诚，被问儿子暖还是羊绒暖，赵丽颖果断选择儿子

戴尔科技集团发布2024财年ESG报告 重申ESG2025目标

没钱也要发奖金？FF宣布员工激励计划：奖励现金或股权

于正曝张檬已取出整容假体：整个人洋溢着自信光芒

隐形大佬入主3年后，紫光集团怎样了？

中联部部长：中国不会另起炉灶 再搞一套所谓新秩序

特斯拉Cybertruck雨刮器像＂巨型湿面条＂，功率高达1KW

辛芷蕾拿影后是 “靠运作”？央视都看不下去，为她发声真解气！

巩俐红毯上气场全开的秘诀 竟是泰勒“玩剩的”？

冬天避开花花绿绿！试试低饱和度的搭配 简约高级耐看

新质生产力“可感可及”，华强北机器人展演月“硬核度”爆表

将主持《浪姐4》？李湘回应：不去 感谢湖南卫视

百度官宣“文心一言”云服务将于3月27日上线

马斯克：下周将在X平台上直播特斯拉FSD驾驶系统V12版本

提升冬日幸福感的8件小事，放松又治愈

以高官“鼓励加沙巴勒斯坦人迁移”引争议

50岁的女人想显气质少穿卫衣，推荐你试试这3款上衣，更时髦

德云社张鹤伦凌雾天唱歌，好惬意

友宝在线的青年危机

ChatGPT只讲这25个笑话！幽默是人类最后的尊严

采用中置双出排气，新款长安UNI-V申报图曝光

戴尔科技集团发布2024财年ESG报告重申ESG2025目标

中联部部长：中国不会另起炉灶再搞一套所谓新秩序

巩俐红毯上气场全开的秘诀竟是泰勒“玩剩的”？

冬天避开花花绿绿！试试低饱和度的搭配简约高级耐看

将主持《浪姐4》？李湘回应：不去感谢湖南卫视