关闭广告

7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题

智东西11360人阅读


智东西
作者 徐珊
编辑 云鹏

智东西3月11日消息,近日微软和俄亥俄州立大学的研究人员发布论文,提出了一种受到生物启发的可以增强大语言模型使用工具能力的方法,即模拟试错(STE)法,并将其开源。

该方法协调了试错、想象和记忆三个关键机制。具体而言,STE通过大模型的“想象力”来模拟使用工具的一些合理场景,从而尝试适配不同的大模型,随后从新的反馈中,获得反馈不断优化。

ToolBench实验结果显示,STE在上下文学习和微调设置下显著提高了大语言模型的工具学习能力,让Mistral-Instruct-7B实现了46.7%的性能提升,使其成绩超过了GPT-4。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赵丽颖直播太实诚,被问儿子暖还是羊绒暖,赵丽颖果断选择儿子

扒虾侃娱 浏览 1006

戴尔科技集团发布2024财年ESG报告 重申ESG2025目标

网易科技报道 浏览 10615

没钱也要发奖金?FF宣布员工激励计划:奖励现金或股权

手机中国 浏览 14271

于正曝张檬已取出整容假体:整个人洋溢着自信光芒

网易娱乐 浏览 15128

隐形大佬入主3年后,紫光集团怎样了?

华商韬略 浏览 987

中联部部长:中国不会另起炉灶 再搞一套所谓新秩序

环球网资讯 浏览 75064

特斯拉Cybertruck雨刮器像"巨型湿面条",功率高达1KW

IT之家 浏览 12631

辛芷蕾拿影后是 “靠运作”?央视都看不下去,为她发声真解气!

娱乐圈笔娱君 浏览 676

巩俐红毯上气场全开的秘诀 竟是泰勒“玩剩的”?

想法 浏览 17369

冬天避开花花绿绿!试试低饱和度的搭配 简约高级耐看

静儿时尚达人 浏览 13377

新质生产力“可感可及”,华强北机器人展演月“硬核度”爆表

南方都市报 浏览 1470

将主持《浪姐4》?李湘回应:不去 感谢湖南卫视

网易娱乐 浏览 19681

百度官宣“文心一言”云服务将于3月27日上线

Tech星球 浏览 19470

马斯克:下周将在X平台上直播特斯拉FSD驾驶系统V12版本

IT之家 浏览 14268

提升冬日幸福感的8件小事,放松又治愈

LinkFashion 浏览 529

以高官“鼓励加沙巴勒斯坦人迁移”引争议

环球网资讯 浏览 12844

50岁的女人想显气质少穿卫衣,推荐你试试这3款上衣,更时髦

静儿时尚达人 浏览 11612

德云社张鹤伦凌雾天唱歌,好惬意

细语 浏览 975

友宝在线的青年危机

斑马消费 浏览 14542

ChatGPT只讲这25个笑话!幽默是人类最后的尊严

量子位 浏览 16359

采用中置双出排气,新款长安UNI-V申报图曝光

天天汽车 浏览 12314
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1