清华大学发布大模型性能报告 :GPT-4 第一,文心一言更懂中文
2023-08-10 15:29:47 来源:IT之家
(资料图片仅供参考)
IT 之家 8 月 10 日消息,近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》(下文简称 " 报告 "),报告显示总得分率 GPT-4 第一,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。
据了解,报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。在生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率 76.98%,仅次于 GPT-4,领先于包括 ChatGPT 在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首。
IT 之家注意到,在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率 78.18%,与 GPT-4 并列排名第一。关键词:
相关阅读
-
清华大学发布大模型性能报告 :GPT-4 ...
IT之家8月10日消息,近日,清华大学新闻与传播学院教授、博士生导师沈 -
沙特阿拉伯修订膳食补充剂分类注册规定
2023年8月3日,沙特阿拉伯食药品局发布88736号通告,修订膳食补充剂分 -
高纬度冻土区交通基础设施长期性能黑龙...
8月6日高纬度冻土区交通基础设施长期性能黑龙江省野外科学观测研究站合 -
金宝:8.10黄金1928上空完美下跌13,日内26下空
黄金:昨天整体如预期呈现下跌,亚盘修正,欧盘出现弱多被坑空单小亏损 -
娇娇跟谁在一起了(娇娇与晶晶简介)
HELLO,我是智能手机网小溪,我来为大家解答以上问题。娇娇跟谁在一起 -
【深度报道】寻禹·探源全媒体系列报道...
寻禹·探源全媒体系列报道第13期二里头遗址篇(下)二里头遗址的“... -
英力股份(300956.SZ):拟将部分募投项目...
格隆汇8月9日丨英力股份(300956 SZ)公布,公司于2023年8月9日召开了第 -
汝州100MW风电项目首台风机吊装完成
北极星风力发电网讯,8月4日,汝州100兆瓦风电项目首台风机顺利吊装完 -
蚌埠空天智造产业园开工建设
8月8日,中国·蚌埠空天智造产业园在蚌埠市禹会区启动建设。该产业... -
8月10日内蒙地区萤石市场行情暂稳
8月10日内蒙地区萤石市场行情价格暂稳,目前97%萤石粉湿粉出厂含税价格 -
儿童歌舞剧《红星照我去战斗》在北京市...
近日,由西城区文化馆推出的原创儿童歌舞剧《红星照我去战斗》在北京市 -
多方参与筑幸福!宝山这个社区迎来新面貌
如何高效管理楼道乱堆物?小区多处设施年久失修怎么办?如何让社区服务 -
新一代深远海风电安装平台“中天31”交付
8月8日,新一代深远海1600吨风电安装平台“中天31”命名暨交付仪式... -
塔里木油田抢占超深油气技术创新制高点
塔里木油田抢占超深油气技术创新制高点,8月7日,塔里木油田2023年勘探 -
好公司巴菲特其实也会“卖”
大家都知道巴菲特投资苹果赚了很多钱,苹果在过去很长一段时间也成为了 -
法媒:内马尔要求离队 已收到沙特3亿欧...
巴黎在不断补强阵容,先后敲定了登贝莱和贡萨洛-拉莫斯,但巴黎同样面 -
上半年全球电动车销量榜:比亚迪市占率超20%
上半年全球电动车销量榜:比亚迪市占率超20% -
「权游8」重磅开播!这些细节值得细细回...
席恩和雅拉重逢,他将她救出攸伦的魔爪,她给他自由,让席恩前往北境, -
“绿色”采购助力节能降碳
近日,国网重庆市电力公司2023年第四次服务竞争性谈判采购发布采购公告 -
如何与财会监督贯通协作?山东省审计厅...
8月9日,山东省政府新闻办举行新闻发布会,发布了《关于进一步加强财会