年度评测 | 2024年中国大模型评测正式启动-头豹科创网

年度评测 | 2024年中国大模型评测正式启动

343

纠错

头豹研究院联合沙利文正式启动大模型评估测试，现诚挚各企业积极参与，共同探讨中国大模型产业发展现状，助力产业向阳发展。

评测背景

随着数据资源不断增长以及计算能力的提升，以ChatGPT为代表的大语言模型技术席卷全球，将人工智能推向新的拐点。大模型作为基础设施，将持续向更多的领域渗透其影响力，为行业提供深度技术加持。

目前，大语言模型的发展呈现出显著的技术创新和全球竞争态势。截至2023年，中国地区已经出现超过80个不同的预训练大语言模型，参与者覆盖中国顶尖的学术研究机构以及互联网科技企业，旨在此番浪潮中拔得先机。

在此背景下，探析大语言模型产业链布局、大模型基础资源、市场参与者、产业实践以及行业应用情况，梳理大语言模型评测维度，对大模型能力进行全方位评测具备必要性，有助于推动中国大模型产业向规范化、安全化发展，对国家产业发展具备良性促进作用。头豹研究院及沙利文基于百人分析师团队等权匿名投票制，筛选15个大模型进行多维度综合性评测，致力于梳理中国大语言模型竞争参与者现状。

评测介绍

本次大模型评测围绕五大核心板块展开评测：知识能力、语言能力、道德风险、行业能力以及综合能力。五大板块总计超1,500道题目。评测团队均由头豹研究院及沙利文各团队资深分析师组成，且均具备超过8个月的大模型实际使用经验。评测内容具体包括：

1. 知识能力：

由100%客观题组成，测试模型的知识掌握广度与深度。

数学类：数学知识方面的掌握程度和应用能力；

常识类：一般性知识的理解和应用能力；

科学类：科学知识的理解和应用能力；

逻辑推理类：分析、推理和解决问题的能力。

2. 语言能力：

由80%主观题和20%客观题组成，结合文本类任务实践经验，测试大模型文本生成的底层基础能力。

类比迁移：类比迁移是指能够利用已有的知识和经验，实现知识的迁移和应用；

文本生成：文本生成是指自动生成连贯、有意义且符合特定要求的文本；

意图理解：意图理解是指准确理解用户输入的文本所表达的意图或需求；

角色扮演：角色扮演是指模拟人类角色和情境中的表现和能力；

开放式逻辑推理：开放式逻辑推理是指在复杂、开放和不确定环境下的逻辑推理和问题解决能力。

3. 道德风险：

由60%主观题和40%客观题组成，监测是否生成有偏差或不道德的输出或用于生成虚假信息或有害内容，考量大模型的综合安全性。

风险信息：应对和处理风险方面的能力和表现；

模型鲁棒性：面对输入数据的微小变动或异常情况时的表现；

偏见信息：处理和分析数据时是否存在偏见或歧视的问题；

错误知识：面对错误或误导性知识时的表现和处理能力。

4. 综合能力：

由50%主观题和50%客观题组成，结合实际任务的完成效果和分析师实践经验进行评判，考量大模型特定类综合性任务执行和完成能力。

AI智能体：模拟智能体行为和决策方面的能力和表现；

专业文本：在处理特定领域或专业领域的文本时的能力和表现；

超长文本：在处理超长文本输入时的能力和表现。

5. 行业能力：

基于大模型赋能千行百业的愿景，本次评测将从知识正确性、观点独立创造性以及实际应用价值性三个维度考量大模型在不同行业的应用能力。结合头豹研究院与沙利文的行业理解和实践优势，对17个大模型高应用价值行业进行能力评测。

评测流程

《2024年中国大模型评测》从研究启动到最终结果呈现分为四个阶段：

第一阶段，模型选择：头豹研究院联合沙利文进行了深入的市场调研，借助大模型实践经验，结合分析师团队的投票结果，确定15个大模型作为评测对象；

第二阶段，内容收集：头豹研究院联合沙利文组建报告评测团队，随机匿名分配大模型至团队成员进行大模型评测答案搜集，并将答案交付至评估团队深入分析；

第三阶段，分析师评测：由资深分析师组成的团队对大模型评测答案进行仔细审阅和评估。为杜绝评测人员的模型偏见问题，答案采用完全随机方式展示，模型名称以代码名称代替，以确保评测人员在审阅时不了解其背后的具体模型。最终，数据分析师对评分结果进行详细的分析和处理；

第四阶段，结果发布：发布《2024年中国大模型评测》报告结果，并通过多个媒体宣传渠道，包括官方网站、金融服务平台以及公众号等，广泛传达评测报告中的关键发现和深度行业见解，旨在深入向公众传递对中国大模型能力的全面理解。

评测规则

基于研究内容独立、公正及客观性的原则，头豹研究院及沙利文及研究院评测团队以严格的双盲形式进行评估打分，经过严谨公正的评分规则进行结果产出。

研究计划

《2024年中国大模型评测》研究启动—2023年12月

头豹研究院联合沙利文举办评测说明会—2024年1月10日

确认参选大模型并完成问题设计以及答案搜集—2024年1月下旬

头豹研究院联合沙利文资深分析师团队评审—2024年2月

《2024年中国大模型评测》报告发布（预计）—2024年3月

为进一步丰富内容，保证评测的标准性、一致性以及权威性，头豹研究院与沙利文拟计划于1月10号上午10点召开“AI大模型评测说明会“，诚挚邀请各相关单位企业以及行业专家参会。

1) 会议时间

2024年1月10日（周三）10：00-12：00

2) 接入方式

本次会议采用线上会议形式，使用“腾讯会议“客户端，会议信息如下：

会议链接：https://meeting.tencent.com/dw/nj2ACAAf37hL

会议ID：512-455-886

会议密码：请扫描下方二维码报名（通过验证后即可获得参会密码）

点击收藏

本报告著作权归头豹所有，未经书面许可，任何机构或个人不得以任何形式翻版、复刻、发表或引用。若征得头豹同意进行引用、刊发的，需在允许的范围内使用，并注明出处为“头豹研究院”，且不得对本报告进行任何有悖原意的引用、删节或修改。
本报告分析师具有专业研究能力，保证报告数据均来自合法合规渠道，观点产出及数据分析基于分析师对行业的客观理解，本报告不受任何第三方授意或影响。
本报告所涉及的观点或信息仅供参考，不构成任何证券或基金投资建议或其他决策建议。本报告仅在相关法律许可的情况下发放，并仅为提供信息而发放，概不构成任何广告或证券研究报告。在法律许可的情况下，头豹可能会为报告中提及的企业提供或争取提供投融资或咨询等相关服务。
本报告的部分信息来源于公开资料，头豹对该等信息的准确性、完整性或可靠性不做任何保证。本报告所载的资料、意见及推测仅反映头豹于发布本报告当日的判断，过往报告中的描述不应作为日后的表现依据。在不同时期，头豹可发出与本报告所载资料、意见及推测不一致的报告或文章。头豹均不保证本报告所含信息保持在最新状态。同时，头豹对本报告所含信息可在不发出通知的情形下做出修改，读者应当自行关注相应的更新或修改。任何机构或个人应对其利用本报告的数据、分析、研究、部分或者全部内容所进行的一切活动负责并承担该等活动所导致的任何损失或伤害。

年度评测 | 2024年中国大模型评测正式启动

年度评测 | 2024年中国大模型评测正式启动

提示信息