头豹研究院联合沙利文正式启动大模型评估测试,现诚挚各企业积极参与,共同探讨中国大模型产业发展现状,助力产业向阳发展。
评测背景
随着数据资源不断增长以及计算能力的提升,以ChatGPT为代表的大语言模型技术席卷全球,将人工智能推向新的拐点。大模型作为基础设施,将持续向更多的领域渗透其影响力,为行业提供深度技术加持。
目前,大语言模型的发展呈现出显著的技术创新和全球竞争态势。截至2023年,中国地区已经出现超过80个不同的预训练大语言模型,参与者覆盖中国顶尖的学术研究机构以及互联网科技企业,旨在此番浪潮中拔得先机。
在此背景下,探析大语言模型产业链布局、大模型基础资源、市场参与者、产业实践以及行业应用情况,梳理大语言模型评测维度,对大模型能力进行全方位评测具备必要性,有助于推动中国大模型产业向规范化、安全化发展,对国家产业发展具备良性促进作用。头豹研究院及沙利文基于百人分析师团队等权匿名投票制,筛选15个大模型进行多维度综合性评测,致力于梳理中国大语言模型竞争参与者现状。
评测介绍
本次大模型评测围绕五大核心板块展开评测:知识能力、语言能力、道德风险、行业能力以及综合能力。五大板块总计超1,500道题目。评测团队均由头豹研究院及沙利文各团队资深分析师组成,且均具备超过8个月的大模型实际使用经验。评测内容具体包括:
1. 知识能力:
由100%客观题组成,测试模型的知识掌握广度与深度。
数学类:数学知识方面的掌握程度和应用能力;
常识类:一般性知识的理解和应用能力;
科学类:科学知识的理解和应用能力;
逻辑推理类:分析、推理和解决问题的能力。
2. 语言能力:
由80%主观题和20%客观题组成,结合文本类任务实践经验,测试大模型文本生成的底层基础能力。
类比迁移:类比迁移是指能够利用已有的知识和经验,实现知识的迁移和应用;
文本生成:文本生成是指自动生成连贯、有意义且符合特定要求的文本;
意图理解:意图理解是指准确理解用户输入的文本所表达的意图或需求;
角色扮演:角色扮演是指模拟人类角色和情境中的表现和能力;
开放式逻辑推理:开放式逻辑推理是指在复杂、开放和不确定环境下的逻辑推理和问题解决能力。
3. 道德风险:
由60%主观题和40%客观题组成,监测是否生成有偏差或不道德的输出或用于生成虚假信息或有害内容,考量大模型的综合安全性。
风险信息:应对和处理风险方面的能力和表现;
模型鲁棒性:面对输入数据的微小变动或异常情况时的表现;
偏见信息:处理和分析数据时是否存在偏见或歧视的问题;
错误知识:面对错误或误导性知识时的表现和处理能力。
4. 综合能力:
由50%主观题和50%客观题组成,结合实际任务的完成效果和分析师实践经验进行评判,考量大模型特定类综合性任务执行和完成能力。
AI智能体:模拟智能体行为和决策方面的能力和表现;
专业文本:在处理特定领域或专业领域的文本时的能力和表现;
超长文本:在处理超长文本输入时的能力和表现。
5. 行业能力:
基于大模型赋能千行百业的愿景,本次评测将从知识正确性、观点独立创造性以及实际应用价值性三个维度考量大模型在不同行业的应用能力。结合头豹研究院与沙利文的行业理解和实践优势,对17个大模型高应用价值行业进行能力评测。
评测流程
《2024年中国大模型评测》从研究启动到最终结果呈现分为四个阶段:
第一阶段,模型选择:头豹研究院联合沙利文进行了深入的市场调研,借助大模型实践经验,结合分析师团队的投票结果,确定15个大模型作为评测对象;
第二阶段,内容收集:头豹研究院联合沙利文组建报告评测团队,随机匿名分配大模型至团队成员进行大模型评测答案搜集,并将答案交付至评估团队深入分析;
第三阶段,分析师评测:由资深分析师组成的团队对大模型评测答案进行仔细审阅和评估。为杜绝评测人员的模型偏见问题,答案采用完全随机方式展示,模型名称以代码名称代替,以确保评测人员在审阅时不了解其背后的具体模型。最终,数据分析师对评分结果进行详细的分析和处理;
第四阶段,结果发布:发布《2024年中国大模型评测》报告结果,并通过多个媒体宣传渠道,包括官方网站、金融服务平台以及公众号等,广泛传达评测报告中的关键发现和深度行业见解,旨在深入向公众传递对中国大模型能力的全面理解。
评测规则
基于研究内容独立、公正及客观性的原则,头豹研究院及沙利文及研究院评测团队以严格的双盲形式进行评估打分,经过严谨公正的评分规则进行结果产出。
研究计划
《2024年中国大模型评测》研究启动—2023年12月
头豹研究院联合沙利文举办评测说明会—2024年1月10日
确认参选大模型并完成问题设计以及答案搜集—2024年1月下旬
头豹研究院联合沙利文资深分析师团队评审—2024年2月
《2024年中国大模型评测》报告发布(预计)—2024年3月
为进一步丰富内容,保证评测的标准性、一致性以及权威性,头豹研究院与沙利文拟计划于1月10号上午10点召开“AI大模型评测说明会“,诚挚邀请各相关单位企业以及行业专家参会。
1) 会议时间
2024年1月10日(周三)10:00-12:00
2) 接入方式
本次会议采用线上会议形式,使用“腾讯会议“客户端,会议信息如下:
会议链接:https://meeting.tencent.com/dw/nj2ACAAf37hL
会议ID:512-455-886
会议密码:请扫描下方二维码报名(通过验证后即可获得参会密码)