提示×
系统公告
panel标题
提示主题内容
关闭验证

人机验证

拖动滑块使图片为正

图片加载中...
刷新验证刷新
客服电话:400-072-5588
|
小程序|公众号|服务号
微信扫一扫 进入头豹小程序头豹小程序

投射阅读

重新获取

微信扫码 关注头豹公众号头豹公众号
微信扫码 关注头豹服务号头豹服务号
文字纠错
欢迎来到
头豹LeadLeo
注册后,开启专业之旅
    6000+独家行研报告
    1,000,000+行研中间件
    涵盖3000+细分赛道
    500,000+自有专家库
    数、图、表一键搜索,
    在线阅读,下载报告
免费扫码注册登录
全站报告畅读
(独家版除外)
服务号二维码
二维码已失效,点击 重新获取
微信扫码 关注公众号立即注册登录
补全个人信息×
完善个人信息即可免费获赠50头豹点
(可用于兑换全站报告、数图表等)
  • 上传名片补全
  • 手动补全

相册选择

图片上传大小不能超过5MB

性别:
行业:
接受通过邮件、短信等形式向我推送优质订阅信息内容
引用授权说明:

本报告或文章可用于微博、微信公众号、新闻网站等一般性转载,或用于企业的公开市场宣传,或用于企业投融资咨询、上市咨询等用途。这些引用可能是免费的,也可能产生额外的授权费用,头豹将根据您的引用需求向报告或文章发布者取得相应授权,并派专人与您进一步联系。

请务必如实填写引用需求并按授权范围使用本报告或文章,如头豹发现您最终的引用目的超出所引用需求相应的授权范围,头豹有权要求您停止引用并就头豹因此遭受的损失追究您相应的法律责任。

分享邮箱:

年度评测 | 2024年中国大模型评测正式启动

收藏

年度评测 | 2024年中国大模型评测正式启动

343
提示
您是否想更快速、便捷地将数据图表直接导入到文档中?使用头豹助手office插件,一键导入,灵活办公,高效开启!
不再提示


 

头豹研究院联合沙利文正式启动大模型评估测试,现诚挚各企业积极参与,共同探讨中国大模型产业发展现状,助力产业向阳发展。

 

评测背景

随着数据资源不断增长以及计算能力的提升,以ChatGPT为代表的大语言模型技术席卷全球,将人工智能推向新的拐点。大模型作为基础设施,将持续向更多的领域渗透其影响力,为行业提供深度技术加持。




目前,大语言模型的发展呈现出显著的技术创新和全球竞争态势。截至2023年,中国地区已经出现超过80个不同的预训练大语言模型,参与者覆盖中国顶尖的学术研究机构以及互联网科技企业,旨在此番浪潮中拔得先机。

 

在此背景下,探析大语言模型产业链布局、大模型基础资源、市场参与者、产业实践以及行业应用情况,梳理大语言模型评测维度,对大模型能力进行全方位评测具备必要性,有助于推动中国大模型产业向规范化、安全化发展,对国家产业发展具备良性促进作用。头豹研究院及沙利文基于百人分析师团队等权匿名投票制,筛选15个大模型进行多维度综合性评测,致力于梳理中国大语言模型竞争参与者现状。

 

评测介绍

 

本次大模型评测围绕五大核心板块展开评测:知识能力、语言能力、道德风险、行业能力以及综合能力。五大板块总计超1,500道题目。评测团队均由头豹研究院及沙利文各团队资深分析师组成,且均具备超过8个月的大模型实际使用经验。评测内容具体包括:

 

1. 知识能力:


由100%客观题组成,测试模型的知识掌握广度与深度。

 

数学类:数学知识方面的掌握程度和应用能力;

 

常识类:一般性知识的理解和应用能力;

 

科学类:科学知识的理解和应用能力;

 

逻辑推理类:分析、推理和解决问题的能力。

 

2. 语言能力:

 

由80%主观题和20%客观题组成,结合文本类任务实践经验,测试大模型文本生成的底层基础能力。

 

类比迁移:类比迁移是指能够利用已有的知识和经验,实现知识的迁移和应用;

 

文本生成:文本生成是指自动生成连贯、有意义且符合特定要求的文本;

 

意图理解:意图理解是指准确理解用户输入的文本所表达的意图或需求;

 

角色扮演:角色扮演是指模拟人类角色和情境中的表现和能力;

 

开放式逻辑推理:开放式逻辑推理是指在复杂、开放和不确定环境下的逻辑推理和问题解决能力。

 

3. 道德风险:

 

由60%主观题和40%客观题组成,监测是否生成有偏差或不道德的输出或用于生成虚假信息或有害内容,考量大模型的综合安全性。

 

风险信息:应对和处理风险方面的能力和表现;

 

模型鲁棒性:面对输入数据的微小变动或异常情况时的表现;

 

偏见信息:处理和分析数据时是否存在偏见或歧视的问题;

 

错误知识:面对错误或误导性知识时的表现和处理能力。

 

4. 综合能力:

 

由50%主观题和50%客观题组成,结合实际任务的完成效果和分析师实践经验进行评判,考量大模型特定类综合性任务执行和完成能力。

 

AI智能体:模拟智能体行为和决策方面的能力和表现;

 

专业文本:在处理特定领域或专业领域的文本时的能力和表现;

 

超长文本:在处理超长文本输入时的能力和表现。

 

5. 行业能力:

 

基于大模型赋能千行百业的愿景,本次评测将从知识正确性、观点独立创造性以及实际应用价值性三个维度考量大模型在不同行业的应用能力。结合头豹研究院与沙利文的行业理解和实践优势,对17个大模型高应用价值行业进行能力评测。

 

评测流程

《2024年中国大模型评测》从研究启动到最终结果呈现分为四个阶段:

 

第一阶段,模型选择:头豹研究院联合沙利文进行了深入的市场调研,借助大模型实践经验,结合分析师团队的投票结果,确定15个大模型作为评测对象;

 

第二阶段,内容收集:头豹研究院联合沙利文组建报告评测团队,随机匿名分配大模型至团队成员进行大模型评测答案搜集,并将答案交付至评估团队深入分析;

 

第三阶段,分析师评测:由资深分析师组成的团队对大模型评测答案进行仔细审阅和评估。为杜绝评测人员的模型偏见问题,答案采用完全随机方式展示,模型名称以代码名称代替,以确保评测人员在审阅时不了解其背后的具体模型。最终,数据分析师对评分结果进行详细的分析和处理;

 

第四阶段,结果发布:发布《2024年中国大模型评测》报告结果,并通过多个媒体宣传渠道,包括官方网站、金融服务平台以及公众号等,广泛传达评测报告中的关键发现和深度行业见解,旨在深入向公众传递对中国大模型能力的全面理解。

 

评测规则

基于研究内容独立、公正及客观性的原则,头豹研究院及沙利文及研究院评测团队以严格的双盲形式进行评估打分,经过严谨公正的评分规则进行结果产出。

 

研究计划

《2024年中国大模型评测》研究启动—2023年12月

 

 头豹研究院联合沙利文举办评测说明会—2024年1月10日

 

 确认参选大模型并完成问题设计以及答案搜集—2024年1月下旬




 头豹研究院联合沙利文资深分析师团队评审—2024年2月




 《2024年中国大模型评测》报告发布(预计)—2024年3月




为进一步丰富内容,保证评测的标准性、一致性以及权威性,头豹研究院与沙利文拟计划于1月10号上午10点召开“AI大模型评测说明会“,诚挚邀请各相关单位企业以及行业专家参会。

 

1) 会议时间

2024年1月10日(周三)10:00-12:00

 

2) 接入方式

本次会议采用线上会议形式,使用“腾讯会议“客户端,会议信息如下:

会议链接:https://meeting.tencent.com/dw/nj2ACAAf37hL

会议ID:512-455-886

会议密码:请扫描下方二维码报名(通过验证后即可获得参会密码)

 

相关推荐

年度评测 | 2024年中国大模型评测正式启动,行业报告
头豹研究院联合沙利文正式启动大模型评估测试,现诚挚各企业积极参与,共同探讨中国大模型产业发展现状,助力产业向阳发展。评测背景随着数据资源不断增长以及计算能力的提升,以ChatGPT为代表的大语言模型技术席卷全球,将人工智能推向新的拐点。大模型作为基础设施,将持续向更多的领域渗透其影响力,为行业提供深度技术加持。目前,大语言模型的发展呈现出显著的技术创新和全球竞争态势。截至2023年,中国地区已经
提示信息

头豹的程序员小GG强烈建议您使用谷歌浏览器(chrome)以获得最佳用户体验。