本报告或文章可用于微博、微信公众号、新闻网站等一般性转载,或用于企业的公开市场宣传,或用于企业投融资咨询、上市咨询等用途。这些引用可能是免费的,也可能产生额外的授权费用,头豹将根据您的引用需求向报告或文章发布者取得相应授权,并派专人与您进一步联系。
请务必如实填写引用需求并按授权范围使用本报告或文章,如头豹发现您最终的引用目的超出所引用需求相应的授权范围,头豹有权要求您停止引用并就头豹因此遭受的损失追究您相应的法律责任。
纠错
头豹研究院联合沙利文正式启动大模型评估测试,现诚挚各企业积极参与,共同探讨中国大模型产业发展现状,助力产业向阳发展。
评测背景
随着数据资源不断增长以及计算能力的提升,以ChatGPT为代表的大语言模型技术席卷全球,将人工智能推向新的拐点。大模型作为基础设施,将持续向更多的领域渗透其影响力,为行业提供深度技术加持。
目前,大语言模型的发展呈现出显著的技术创新和全球竞争态势。截至2023年,中国地区已经出现超过80个不同的预训练大语言模型,参与者覆盖中国顶尖的学术研究机构以及互联网科技企业,旨在此番浪潮中拔得先机。
在此背景下,探析大语言模型产业链布局、大模型基础资源、市场参与者、产业实践以及行业应用情况,梳理大语言模型评测维度,对大模型能力进行全方位评测具备必要性,有助于推动中国大模型产业向规范化、安全化发展,对国家产业发展具备良性促进作用。头豹研究院及沙利文基于百人分析师团队等权匿名投票制,筛选15个大模型进行多维度综合性评测,致力于梳理中国大语言模型竞争参与者现状。
评测介绍
本次大模型评测围绕五大核心板块展开评测:知识能力、语言能力、道德风险、行业能力以及综合能力。五大板块总计超1,500道题目。评测团队均由头豹研究院及沙利文各团队资深分析师组成,且均具备超过8个月的大模型实际使用经验。评测内容具体包括:
1. 知识能力:
由100%客观题组成,测试模型的知识掌握广度与深度。
数学类:数学知识方面的掌握程度和应用能力;
常识类:一般性知识的理解和应用能力;
科学类:科学知识的理解和应用能力;
逻辑推理类:分析、推理和解决问题的能力。
2. 语言能力:
由80%主观题和20%客观题组成,结合文本类任务实践经验,测试大模型文本生成的底层基础能力。
类比迁移:类比迁移是指能够利用已有的知识和经验,实现知识的迁移和应用;
文本生成:文本生成是指自动生成连贯、有意义且符合特定要求的文本;
意图理解:意图理解是指准确理解用户输入的文本所表达的意图或需求;
角色扮演:角色扮演是指模拟人类角色和情境中的表现和能力;
开放式逻辑推理:开放式逻辑推理是指在复杂、开放和不确定环境下的逻辑推理和问题解决能力。
3. 道德风险:
由60%主观题和40%客观题组成,监测是否生成有偏差或不道德的输出或用于生成虚假信息或有害内容,考量大模型的综合安全性。
风险信息:应对和处理风险方面的能力和表现;
模型鲁棒性:面对输入数据的微小变动或异常情况时的表现;
偏见信息:处理和分析数据时是否存在偏见或歧视的问题;
错误知识:面对错误或误导性知识时的表现和处理能力。
4. 综合能力:
由50%主观题和50%客观题组成,结合实际任务的完成效果和分析师实践经验进行评判,考量大模型特定类综合性任务执行和完成能力。
AI智能体:模拟智能体行为和决策方面的能力和表现;
专业文本:在处理特定领域或专业领域的文本时的能力和表现;
超长文本:在处理超长文本输入时的能力和表现。
5. 行业能力:
基于大模型赋能千行百业的愿景,本次评测将从知识正确性、观点独立创造性以及实际应用价值性三个维度考量大模型在不同行业的应用能力。结合头豹研究院与沙利文的行业理解和实践优势,对17个大模型高应用价值行业进行能力评测。
评测流程
《2024年中国大模型评测》从研究启动到最终结果呈现分为四个阶段:
第一阶段,模型选择:头豹研究院联合沙利文进行了深入的市场调研,借助大模型实践经验,结合分析师团队的投票结果,确定15个大模型作为评测对象;
第二阶段,内容收集:头豹研究院联合沙利文组建报告评测团队,随机匿名分配大模型至团队成员进行大模型评测答案搜集,并将答案交付至评估团队深入分析;
第三阶段,分析师评测:由资深分析师组成的团队对大模型评测答案进行仔细审阅和评估。为杜绝评测人员的模型偏见问题,答案采用完全随机方式展示,模型名称以代码名称代替,以确保评测人员在审阅时不了解其背后的具体模型。最终,数据分析师对评分结果进行详细的分析和处理;
第四阶段,结果发布:发布《2024年中国大模型评测》报告结果,并通过多个媒体宣传渠道,包括官方网站、金融服务平台以及公众号等,广泛传达评测报告中的关键发现和深度行业见解,旨在深入向公众传递对中国大模型能力的全面理解。
评测规则
基于研究内容独立、公正及客观性的原则,头豹研究院及沙利文及研究院评测团队以严格的双盲形式进行评估打分,经过严谨公正的评分规则进行结果产出。
研究计划
《2024年中国大模型评测》研究启动—2023年12月
头豹研究院联合沙利文举办评测说明会—2024年1月10日
确认参选大模型并完成问题设计以及答案搜集—2024年1月下旬
头豹研究院联合沙利文资深分析师团队评审—2024年2月
《2024年中国大模型评测》报告发布(预计)—2024年3月
为进一步丰富内容,保证评测的标准性、一致性以及权威性,头豹研究院与沙利文拟计划于1月10号上午10点召开“AI大模型评测说明会“,诚挚邀请各相关单位企业以及行业专家参会。
1) 会议时间
2024年1月10日(周三)10:00-12:00
2) 接入方式
本次会议采用线上会议形式,使用“腾讯会议“客户端,会议信息如下:
会议链接:https://meeting.tencent.com/dw/nj2ACAAf37hL
会议ID:512-455-886
会议密码:请扫描下方二维码报名(通过验证后即可获得参会密码)
相关推荐
2024年中国边缘云市场报告
基于对2024年中国边缘云市场的调研与分析,弗若斯特沙利文(Frost & Sullivan,以下简称“沙利文”)联合头豹研究院发布最新《2024年中国边缘云市场报告》。边缘云(Edge Cloud)是一种云计算架构,将计算、存储和网络资源分布在接近数据源或终端用户的位置。与传统的集中式云计算架构不同,边缘云将计算资源下沉至网络边缘,从而减少延迟、提高带宽利用率并增强数据隐私和安全性。边缘云具有低时延、带宽占用率低、数据安全性高、本地化部署等特点,在需要实时计算、低延迟和分布式处理的应用场景中具有明显优势,如音视频、新零售、自动驾驶、智能制造等。
2024年中国惯性传感器行业短报告(独占版)
惯性传感器检测物体的运动,主要由加速度计、陀螺仪、磁力计和IMU组成。单个传感器存在缺陷,通常由加速度计和陀螺仪组合成IMU进行互相补偿。技术方面,如今市场中应用较多的是第二代的两光陀螺和第三代的MEMS陀螺技术。MEMS陀螺体积小、成本低,随着精度的提升,有望替代两光陀螺。应用方面,人形机器人为新兴应用领域。人形机器人的双足形态使其便于从事多种任务,但双足形态结构复杂,存在稳定性难题。惯性传感器具有惯性导航、惯性测量和惯性稳控功能,能够提升人形机器人稳定性。人形机器人量产在即,预计未来能够达到百万级产量,将为惯性传感器市场带来不小的增量。
2024年中国惯性传感器行业短报告(摘要版)
惯性传感器检测物体的运动,主要由加速度计、陀螺仪、磁力计和IMU组成。单个传感器存在缺陷,通常由加速度计和陀螺仪组合成IMU进行互相补偿。技术方面,如今市场中应用较多的是第二代的两光陀螺和第三代的MEMS陀螺技术。MEMS陀螺体积小、成本低,随着精度的提升,有望替代两光陀螺。应用方面,人形机器人为新兴应用领域。人形机器人的双足形态使其便于从事多种任务,但双足形态结构复杂,存在稳定性难题。惯性传感器具有惯性导航、惯性测量和惯性稳控功能,能够提升人形机器人稳定性。人形机器人量产在即,预计未来能够达到百万级产量,将为惯性传感器市场带来不小的增量。
2024年中国口腔锥形束CT(CBCT)
口腔锥形束CT(CBCT)由X射线发生器、平板探测器、旋转机架、计算机软件等部分组成,是一种主要针对口腔颌面部进行三维成像的锥形束CT系统,广泛应用于牙齿种植、正畸、牙体牙髓等口腔各科 中国口腔CBCT行业市场规模稳步增长,2019-2023年,口腔CBCT行业新增市场规模由15.5亿人民币元增长至28.0亿人民币元,期间年复合增长率15.8%。口腔疾病患者基数较大、口腔医疗服务水平逐步提升、高值耗材集采逐步落实等因素共同推动行业快速发展,预计2024-2028年,口腔医疗服务行业市场规模由29.1亿人民币元增长至43.0亿人民币元,期间年复合增长率10.3%
2024华夏大健康ESG白皮书
本报告为2024华夏大健康ESG白皮书,将通过分析中国大健康产业ESG的基本面以及影响行业发展的外部因素,阐明中国大健康产业ESG未来发展的三大趋势。
头豹的程序员小GG强烈建议您使用谷歌浏览器(chrome)以获得最佳用户体验。