头豹联合沙利文发布 《2024年中国大模型行研能力年中评测》

    2024-09-06 11:47


    由全球领先的增长咨询公司弗若斯特沙利文(Frost & Sullivan,简称“沙利文”)主办的第十八届沙利文中国增长、科创与领导力峰会暨第三届新投资大会(以下简称 “2024沙利文新投资大会”)于2024年8月28-30日在上海召开。

    沙利文大中华区总监 李庆


    8月30日,在AI重构数字经济分论坛上,沙利文大中华区总监李庆发布了《2024年中国大模型行研能力年中评测》,梳理并评估了市场上领先的多家大模型,深入分析大模型当前的行研综合能力。

     

    扫描二维码获取报告

     

    自2022年底ChatGPT向公众发布以来,AI技术从科技企业的闭门探索正式走向全人类的视野。经过一年多的发展,基于GPT起源的大模型技术已成为国家技术和产业的关键战略要素,受到国际高度重视。在此背景下,中国地区涌现了数百个预训练语言大模型,参与者涵盖了顶尖学术研究机构和互联网科技企业。为梳理中国大模型能力梯队与企业背景,头豹联合沙利文于2023年12月首次对大模型行研能力进行了多维度综合评测。

     

    半年后,随着大模型能力持续迭代升级,市场竞争格局经历多轮洗牌,当下的大模型市场已焕然一新。不仅百度、阿里、腾讯等互联网大厂继续引领市场,诸如Moonshot、零一万物、百川智能等大模型创业企业也纷纷崭露头角,挑战传统大牌互联网厂商的地位。为反映当前最真实的竞争态势,头豹联合沙利文与2024年8月,基于对2024年上半年中国大模型在辅助行研能力的调研与分析,梳理并评估了市场上领先的多家大模型,深入分析大模型当前的行研综合能力。

     

    01

    大模型行研能力评测背景及方法

    1. 行研背景概述——行业研究通过多层次的深入分析,提供关键洞察,支持企业战略决策和市场定位。

     

    行业研究是一项全面分析特定行业发展现状和市场动态的深入过程,涵盖行业定义、分类、竞争格局、市场容量等关键维度。分析师通过深入研究,提供深刻的洞察和有价值的观点,为企业战略规划、政策制定、金融投资决策以及教育培训等多个领域提供重要支持。

    来源:沙利文分析,头豹研究院

     

    在行业研究中,产业层、行业层和产品层分别代表宏观经济的不同层次:产业层涵盖具有相似特征的行业群体,行业层侧重于特定行业的市场动态和企业状况,而产品层则深入探讨具体产品或服务的设计、功能及市场定位。研究方法论随着这些层次的宏观到微观差异而有所调整,宏观层面关注政策、经济、环境等因素,而微观层面则包括发展历程、产业链分析等更为细致的内容。

    来源:沙利文分析,头豹研究院

     

    2. 传统行研发展痛点——传统行业研究面临工具滞后、知识传承困难和质量控制复杂等挑战,严重影响其产出效率和创新能力

     

    传统行业研究的产出流程通常包括三个关键步骤:首先是基础调研,聚焦于一手和二手行业数据的收集;其次是数据加工,涉及整理数据逻辑、验证数据真实性,并对关键信息进行可视化处理;最后是结果产出,确保报告逻辑一致、可视化清晰且观点合理。

     

    然而,在实际操作中,行业研究面临诸多挑战:工具更新滞后,行业研究长期依赖网络检索和办公软件,近20年来未见显著创新;团队知识难以有效传承,高人员流动性和新成员培养周期过长,使得分析师的经验和知识难以持续传递;信息溯源和合规性问题复杂,面对海量信息和时间压力,确保信息来源的可靠性和合规性成为难题;质量控制难度大,质控人员缺乏专业撰写技能,专业分析师由于时间限制也难以全面参与质控。这些挑战共同影响了行业研究的产出效率和创新能力,限制了其进一步发展。

    来源:沙利文分析,头豹研究院

     

    3. 大模型赋能行研——大模型通过创新性和准确性有效赋能行业研究,提升分析师内容创作与信息检索的质量和效率

     

    大模型通过其创作、生成、改写和检索等核心功能,全方位推动行业研究向前发展。首先,大模型扮演第三方AI专家角色,协助分析师在研究初期进行框架搭建和内容创作,有效减轻案头工作负担。其次,通过与分析师的有效互动,大模型助力生成结构化内容和洞察,显著提高基础内容的产出效率。进一步,它通过减少文本错误和重复内容,优化校对流程,提升产出质量。最后,大模型能够快速处理海量数据,提供实时信息检索,增强分析师在有限时间内获取全面信息的能力。

    来源:沙利文分析,头豹研究院

     

    大模型在辅助行业研究中,通过“两个创新”和“三个准确”有效赋能行业分析。“两个创新”包括分析维度的创造性和观点研判的创造性,利用创造力为分析师提供更广泛的视角指引,支持生成具有独创性和深度洞见的研究内容。“三个准确”则涵盖信息数据的准确性、提示词理解的准确性以及细分行业认知的准确性,通过严谨且精准的内容产出,帮助分析师更全面地把握行业动态,从而准确研判行业整体的发展趋势。

     

    本次评测将通过三个维度的能力测试:报告撰写能力、行业理解能力及行业研究基础能力,全面评估大模型在创新性和准确性方面的差异化表现,最终甄别出在行业研究中最能有效辅助分析师生成高质量内容的大模型。

    来源:沙利文分析,头豹研究院

     

    4. 评测大模型参与者——2024年,头豹联合沙利文对16个中国领先大模型的行业研究能力进行了综合评估,揭示其在行研领域的最新应用 

    自ChatGPT推出后,生成式AI在全球范围内引发热潮,逐渐渗透到日常生活和工作场景中。2023年首次对大模型的行研能力进行评测后,头豹联合沙利文发布了2024年年中评测更新结果,选取了中国市面上的16个领先大模型进行综合评估,以洞悉中国大模型在行研领域的最新应用。

    来源:沙利文分析,头豹研究院

     

    5. 评测方法与指标——本次大模型能力测试通过3,540道题目,结合分析师人工评估与大模型自动评估,全面检验了大模型在行业研究中的撰写能力、基础能力和行业理解能力

     

    本次大模型能力测试围绕三大核心板块展开评测:分别是行研报告撰写能力,模型基础能力以及行业理解能力。其中,报告撰写覆盖20篇不同行业报告撰写,涵盖300道问题,分析师长期跟踪报告问题累积超3,000道题;模型能力覆盖6大文本产出核心能力,涵盖60道问题;行业理解覆盖15大核心行业,每个行业涉及12个问题,总计180题。三大维度合计3,540道题目。分析师团队均由头豹研究院各团队资深分析师组成,且均具备超过16个月的大模型使用经历。

     

    评测方法分为分析师人工评估和大模型裁判模型自动评估两种。在分析师评测端,采用双盲机制以最大程度保证公允性。每位测试人员会随机分配N个模型进行答案收集,期间禁止相互分享信息,以确保在答案评测阶段的公平性。在评测阶段,每个问题对应的16个模型答案顺序会被随机打乱,以防止评测人员对答案产生任何偏见。在裁判模型评测端,使用全球最领先的十个中外大模型作为裁判模型进行打分。为消除模型偏见并提升评分公允性,每个裁判模型将生成三个评分版本并取其平均值。最终,通过这十个裁判大模型的平均评分来决定裁判模型打分的结果。

    来源:沙利文分析,头豹研究院

     

    6. 行研能力细分评测维度——本次大模型能力测试围绕三大核心板块展开评测:分别是行研报告撰写能力,模型基础能力以及行业理解能力。通过模型在三大核心板块的表现力最终得出大模型在行研能力的评测结果

    行研报告撰写能力指的是大模型在实际报告撰写过程中所展现的专业水准。沙利文联合头豹企业研究所开发的8-D方法论,由八个核心模块组成,构建了一套系统且全面的行业深度分析框架。在这一方法论的支持下,详实数据与精准分析相结合,能够提炼出富有洞察力的结论,大幅提升行业研究的清晰度和数据的严谨性。经过百余名分析师历时八个月的密集协作与多次优化,最终成功构建出一套高效的8-D模块化大模型提问框架。这一精心设计的提问体系已被转化为评估工具,通过对十六个模型的定向提问,深入检验并评估模型报告的撰写质量和有效性。

    来源:沙利文分析,头豹研究院

     

    行研基础能力是指在AI辅助撰写行业研究报告过程中,结合分析师长期使用大模型的实践经验,总结出的六大核心能力维度。这些维度包括逻辑推理,通过分析和推断数据与事实之间的逻辑关系,确保报告内容结构严谨、结论可靠;总结提炼,从大量信息中提炼出关键要点,简洁明了地呈现重要结论和见解;知识储备,利用广泛的行业和市场知识,结合多学科背景撰写深度分析报告;长文本生成,生成结构完整、内容详实的长篇报告,确保各部分内容有充分的论证和数据支持;意图理解,准确把握客户或读者的需求和意图,确保报告内容符合其期望;角色扮演,通过模拟不同角色的视角,深入分析和预测市场行为和行业趋势,提供多维度的见解,满足特定读者的需求。

    来源:沙利文分析,头豹研究院

     

    行业理解能力是指模型对不同细分行业的认知准确性和洞见深度。头豹自成立以来,已积累超过14万注册用户和7,000多份行业企业研究报告,覆盖了15个大类行业及上千个细分领域。其精英分析师团队及研究成果广泛受到金融、制造、互联网科技等领域用户的认可,使头豹成为中国最大的行业研究平台之一,具备行业覆盖广、报告数量多、撰写效率高、知识精准度高等核心优势。在此次大模型行研能力评测中,头豹联合其上海、南京和深圳,汇聚跨行业领域的资深分析师,利用对竞争格局、发展趋势、制约因素及行业壁垒等关键领域的深厚理解,结合丰富的报告撰写经验,向模型提出针对15个主要行业的深度问题。通过对模型在各细分行业的纵向评估与全行业的横向比较,了解16大模型在行业理解和内容产出方面的深度与能力。

    资料来源:沙利文分析,头豹研究院

     

    02

    中国大模型能力评测结果

    来源:沙利文分析,头豹研究院

     

    基于行研能力的三大评估维度,对市场上16个主流大模型进行了评测。2024年大模型行研能力年中评测结果显示,商汤日日新、腾讯混元、通义千问、文心一言和豆包位列第一梯队,模型综合表现卓越且实力雄厚。

     

    商汤日日新:商汤科技的日日新·商量(SenseNova)大模型体系,最新版的SenseNova 5.0引入了“云到边缘”全栈大模型产品矩阵,能够实现AI能力在云端、边缘和设备层面的无缝集成,进一步提升了在各行业中的应用能力。SenseNova系统继续专注于提供强大的知识覆盖、推理能力和跨模态交互,支持长达128K的语境窗口,并保持与GPT-4相当的性能。

     

    腾讯混元:腾讯混元大模型是由腾讯自主研发的通用大语言模型,具备超千亿参数规模,预训练语料超过3万亿tokens。混元大模型拥有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。它支持多轮对话、内容创作、逻辑推理和知识增强等功能,与多模态的图像生成。混元大模型已经在腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等多个业务和产品中使用。

     

    通义千问:通义千问是阿里云推出的千亿级参数大模型,综合性能在多个权威测评中比肩 GPT-4。通义千问大模型在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等方面均有显著提升。通义千问2.5更加成熟易用,进行了技术优化,以更好地适应下游应用场景的集成需求。此外,通义千问官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务,并推出了基于通义大模型训练的10大行业模型,以支持不同领域的应用。

     

    文心一言:文心一言(ERNIE Bot)是百度基于Transformer结构开发的大型预训练语言模型,作为文心大模型家族的新成员,具备智能对话、内容创作、多模态生成、知识增强等核心功能。该模型通过海量数据预训练,能够处理文本分类、情感分析等多种自然语言处理任务,且支持多语言应用。升级至4.0版本后,文心一言在百度智能云平台上可供企业客户使用,广泛应用于学术研究和商业场景,显著提升工作效率和用户满意度。

     

    豆包:字节跳动于2024年5月发布的豆包大模型,是一款多功能AI模型,覆盖自然语言处理、知识问答、语言翻译等多个领域。豆包大模型以其高效的处理能力和极具竞争力的定价优势,已被广泛应用于手机、汽车、金融等30多个行业,日均处理1,200亿Tokens文本,并生成3,000万张图片,表现出色。凭借在多个业务场景中的成功应用,豆包大模型已经成为国内使用量最大的大模型之一。

     

     

     


    本文推荐阅读

    ↓↓长按扫描下方二维码获取↓↓

    本文来源于头豹科创网,原创内容,作者:头豹研究院。转载或合作请联系 support@leadleo.com,违规转载法律必究,详见说明。如您有商务合作需求,请联系我们,我们将尽快与您取得联系。