头豹研究院联合沙利文发布《2023年中国AI大模型行研能力评测报告》-头豹科创网

头豹研究院联合沙利文发布《2023年中国AI大模型行研能力评测报告》

2023-12-29 11:19

自2022年底ChatGPT向公众发布以来，AI从科技企业的闭门探索正式走向全人类的视界。经过一年的发展，基于GPT起源的大模型技术已成为国家技术和产业的关键战略要素，受到国际广泛高度重视。

大模型作为数字行研的关键支撑，大模型通过其创作、生成、改写和检索等核心功能，全方位推动行业研究向前发展。大模型通过辅助内容创作、生成结构化内容、优化校对流程，并快速检索信息，加速了行业研究的发展。因此，深入探索中国大模型在行业研究中的应用和技术创新，对推动研究方法的革新至关重要。基于数字行研解决方案的研究和实践基础，头豹研究院联合沙利文凭借百人分析师团队匿名投票机制，筛选了12个大型模型，进行了多维度的综合评估，旨在全面了解并系统梳理中国大型模型参与者在行研领域的应用表现。

基于对2023年中国大模型的调研与分析，头豹研究院联合沙利文发布最新《2023年中国AI大模型行研能力评测市场研究报告》。

数字行研背景综述

1. 行研背景综述——行业研究通过综合分析特定行业的发展态势，产出深刻洞察和观点。方法论涵盖从宏观的产业层到微观的产品层的分析，对企业战略、政策制定和金融决策等产生显著影响。

行业研究是深入探讨分析特定行业的发展现状和市场动态的全面过程，包含行业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析，生成具有深度的洞察和价值观点，对企业战略规划、政策制定、金融投资决策和教育培训等多个领域产生重要影响。

在行业研究中，产业层、行业层和产品层各自代表宏观经济的不同层次：产业层包含具备相似特征的行业群体，行业层着重于特定行业的市场和企业情况，而产品层深入到具体产品或服务的设计、功能和市场定位。研究方法论根据这些层级的宏观到微观差异而有所不同，外部维度考虑政策、经济、环境等因素，而内部维度则包括发展历史、产业链分析等更细致的方面。

2. 传统行研发展痛点——从基础数据收集到深度分析输出，传统行业研究的流程面临着工具创新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重大挑战。

传统行业研究的产出流程包括三个步骤：首先是基础调研，聚焦于一手和二手行业数据的收集；其次是数据加工，涉及整理逻辑、验证数据真实性，并对关键信息进行可视化处理；最后是产出结果，确保全文逻辑一致、可视化清晰并且观点合理。

在实际操作中，行业研究面临多个挑战：1）工具更新停滞，自互联网兴起以来，行研主要依赖网络检索和办公软件，近20年未见显著革新；2）团队知识难以复用，由于高人员流动性和新成员培养周期长，分析师的经验和知识传承困难；3）信息溯源和合规性考量复杂，在应对海量信息和时间成本压力下，信息来源和合规性难以全面保障；4）质量控制难度高，质控人员缺乏专业撰写技能，同时专业分析师缺乏时间进行广泛质控，导致质量监控极为困难。这些核心挑战共同影响着行研的产出效率和创新，阻碍行研进一步发展。

3. 数字行研革新——数字行研解决方案，结合标准化工具和先进的大模型技术，有效克服了传统行业研究的核心制约因素，显著提升研究的精度和效率。

数字化行研解决方案为行业研究带来范式革新。该系统通过引入一系列标准化工具，如精准的信息溯源系统和写作规范，极大降低了行业研究的门槛，提升了撰写效率，并简化了质量控制流程。此外，数字行研基于大模型的强大底层支持，为分析师提供AI辅助工具，包括专家访谈、智能检索、查重、校对和改写功能，有效减少信息检索的难度，提升文本的准确性和撰写效率，同时加速分析师的专业成长。

数字行研解决方案不仅解决了传统行业研究中的关键痛点，如信息溯源困难、严峻的质控挑战、知识低复用率和工具更新滞后，还借助大模型技术推动行业研究质量和分析师成长速度，引领行业研究向更高效、精准的新范式转变。

4. 大模型赋能行研——大模型在数字行业研究中扮演核心角色，其功能特性极大提升了研究的效率和质量。本研究聚焦于挖掘中国大模型在行业研究中的实际应用和优势，了解大模型当前的能力边界，以推动行研领域的创新与变革。

作为数字行研的关键支撑，大模型通过其创作、生成、改写和检索等核心功能，全方位推动行业研究向前发展。首先，大模型扮演第三方AI专家角色，协助分析师在研究初期进行框架搭建和内容创作，有效减轻案头工作负担。其次，通过与分析师的有效互动，大模型助力生成结构化内容和洞察，显著提高基础内容的产出效率。进一步，它通过减少文本错误和重复内容，优化校对流程，提升产出质量。最后，大模型能够快速处理海量数据，提供实时信息检索，增强分析师在有限时间内获取全面信息的能力。

鉴于此，深入了解中国大模型行业的发展态势和技术创新对引领数字行业研究新范式至关重要。本研究的目标是全面评价中国领先的大模型技术，深入分析其在行业研究领域的实际应用和优势，全面审视大模型对行业研究发展的影响，以促进数字行业研究的创新和变革。

中国大模型行研能力评测

1. 评测大模型参与者——基于数字行研解决方案的研究和实践基础，头豹研究院联合沙利文依托百人分析师团队对12个大模型进行行研辅助能力的综合评估。

基于数字行研解决方案的研究和实践基础，头豹研究院联合沙利文凭借百人分析师团队匿名投票机制，筛选了12个大模型，进行了多维度的综合评估，旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。

本次对大模型的行业研究能力进行评测的时间定于11月15日至11月30日，评选的模型基于目前市场上开放且可用的版本。评测结果将仅反映在评测时段内公开可获取的模型数据。在此次评测中，GPT模型选用的公测版本为3.5版本，文心一言模型也采用其3.5公测版本进行评估。

2.评测方法与指标——本次语言大模型行研能力测试围绕三大核心板块展开评测：研究报告撰写能力、模型基础能力以及行业综合理解能力。

本次大模型能力测试围绕三大核心板块展开评测：分别是研究报告撰写能力，模型基础能力以及行业综合理解能力。通过模型在三大核心板块的表现力最终得出评测结果。其中，报告撰写覆盖8篇不同主体报告撰写，涵盖128道问题，分析师长期跟踪报告问题累计超1,500道题；模型能力覆盖6大文本产出核心能力，涵盖54道问题；行业理解覆盖14大核心行业，每个行业涉及12个问题，总计1,168题。三大维度合计1,800道题目。分析师团队均由头豹研究院各团队资深分析师组成，且均具备超过8个月的大模型使用经历。

评测方法通过双盲机制最大程度保证公允性，每名测试人员会随机分配N个模型进行答案搜集，彼此在答案搜集期间互相禁止分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测人员对答案不存在任何偏见。

3.报告撰写能力——头豹及沙利文行企研究的8-D方法论，是一种全面系统的研究方法，包含了八大关键模块，用于对行业进行深入分析。

头豹联合沙利文企业研究所采纳的8-D方法论包括八个核心模块，构成了一套全面而系统的研究方法，专用于行业的深入分析。结合详实的数据和精准的分析，此方法能够提炼出深刻的观点和结论，显著提升行业研究内容的清晰度和数据的丰富性。在该方法论的指导下，百名分析师历经八个月的密集工作及多次优化，精制而成一套高效的8D模块化大模型提示问题法。这套精练的提问技巧已转化为评估工具，旨在通过对十二个主要模型的针对性提问，检验并评估模型报告撰写的效能。

4.行研基础能力——从AI辅助行研角度出发，结合大模型基础核心能力，归总出对于行研报告撰写角度最重要的六大能力维度。

逻辑推理：逻辑推理是指从已知信息出发，通过推论规则得出结论的过程。在内容评判中，关注信息组织、连接和推导的方式，以及结论是否合理、一致，且基于事实。

类比迁移：类比迁移是指从一个领域或情境中提取概念、原则或模式，并应用到另一个不同的领域或情境。在内容评判中，评估模型在不同概念、情境之间建立联系的能力，以及这些联系的适当性和创造性。

文本生成：文本生成是指创建连贯、相关和有意义的文本内容。在评判内容时，评估文本的清晰度、连贯性、原创性以及语言的正确性和表达能力。

意图理解：意图理解是指识别和理解用户或作者想要传达的目的和动机。在内容评判中，评估信息是否有效地传达了其预期的消息或意图，以及模型是否能清楚地识别这些意图。

知识储备：知识储备是指个体或系统所掌握的信息、事实、概念和理论的总和。在内容评判中，知识储备体现在信息的准确性、深度和广度，以及模型能否正确并有效地使用相关知识。

语境转换：语境转换是指根据不同的交流环境或对象调整信息表达方式。在内容评判中，评估信息是否适应特定的受众、文化背景或沟通场合，以及是否能有效地调整语气、风格和内容以满足不同场景下的写作需求。

5.行业理解能力——汇集头豹研究院与沙利文百余名各资深行业分析师，结合自身领域认知，对模型在14大行业的理解和产出能力进行评估。

头豹研究院成立至今，平台共积累超15万+注册用户，6,000+行业及企业研究报告积累，覆盖14个大类行业，以及上千个细分小类行业。在本次大模型评测中，头豹上海、南京和深圳三大研究院联合沙利文，汇聚了跨越多个行业领域的百余名分析师，利用自身对竞争格局、发展趋势、制约因素以及行业壁垒等关键知识领域的深厚理解，并结合丰富的行业报告撰写经验，向模型提出了针对14个主要行业的细致问题，最终对12大模型在行业理解和内容产出方面进行深度评估。

中国大模型行研能力评测结果

头豹研究院及沙利文资深分析师团队根据三大维度，总计1,800+道题目，对十二大市场主流大模型进行行研能力的综合评估。评测结果显示，商汤商量、文心一言3.5、讯飞星火以及腾讯混元的行研能力位列第一梯队，综合实力较为强劲。

商汤商量：商汤的“商量SenseChat”2023年4月正式推出，是国内最早发布的千亿参数大语言模型之一，此后不断迭代更新。目前，它在语言、知识、理解、推理和学科五大能力上均处于行业领先水平，可以处理各类文本和信息，成为随身综合知识库、高效文本编辑器、数理计算器和简单易用的编程助手。

文心一言3.5：2023年3月，百度发布大模型产品“文心一言”。6月，百度文心大模型已经迭代到3.5版本，功能、性能全面提升，实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，模型效果提升50%，训练速度提升2倍，推理速度提升30倍。

讯飞星火：2023年5月，科大讯飞推出的新一代认知智能大模型“讯飞星火”，讯飞星火拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解和执行任务，提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。能够为各行各业提供强大的支持和提效。

腾讯混元：2023年9月，腾讯正式面向产业发布“腾讯混元”大模型。腾讯混元具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。腾讯混元拥有超千亿参数规模，预训练语料超2万亿tokens，可以应用于机器翻译、文本生成、语义分析等多个领域。腾讯混元支持多种功能和场景，如图片生成、文案创作、文字辨识等，并已经在腾讯云、腾讯广告、微信搜一搜等多个腾讯内部业务和产品经过测试。

本文推荐阅读

《2023年中国AI大模型行研能力评测报告》

↓↓长按扫描下方二维码获取↓↓

本文来源于头豹科创网，原创内容，作者：头豹研究院。转载或合作请联系 support@leadleo.com，违规转载法律必究，详见说明。如您有商务合作需求，请联系我们，我们将尽快与您取得联系。

头豹研究院联合沙利文发布《2023年中国AI大模型行研能力评测报告》

最新文章

ESG专题 | 中国35家大型车企ESG环境绩效对标

医药十年创新积淀，如何在全球“大考”中抓住机遇？

头豹研究院发布《2024年中国大模型行业应用白皮书》——全方位领略大模型行业应用最新态势！

2022年园区系列报告：中国产业园区研究之运营篇（独占版）

2024年中国半导体设备行业总览：前道设备国产替代正当时（独占版）

中国轻食餐饮行业概览

2024年中国大模型能力评测 AI变革行业创新发展

中国线上心理咨询行业概览