头豹研究院联合沙利文正式启动2024年(年中)中国大模型行研能力评估测试,现诚挚各企业积极参与,共同探讨中国大模型产业在行研应用方面的现状,助力产业向阳发展。
评测背景
自2022年底ChatGPT向公众发布以来,AI技术从科技企业的闭门探索正式走向全人类的视野。经过一年多的发展,基于GPT起源的大模型技术已成为国家技术和产业的关键战略要素,受到国际高度重视。在此背景下,中国地区涌现了数百个预训练语言大模型,参与者涵盖了顶尖学术研究机构和互联网科技企业。为梳理中国大模型能力梯队与企业背景,头豹研究院及沙利文于2023年12月组织百人分析师团队,采用匿名投票制,首次对大模型行研能力进行了多维度综合评测。
半年后,随着大模型能力持续迭代升级,市场竞争格局经历多轮洗牌,当下的大模型市场已焕然一新。不仅百度、阿里、腾讯等互联网大厂继续引领市场,诸如Moonshot、零一万物、百川智能等大模型创业企业也纷纷崭露头角,挑战传统大牌互联网厂商的地位。为反映当前最真实的竞争态势,头豹研究院及沙利文在2024年6月基于最新的大模型能力,对市场上领先的21家大模型进行了梳理和评估,并深入分析其在行业研究的综合能力。
评测介绍
本次大模型行研能力测试围绕三大核心板块展开评测:研究报告撰写能力、模型基础能力以及行业综合理解能力。通过模型在三大核心板块的表现力最终得出评测结果。
在报告撰写层面,本次评测覆盖20篇不同主题的报告,涵盖360 道问题,并附加分析师长期跟踪的报告问题累积超2,500道;模型能力层面,本次评测覆盖6大文本产出核心能力,涵盖108道问题,其中40%为客观题,60%为主观题;行业理解方面覆盖15大核心行业,每个行业涉及12个问题,总计180题。三大板块总计超3,100道题目。分析师团队均由头豹研究院及沙利文各团队资深分析师组成,且均具备超过14个月的大模型使用经历。评测内容具体包括:
1、报告撰写能力:
头豹研究院及沙利文联手打造的行企研究8-D方法论,是一种全面而系统的研究方法,包含了八大关键模块,用于对行业进行深入分析。在这一框架下,百名分析师经历了八个月的集中工作与多轮优化,最终研磨出了一套专业的8D模块提问方法,作为评估工具,通过向21个大模型提出问题,来测试和评价模型报告撰写的能力。
2、模型基础能力:
从AI辅助行研角度出发,结合大模型基础核心能力,归总出对于行研报告撰写角度最重要的六大能力维度。
逻辑推理:逻辑推理是指通过系统性地分析和演绎现有信息,推导出合理结论的能力。这包括识别因果关系、评估假设的有效性、解决复杂问题以及进行有效决策。
总结提炼:总结提炼是指从大量且复杂的信息中提取出关键要点和核心观点的能力。这要求能够迅速识别信息的重点,去除冗余,确保最终信息简洁明了且具有针对性。
知识储备:知识储备是指广泛掌握并灵活应用各领域信息和概念的能力。这不仅包括记忆和理解大量事实和概念,还包括将这些知识应用于实际问题和情境中,以提供准确的解答和分析。
长文本生成:长文本生成是指基于给定主题或信息,撰写结构化、连贯且详细长篇文章的能力。这涉及组织逻辑清晰的段落,保持一致的主题,确保内容丰富且有深度,满足多种内容创作需求。
意图理解:意图理解是指准确识别和理解他人表达的目的、需求和期望的能力。这需要通过语言、语境和非语言线索,解读隐含的信息,确保交流的有效性和针对性。
角色扮演:角色扮演是指在特定情境中模拟和扮演特定角色,以实现目标或深入理解情境的能力。这包括灵活适应多样化的交互需求,通过模拟不同角色的视角和行为,提供有效的解决方案和反馈。
3、行业理解能力:
头豹研究院成立至今,平台共积累超20万+注册用户,6,000+行业及企业研究报告积累,覆盖145大类行业,以及上千个细分小类行业。在本次大模型行研能力评测中,头豹联合沙利文上海、南京和深圳三大研究院,汇聚了跨越多个行业领域的百余名分析师,利用自身对竞争格局、发展趋势、制约因素、以及行业壁垒等关键知识领域的深厚理解,并结合丰富的行业报告撰写经验,向模型提出了针对15个主要行业的细致问题,最终对21大模型在行业理解和内容产出方面进行深度评估。
评测流程
《2024年中国大模型行研能力评测》从研究启动到最终结果呈现分为四个阶段:
1)第一阶段,模型选择:头豹联合沙利文进行了深入的市场调研,借助数字行研的研究与实践经验,结合分析师团队的投票结果,选取21个当前市场主流大模型作为评测对象。
2)第二阶段,内容收集:头豹联合沙利文组建报告测评团队,随机匿名分配大模型至团队成员进行大模型测评答案搜集,并将答案交付至评估团队深入分析。
3)第三阶段,分析师评测与裁判模型打分:首先,由来自不同行业背景的资深分析师组成的团队,共20人对大模型测评答案进行仔细审阅和评估。为杜绝评测人员的模型偏见问题,答案采用完全随机方式展示,模型名称以代码名称代替,以确保评测人员在审阅时不了解其背后的具体模型从而最大程度杜绝模型偏见。其次,会调用10个大模型API作为裁判模型对答案进行评分。最终,结合20人分析师团队评分结果与10个裁判模型的打分结果进行综合详细的分析和处理,以得到当前大模型在行研能力的评测结果。
4)第四阶段,结果发布:发布《2024年中国大模型行研能力评测》报告结果,并通过多个媒体宣传渠道,包括官方网站、金融服务平台以及公众号等,广泛传达评测报告中的关键发现和深度行业见解,旨在深入向公众传递对中国大模型在行业研究的能力展示。
评测规则
基于研究内容独立、公正及客观性的原则,头豹研究院及沙利文评测团队以严格的双盲形式进行评估打分,经过严谨公正的评分规则进行结果产出。
研究计划
《2024年中国大模型行研能力测评》研究启动—2024年6月
确认参选大模型并进行问题涉及以及答案搜集—2024年7月
头豹研究院联合沙利文资深分析师团队评审—2024年7月
《2024年中国大模型行研能力评测》报告发布(预计)—2024年8月
长按识别二维码,参与评测