本报告或文章可用于微博、微信公众号、新闻网站等一般性转载,或用于企业的公开市场宣传,或用于企业投融资咨询、上市咨询等用途。这些引用可能是免费的,也可能产生额外的授权费用,头豹将根据您的引用需求向报告或文章发布者取得相应授权,并派专人与您进一步联系。
请务必如实填写引用需求并按授权范围使用本报告或文章,如头豹发现您最终的引用目的超出所引用需求相应的授权范围,头豹有权要求您停止引用并就头豹因此遭受的损失追究您相应的法律责任。
纠错
头豹研究院联合沙利文正式启动大模型行研能力评估测试,现诚挚邀请各企业积极参与,共同探讨中国大模型产业在行研应用方面的现状,助力产业向阳发展。
评测背景
自2022年底ChatGPT向公众发布以来,AI从科技企业的闭门探索正式走向全人类的视界。经过一年的发展,基于GPT起源的大模型技术已成为国家技术和产业的关键战略要素,受到国际广泛高度重视。
当前,基于自然语言处理技术的预训练大模型已在全球范围内掀起了有史以来最大的人工智能浪潮。自ChatGPT推出以来,仅中国地区就出现了超过80个不同的预训练语言大模型,参与者覆盖中国顶尖的学术研究机构以及互联网科技企业,旨在此番浪潮中拔得先机。过去一年中,中国学术与产业界也取得了实质性的突破,来自商汤的商量、百度的文心一言等前沿大模型不断升级,带动中国大模型产业的发展。
基于数字行研解决方案的研究和实践基础,头豹研究院联合沙利文凭借百人分析师团队匿名投票机制,筛选了12个大型模型,进行了多维度的综合评估,旨在全面了解并系统梳理中国大型模型参与者在行研领域的应用表现。
评测介绍
本次语言大模型行研能力测试围绕三大核心板块展开评测:研究报告撰写能力、模型基础能力以及行业综合理解能力。通过模型在三大核心板块的表现力最终得出评测结果。其中,报告撰写方面覆盖8篇不同主题的报告,涵盖128 道问题,分析师长期跟踪的报告问题累积超1,500道题;模型能力方面覆盖6大文本产出核心能力,涵盖54道问题;行业理解方面覆盖14大核心行业,每个行业涉及12个问题,总计168题。三大板块总计超1,800道题目。分析师团队均由头豹研究院及沙利文各团队资深分析师组成,且均具备超过8个月的语言大模型使用经历。评测内容具体包括:
1. 报告撰写能力:
头豹研究院及沙利文联手打造的行企研究8-D方法论,是一种全面而系统的研究方法,包含了八大关键模块,用于对行业进行深入分析。在这一框架下,百名分析师经历了八个月的集中工作与多轮优化,最终研磨出了一套专业的8D模块提问方法,作为评估工具,通过向12个大模型提出问题,来测试和评价模型报告撰写的能力。
2. 模型基础能力:
从AI辅助行研角度出发,结合大模型基础核心能力,归总出对于行研报告撰写角度最重要的六大能力维度。
逻辑推理:逻辑推理是指从已知信息出发,通过推论规则得出结论的过程。在内容评判中,关注信息组织、连接和推导的方式,以及结论是否合理、一致,且基于事实。
类比迁移:类比迁移是指从一个领域或情境中提取概念、原则或模式,并应用到另一个不同的领域或情境。在内容评判中,评估模型在不同概念、情境之间建立联系的能力,以及这些联系的适当性和创造性。
文本生成:文本生成是指创建连贯、相关和有意义的文本内容。在评判内容时,评估文本的清晰度、连贯性、原创性以及语言的正确性和表达能力。
意图理解:意图理解是指识别和理解用户或作者想要传达的目的和动机。在内容评判中,评估信息是否有效地传达了其预期的消息或意图,以及模型是否能清楚地识别这些意图。
知识储备:知识储备是指个体或系统所掌握的信息、事实、概念和理论的总和。在内容评判中,知识储备体现在信息的准确性、深度和广度,以及模型能否正确并有效地使用相关知识。
语境转换:语境转换是指根据不同的交流环境或对象调整信息表达方式。在内容评判中,评估信息是否适应特定的受众、文化背景或沟通场合,以及是否能有效地调整语气、风格和内容以满足不同场景下的写作需求。
3. 行业理解能力:
头豹研究院成立至今,平台共积累超15万+注册用户,6,000+行业及企业研究报告积累,覆盖14个大类行业,以及上千个细分小类行业。在本次大模型评测中,沙利文联合头豹上海、南京和深圳三大研究院,汇聚了跨越多个行业领域的百余名分析师,利用自身对竞争格局、发展趋势、制约因素、以及行业壁垒等关键知识领域的深厚理解,并结合丰富的行业报告撰写经验,向模型提出了针对14个主要行业的细致问题,最终对12大模型在行业理解和内容产出方面进行深度评估。
评测流程
《2023年中国大模型行研能力评测》从研究启动到最终结果呈现分为四个阶段:
第一阶段,模型选择:头豹联合沙利文进行了深入的市场调研,借助数字行研的研究与实践经验,结合分析师团队的投票结果,确定12个大模型作为评测对象。
第二阶段,内容收集:头豹联合沙利文组建报告测评团队,随机匿名分配大模型至团队成员进行大模型测评答案搜集,并将答案交付至评估团队深入分析。
第三阶段,分析师测评:由来自不同行业背景的资深分析师组成的团队,共20人对大模型测评答案进行仔细审阅和评估。为杜绝评测人员的模型偏见问题,答案采用完全随机方式展示,模型名称以代码名称代替,以确保评测人员在审阅时不了解其背后的具体模型。最终,数据分析师对评分结果进行详细的分析和处理。
第四阶段,结果发布:发布《2023年中国大模型行研能力评测》报告结果,并通过多个媒体宣传渠道,包括官方网站、金融服务平台以及公众号等,广泛传达评测报告中的关键发现和深度行业见解,旨在深入向公众传递对中国大模型行研能力的全面理解。
评测规则
基于研究内容独立、公正及客观性的原则,头豹研究院及沙利文评测团队以严格的双盲形式进行评估打分,经过严谨公正的评分规则进行结果产出。
研究计划
《2023年中国大模型行研能力测评》研究启动—2023年10月
确认参选大模型并进行问题涉及以及答案搜集—2023年10月-11月
头豹研究院联合沙利文资深分析师团队评审—2023年11月-12月
《2023年中国大模型行研能力评测》报告发布(预计)—2023年12月
长按识别,参与评测
相关推荐
2024年港股18A生物科技公司发行投资活报告
随着全球生物科技产业的迅猛发展和创新技术的不断涌现,生物科技企业正在成为推动经济增长的重要力量 自2018年港交所推出上市规则第18A章,允许未盈利的生物科技企业在港上市后,截至2024年3月31日,共有64家生物科技公司据此完成上市,涵盖了小分子药物、核酸药物、抗体药物、AI医学影像、手术机器人等多个创新医药赛道。并且已有企业成功摘“B” 18A章节为生物科技企业提供了一个独特的上市渠道,为这些企业提供了更为广阔的融资平台和市场空间。18A企业作为生物科技领域的佼佼者,凭借其独特的上市条件、资金实力、融资能力以及市场定位,展现出强大的竞争力和市场影响力 在此背景下,本报告旨在分析港股18A生物科技产业的布局与趋势,通过系统性的梳理,面向拟上市及已上市公司股东、资本市场中介机构、市场投资者,为其更全面、深入地了解港股18A生物科技板块,为市场估值、管线评估、资本动态、企业战略等提供研究指引
2024年中国医疗大健康产业发展白皮书
在全球经济复苏的背景下,中国医疗健康产业正在经历前所未有的变革。国内经济稳步增长,医疗支出持续增加,为中国医疗大健康产业积极向好提供坚实物质基础。 中国医疗大健康产业的上行发展主要得益于国家政策的有力支持、技术创新的快速进步、市场需求的持续扩大以及全球化战略的深入实施。政策层面,中国政府将健康产业发展定位为国家战略,通过推动医疗改革、加大公共卫生服务投入、优化医疗保险体系等措施为产业发展提供坚实基础。技术层面,成药技术、大数据、人工智能等新兴技术的应用为医疗服务效率和质量的提升不断补充内生动能,由此推动个性化医疗和精准诊疗的长足发展。需求层面,随着居民健康意识的提高和人口结构老龄化的趋势凸显,社会对于高质量医疗服务期待趋增,为健康产业的发展带来了广阔的市场空间。发展层面,通过前沿医疗产品合作出海与中药“一带一路”全球供给等动作,中国与全球医疗先进市场的差距正在缩小,中国有望凭借医疗大健康的长足发展在世界舞台赢得一席之地。 基于此背景,博鳌亚洲论坛全球健康论坛大会组委会(简称“GHF组委会”)、弗若斯特沙利文(Frost & Sullivan,简称“沙利文”)联合头豹研究院发布《2024年中国医疗大健康产业发展白皮书》,旨在对中国医疗健康产业发展环境、细分赛道当前热点及前沿聚焦作出综合研判。
2024年中国压力传感器行业探析(独占版)
本报告为对中国压力传感器行业应用场景进行研究。将通过探究对中国压力传感器行业技术特征以及应用场景,探析中国压力传感器未来发展前景。
2024年中国压力传感器行业探析(摘要版)
本报告为对中国压力传感器行业应用场景进行研究。将通过探究对中国压力传感器行业技术特征以及应用场景,探析中国压力传感器未来发展前景。
2024年中国补充矿物质类保健食品行业概览报告(独占版)
随着国民健康意识的日益增强和生活节奏的加快,矿物质作为人体不可或缺的微量元素,其补充的重要性愈发凸显。补充矿物质类保健食品属于传统的保健食品,发展时间较长,近年来呈现出稳健的发展态势。老龄化加剧推动银发经济日益崛起,中老年人群对矿物质补充的需求持续增长,预计行业规模持续扩张的趋势不变。
头豹的程序员小GG强烈建议您使用谷歌浏览器(chrome)以获得最佳用户体验。