数据标注如何实现智能化?

    2021-07-11 07:08
    头豹研报

    行业研报人工智能行业系列(一):智能数据标注技术三大实现路径

    2022-03-01

    全文字数:1507字,精读时间:3分钟

    本文援引于报告《行业研报人工智能行业系列(一):智能数据标注技术三大实现路径》,首发于头豹科技创新网(www.leadleo.com)。

     

    头豹科技创新网内容覆盖全行业、深入垂直领域,行业报告每日更新;政策图录、数据工具助您轻松了解市场动态;智能关键词轻松搜索,直奔行业热点内容。

     

    诚挚欢迎各界精英交流合作,头豹承接行业研究、市场调研、产业规划、企业研究、商业计划、战略规划等业务,您可发送邮件或来电咨询。

     

    客服邮箱:CS@leadleo.com 咨询热线:400-072-5588


    人工智能数据集服务行业目前较为成熟的商业模式有哪些?

    数据标注行业较为成熟的商业模式可分为定制化服务及标准化服务。定制化服务根据客户需求可分为全定制化服务及标注定制化服务。全定制化服务指客户仅针对AI项目开发需求提出数据集需求,由数据厂商完成从数据集构建、数据采集到数据处理、质检等多个流程。标注定制化服务指厂商对客户提供的未标注数据集进行标注。标准化服务包括数据集服务与智能标注服务。数据集服务指厂商根据市场需求,自主生产具备较高通用性的数据集,并统一定价出售。智能标注服务搭载于AI开发平台,为AI开发者提供基于平台云计算能力的智能标注服务。

     

    从市场需求层面来看,相对于定制化服务,标准化服务的市场需求较小。造成该需求差异的主要原因来自于AI开发的重心逐渐由数据通用性较高的互联网等领域逐渐倚向数据通用性较低的新兴领域或专业领域。从短期来看,定制化服务的市场需求占比将保持持续增长的趋势。

     

     

    目前用实现智能数据标注的主要技术路径有哪些?

    智能数据标注指利用成熟的AI算法模型对数据进行自动化标注,从而降低人工标注在数据标注服务中的占比。智能数据标注实现路径的差异主要来自于对选用模型的区别及人工标注参与的占比:

     

    首次标注:智能标注服务用户对部分未标注数据进行标注,以其作为智能标注工作的指引。在需求方完成部分标注工作后,智能标注服务可采用进一步人工标注,增加智能标注样本参考量以提高AI算法模型标注准确率;或是直接采用监督模型或半监督模型对剩余未标注数据进行标注。AI算法模型在完成第一次标注的过程中会对难以标注的数据样本进行筛选;

     

    二次标注:难例数据样本交由用户或标注团队完成剩余标注工作,或进行人工优化再交由AI算法模型进行二次智能标注。该过程将循环数次,直到数据的标注满足用户需求。

     


     

     

    深度见解:无监督学习尚未成熟,数据集服务市场需求持续增长

    人工智能技术的发展目前仍处于监督学习阶段,以深度学习为基础的人工智能项目的开发与落地对标注数据依赖程度较高。半监督学习与无监督学习可从未标注数据中发展内涵的信息及逻辑,实现计算机对未标注数据的自学习。理论上,半监督学习与无监督学习技术可切实降低对标识数据的依赖,从而降低对数据标识服务的市场需求。然而,现阶段半监督学习仍处于初步应用阶段,无监督学习仍处于理论阶段。从短期来看,人工智能技术的实现仍将以监督学习技术为主。随着人工智能技术应用的进一步深化,包括数据标注服务在内的数据集服务市场需求仍将保持高速增长,数据集服务行业将迈入高速发展阶段。

    本文来源于头豹科创网,原创内容,作者:头豹研究院。转载或合作请联系 support@leadleo.com,违规转载法律必究,详见说明。如您有商务合作需求,请联系我们,我们将尽快与您取得联系。