数据标注:AI背后又一个鸡蛋悖论?
在chatGPT掀起人工智能(AI)热潮的当下,AI三要素之一的数据也成为了热门话题。
作为AI大语言模型高质量回答的基础,训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。其中,数据标注需要识别图像、文本、视频等原始数据,并添加一个或多个标签为机器学习模型指定上下文,帮助其做出准确的预测。
不过,数据标注是仍需要大量人工来完成的环节。“人工有多强大,智能才有多强大。”主营AI数据采集标注业务的杭州景联文科技副总裁刘云涛在接受第一财经采访时称,这还是一个先有鸡或先有蛋的故事。
(相关资料图)
但刘云涛同时表示,数据采集标注行业发展至今,已成为半人工智能、半人工化的行业。全栈AI数据及模型解决方案供应商倍赛科技创始人兼CEO杜霖也认为,数据标注本质上是一个研发密集型产业。
数据标注与大模型质量正相关
“当下的机器学习技术大部分依赖于human-in-the-loop,即有监督或来自人类反馈的学习。”杜霖在接受第一财经采访时表示,“而监督和反馈即人对数据的标注与评价。”
AI分析公司Cognilytica研究数据显示,在AI项目中,对数据相关的处理过程可占据超过80%的时间,其中数据标注环节的耗时占比可达25%。
数据标注是指对未经处理的语音、图片、文本、视频等数据进行转义、打点、拉线、拉框等操作,标注为电脑可以识别的信息,再上传到数据库,实现人工智能。一般来说,标注上传的数据越多、越准确,人工智能也就越智能。
招商证券表示,GPT-3与前一代产品GPT-2架构相同,但训练数据与参数量显著提升,GPT-2的预训练数据量为40GB、参数量仅有15亿个,而GPT-3的参数训练量达到45TB、参数量更是高达1750亿个,约有4900亿个tokens。从回答质量上看,ChatGPT回答内容比GPT-2更贴切、准确,并且符合人类语言习惯。
不过,杜霖认为,标注数据贵不在数量而在质量。
“从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的标注数据是大模型应用成功的关键之一。”
如何提升数据标注的质量?刘云涛认为,一是提高标注准确率,二是提高贴合度。“以自动驾驶为例,红绿灯、车道线等标注准确度越高,算法精度就越高;贴合度从5个像素点变成1个像素点,算法精度也随之提升。”刘云涛表示,“此外,多维度也是提高质量的方式。比如chatGPT在面对一些问题时面对不同的人会有不同的答案。”
我国数据标注行业迅速发展
随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。
艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长,到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。
而据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。
与此相伴随,中国数据标注行业正在迅速发展。招商证券认为,一方面,进入大数据时代后,人们各种行为的电子化、网络化带来海量数据,但产生的数据只有1%能被收集和保存,并且收集的数据中90%是非结构化的数据;另一方面,人工智能的兴起带来模型训练所用结构化数据的巨大需求,数据标注的重要性逐渐突显。
按照下游场景类型,2021年我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。而AI基础数据及软件服务提供商龙猫数据相关人士告诉第一财经,随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。
刘云涛也持类似观点。“现在最大的需求点就是自动驾驶,目前数据采集标注这个行业内所有的公司都在围绕自动驾驶,未来5到10年的需求量还会越来越大。”
资料显示,国内AI训练数据提供商龙头海天瑞声(688787.SH)正在积极发力自动驾驶业务,该公司已于2022年6月上线第三代智能驾驶标注平台并发力研发第四代产品,截至2022年第三季度,海天瑞声已验收订单以及在手订单合计约5000万元,同比增长超200%。
AI大模型也将带来大量需求。刘云涛称,“预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求,而且这是一个海量的需求,以目前国内几家头部数据标注公司来看,目前产能还不足以满足需求。”为此,景联文科技正加大对大模型方案的投入并深化相关业务。
AI背后:人工有多强大,智能才有多强大?
标注数据如同实现人工智能的一砖一瓦,对于数据采集标注企业来说,数据质量和经营效率无疑是最直接的竞争力,除了自研标注工具外,数据标注员的管理是重要抓手。
“当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。”龙猫数据相关人士表示。
据悉,数据标注员是数据标注公司最核心的岗位之一,主要工作是借助标注工具,对人工智能学习数据进行加工,数据一般为图片、视频、文本等,通过不断地拉框、标点等操作,为人工智能提供足够的数据集。
此前,数据标注员的门槛较低,只需要细致有耐心;如今在一些高难度、高质量标准的标注任务中,标注员的素质对标注过程和结果的准确性和稳定性至关重要。例如,在自动驾驶、AIGC等数据类型的标注任务中,标注员需要有相应领域的专业知识和技能才能准确地标注数据。
龙猫数据相关人士表示,数据标注行业压力也很大,市场竞争激烈,标注公司为了保持竞争优势,需要投入更多的成本来吸引、留存、培养和管理标注员队伍,而这些额外的成本也增加了行业的人力密集型特征。
刘云涛也赞同上述观点,不过,他表示,数据采集标注行业发展至今,已成为半人工智能、半人工化的行业。
面对大语言模型动辄上百亿参数的数据质量控制,需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流,让机器去做预处理,人去做深层的基于理解的反馈,以减少人在简单问题上的精力消耗,专注在专业问题上的标注。杜霖介绍,“比如交叉验证模式,即通过人和机器混合验证的模式或者复检的模式,来进一步提升标注质量;此外一系列标准化任务培训的机制,以确保人类反馈的答案一致性,也都是通过平台来实现的。”
景联文也采用主动质检加被动质检的方式,前者靠人为去做质检,后者是靠算法去做一些预识别。“现在数据标注行业还是‘人工智能的背后,人工有多强大,智能才有多强大’。虽然有标注工具,但这还是一个先有鸡或先有蛋的故事。”刘云涛坦言。
据悉,目前数据标注工具的准确率部分仅百分之几,部分准确率则可以达到80%、90%。“机器标注的识别率越高,我们的人工需求就会越少,成本、利润、速度、质量都能更加可控。”刘云涛称。
杜霖认为,数据标注行业的核心是高效的人机交互工具和任务分发管理平台,“我们公司员工大部分都是围绕着我们平台来做研发和运营管理,真正的标注则通过赋能产能网络去完成。我们主要积累的技术是围绕在怎么通过工具和更高效的流程来实现自动化的任务拆解、预处理与匹配,所以我们是本质上是一个研发密集型公司,而不是一个劳动密集型公司。”
龙猫数据相关人士则称,随着技术不断发展,未来数据标注行业可能会实现更高的自动化程度,但应用领域不同,仍然需要一定数量的标注人员来进行标注任务。
-
数据标注:AI背后又一个鸡蛋悖论?
第一财经 2023-04-12
-
哈弗枭龙MAX接受预定 99元送终身基础保养|每日讯息
搜狐科技 2023-04-12
-
山西多家煤矿被查封、冻结!涉晋能控股等多家煤企_天天聚看点
山西省自然资源厅 2023-04-12
-
图解鲁泰B年报:第四季度单季净利润同比增166.71%|世界要闻
证券之星 2023-04-12
-
给女同学送什么生日礼物好
太平洋礼物网 2023-04-12
-
天天亮点!驾照等级划分标准_驾照等级
互联网 2023-04-12
-
世界观速讯丨山东沙尘天气持续到啥时候?13日!这7市和2地区还有雨
大众日报 2023-04-12
-
健身车有什么好处?
互联网 2023-04-12
-
推特不再是一家独立公司 现在是马斯克X公司的一部分
同花顺财经 2023-04-12
-
【天天聚看点】水不同温度下的汽化热_水的汽化热是多少呢
互联网 2023-04-11
-
数据标注:AI背后又一个鸡蛋悖论?
第一财经 2023-04-12
-
哈弗枭龙MAX接受预定 99元送终身基础保养|每日讯息
搜狐科技 2023-04-12
-
山西多家煤矿被查封、冻结!涉晋能控股等多家煤企_天天聚看点
山西省自然资源厅 2023-04-12
-
图解鲁泰B年报:第四季度单季净利润同比增166.71%|世界要闻
证券之星 2023-04-12
-
给女同学送什么生日礼物好
太平洋礼物网 2023-04-12
-
天天亮点!驾照等级划分标准_驾照等级
互联网 2023-04-12
-
世界观速讯丨山东沙尘天气持续到啥时候?13日!这7市和2地区还有雨
大众日报 2023-04-12
-
健身车有什么好处?
互联网 2023-04-12
-
推特不再是一家独立公司 现在是马斯克X公司的一部分
同花顺财经 2023-04-12
-
【天天聚看点】水不同温度下的汽化热_水的汽化热是多少呢
互联网 2023-04-11
-
世界看点:京东也提交申请了!人民币可以购买港股,对投资者来说意味着什么
证券日报网 2023-04-11
-
焦点资讯:数读 | 宝马一季度在华销量达19.4万辆,纯电动车销量增长超两倍
懂车帝 2023-04-11
-
民间借贷担保人期限几年_民间借贷担保人期限
互联网 2023-04-11
-
【全球热闻】[年报]陕天然气:抢抓发展机遇 2022年净利润同比增46.31%至6.16亿元
全景网 2023-04-11
-
香榭花园房子怎么样?香榭花园2023均价多少钱?
海南二手房地产网 2023-04-11
-
世界通讯!惠普5100打印机驱动怎么安装?惠普5100打印机参数是什么?
城市头条网 2023-04-11
-
如何更换煤油取暖器中的灯芯_七夕送没见过面的女孩子什么礼物好呢
趣礼物 2023-04-11
-
帅哥美女同框比耶 权志龙许允真中村一叶合照_世界观速讯
搜视网 2023-04-11
-
华润水泥控股(01313.HK):一季度预亏3500万-4500万港元、同比盈转亏
格隆汇 2023-04-11
-
分贝通量身定制“一体化解决方案”,助力「宽腾医疗」解锁降本增效新模式
大京网 2023-04-11
-
【天天聚看点】天津身份证首次办理指南
本地宝 2023-04-11
-
全球微速讯:异动快报:冰川网络(300533)2023年04月11日10时59分触及涨停板
自选股智能写手 2023-04-11
-
国家统计局:3月份居民消费价格同比上涨0.7%_当前观点
新京报 2023-04-11
-
今日最新!艾尼克斯在哪_艾奎尼克斯法杖怎么做
互联网 2023-04-11
-
全球微资讯!平台、生态,互联网二十年发展史
虎嗅APP 2023-04-11
-
也门政府欢迎沙特同胡塞武装举行和谈|世界热头条
央视新闻客户端 2023-04-11
-
如何用微短剧讲好政法故事?浙江横店在探寻答案|世界最新
重庆法制报 2023-04-11
-
天津地铁累计客运量突破40亿
证券时报网 2023-04-10
-
用户全覆盖 办税无国界-热点
法治日报-法治网 2023-04-10
-
热门:美就业市场持续降温 多项数据拉响警报 专家:美国衰退或已经开始
中国日报网 2023-04-10