首页 > 科技 > 正文

教AI认识世界——揭秘智能产业背后的人工智能训练师

来源: 文化视界 2023-04-17 10:56:01
听新闻

在人工智能领域有一句箴言:有多少人工就有多少智能。据估计,在中国有约千万名“人类专家”在给人工智能喂数据。

  近期,随着人工智能的大火,全国多地数据标注招聘市场火热、相关创业模式也不断涌现,提升数据质量成为人工智能开发商“弯道超车”的最新策略。

  早在2021年,人社部就发布了《人工智能训练师》国家职业技能标准,覆盖数据标注员、人工智能算法测试员两个工种,可见当时相关产业已经成势。这份标准将人工智能训练师分为5个等级,从初级工到高级技师。

教AI认识世界——揭秘智能产业背后的人工智能训练师

山东济南,人工智能基础数据产业基地内,正在工作的“人工智能训练师”。图片来源:科技日报。

  据了解,数据标注员每天的工作就是通过打标签的方式,辅助人工智能学习,可以说数据标注师就是人工智能背后的“人工”。

  位于济南市明水国家经济开发区百度智能云(山东)人工智能基础数据产业基地,是百度在全国布局的第二家、山东布局的第一家数据标注基地,目前已经容纳了1500名“人工智能训练师”。

  人工智能训练师成就业新方向

  中国工程院院士邬贺铨曾对人工智能训练师做过解释,他表示:“比如AI训练师会进行智能驾驶的训练。智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”

  自动驾驶是数据服务需求最大的行业之一,还需要大量的标注数据对模型进行训练和调优。同时,除了“聪明的车”,自动驾驶同样需要“智慧的路”,通过车路协同的共同数据训练,才能实现降本增效。因此,专业、高质量的数据才能够保证自动驾驶的精准和安全。

  实际上,现在人们生活中常见的小度智能屏、小爱同学、天猫精灵等智能产品背后,都有AI训练师的身影。

教AI认识世界——揭秘智能产业背后的人工智能训练师

给汽车进行“拉框”,一张图片就要重复数次类似操作。图片来源:网络

  就像从零搭建一座结构精密的建筑,每个AI的成长都会经历人工训练的过程。导航语音的生成,智能音箱的应答,人脸支付,动作捕捉……在业界有一种说法,数据标注员是“人工智能的老师”,是他们日复一日地拉框,教会了人工智能理解人类世界。

  现在,你去问ChatGpt,它也会“亲口”承认,“在我的训练过程中,开发者们还使用了一些人工标注的数据集,以帮助我识别语言中的关键概念和语法规则。这些数据集通常由人类专家进行标注,包括注释句子结构、命名实体识别和情感分析等等。这些标注数据可以帮助我更好地理解自然语言,并使我更准确地执行我的任务。”

  人工智能的主流方向是深度学习

  人工智能的三大基石是数据、算力与算法,数量越多质量越高的数据,往往越能够训练出更“聪明”的模型。

  人工智能的主流方向是深度学习。在过去,由人来告诉机器,猫身上都有哪些特征,机器根据这些特征判断一个物体是不是猫;深度学习则是通过“喂养”大量不同猫的图片,机器就能自行归纳出猫的特征。这就需要大量经人工标注的图片,有多少智能,就得付出多少人工。

教AI认识世界——揭秘智能产业背后的人工智能训练师数据标注领域有过一个神话——ImageNet项目。图片来源:网络

  数据标注领域有过一个神话——ImageNet项目。这个项目数据库拥有超过1400万张已被标注的图片,其中识别出的物体种类超过20000种——包括120个不同品种的狗。

  人工智能的发展离不开数据标注

  “人工智能的发展离不开数据标注,没有数据标注,就没有人工智能。没有数据标注,就没有无人驾驶、刷脸支付、阿尔法狗、智能音箱。”河南商丘某公司招聘广告上这样写着。

教AI认识世界——揭秘智能产业背后的人工智能训练师济南也有不少公司发布关于数据标注员的招聘需求,其中的招聘薪资为每月3-5千元或4-9千元不等。图片来源:网络

  记者在浏览某招聘平台时,发现在济南也有不少公司发布关于数据标注员的招聘需求,其中的招聘薪资为每月3-5千元或4-9千元不等。招聘要求的学历多为大专以上学历,专业不限。在AI产业中,这类岗位令人联想起电子厂的“流水线”工作。

  有个别公司还在招聘需求里写了职业培养方向:数据标注师—数据质检师—项目培训师—项目主管—项目经理。

  记者发现,除了较大规模的数据标注产业基地,数据标识行业“个体户”正大量涌现。在百度贴吧上,大量项目正在召集所谓“团队”接标,从发帖内容可以看出,只要有一个相对固定人数、固定工作时长的团队,就可以接下大公司分发下来的项目标。

教AI认识世界——揭秘智能产业背后的人工智能训练师正在给汽车拉框的数据标注员。图片来源:网络

  “如果数据量太大,一般公司会雇外包公司承担。”有从业人员告诉记者。外包公司将数据标注变成了算计件工分的一种工作。有从业者介绍,刨去场地租赁、电脑和桌椅配置、每月水电费、人工开支,这种个体分包商赚取的是中间差价。

  不过,这个行业当然也正向着规模化、公司化的方向发展。行内有两种类型的公司,一种是大型互联网公司的内部部门、一种是外包公司。后者正成为资本市场上的“香饽饽”。

  数据标注时薪取决于工作内容

  按照招聘平台上的信息,人工智能训练师是依据工作内容来定时薪价格。时薪能达到30元档的是指3D类工作,一般是对实际场景中的特定事物进行标注,例如对一条道路上的雷达车道线、雷达目标拉框。接着是语音类,是指对音转文、方言转写、唤醒助手等进行标注。

  2D类被认为更简单,是指对平面图像、文字段落进行标注,或者是OCR(文字识别)转写,例如对交通违规图片里的人和车、红绿灯、交通标示进行识别。

  价格最低的打码类,是指验证码里的计算题、哪些图片中含有火车这类工作。

教AI认识世界——揭秘智能产业背后的人工智能训练师据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。图片来源:第一财经

  “数据标注十分枯燥无味,纯体力活,每标注200个就有一种想吐的感觉。”正在浙江某高校读研的小何对记者表示。

  以此谋生的数据标注师,工作强度可能更为难忍,除了需要耐心在电脑前面坐上几小时、耗尽眼力,可能还要面对原始数据里的限制级内容,涉及性、暴力、仇恨言论等。

  适合低学历等人群就业

  在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。言外之意,这是一份门槛不太高的职业。

  数据标注产业促进了不少城镇和农村就业,在河南、河北、贵州等地,还出现了一些特色的“数据标注村”。

  “95后”张文涛来自陕西省铜川市宜君县,在做人工智能训练师之前,他只去过一次县城。14岁那年,他因为意外造成了腰椎粉碎性骨折,后来去县城办了残疾证。

  直到2021年4月,26岁的张文涛进入宜君县数字就业中心,成了一名人工智能训练师,这是张文涛第二次来到宜君县城。

  人工智能训练师通过对大量文本、图片、语音、视频等数据进行归类、整理、纠错和批注等,让机器人因为大量数据的训练而变得越来越精准,相当于机器人的“教练”。

  张文涛的工作是给高德地图做数据标注,从此,每天上亿人在用的这款地图导航APP,背后有了张文涛的贡献。因为腿脚不便很少出门,不能像普通人一样去很多城市和景点,所以他把这项工作看成是自己在线上的“旅游”。

  人工智能训练师看上去是人工智能领域一个“入门”工种:技术门槛低,招工人群范围广泛。他们通过每天数千次的重复动作,和最前沿科技的人工智能产生联系。也因此,外界给这个行业贴上了“AI富士康”的标签。

  然而,围绕着人工智能训练师的低薪、长期伏案、内容重复和精神压力,社会舆论也正围绕着相关职业保护而发酵。如果无法改善其工作环境、提升价值,这种职业的长久性仍令人存疑。

  人工智能发展或取代数据标注师

  为了训练人工智能,数据标注行业带来了技术红利,但如果人工智能发展到一定程度,甚至有可能够取代数据标注师的工作。

  数据标注看似“无脑”,但却因实际落地需要而需要严谨的工作态度。比方说,如果对自动驾驶领域的数据标注缺乏质量把控,那么相关软件就无法令汽车安全地行驶在道路上。

  随着GPT-4和文心一言的陆续出场,人工智能正“升级换代”,数据标注行业也伴随着新的变化。

  目前的人工智能训练,大家更多地聚焦在数据加工这件事,但如果再往前看,更多的是数据的优化、还有一些相关的解决方案。数据标注是一个很好的行业入门工种,作为从业人员有机会更深度参与到产业链协作当中,例如后续当数据标注越来越机器化,人工和自动化之间要有机的协同,这也对员工提出了更高的要求。

  但是也有不少学者对此表示乐观,当数据标注越来越机器化,人工智能训练师是一个转换工种的机会,标注员们现在标注数据,未来可能向数据治理、数据解决方案设计和项目管理等方向发展。

  “得数据者,得人工智能”。未来,随着AI应用场景逐渐多领域化,在行业内部,人工智能训练从业者也必将随着AI行业而一同进入细分市场追逐阶段,将迎来的是机遇与挑战并行。(来源:海报新闻)

[ 责任编辑: ]

相关阅读