
2月2日,河北燕鼎数据处理有限公司,数据标注员正在专注工作。河北日报记者潘文静摄
2月2日上午,走进河北燕鼎数据处理有限公司上千平方米的开放式办公室,清脆的鼠标点击声和键盘敲击声此起彼伏。
200余名年轻的数据标注员,正为新零售、网络游戏、AI漫剧、智慧医疗等领域进行数据标注。
00后数据标注员苏世桤,带着炫酷的电竞耳机,为一家国内头部游戏公司的游戏做英语语音标注。
“以这句英语为例,我要标注它有没有特殊的语言环境、说话者的情绪,还需要精准识别出英语俚语。”苏世桤说。
小苏所在的团队叫英文ASR(自动语音识别)项目小组。团队共有6人,每个人都具有英语专业八级能力。
“现在的数据标注,已经不是简单的拉框标图。这个产业和AI一起成长,进入2.0版本,向着垂直深化的方向发展。”燕鼎数据运营总监田金杰说。
从自动驾驶识别红绿灯,到语音助手分辨人的口音,背后都藏着大量的数据标注。数据标注员为人工智能模型训练提供结构化数据。他们不是科学家,不写代码,却决定着AI能否“看懂”世界。
“数据采集与标注,是人工智能模型训练的基石。如果把大数据产业比喻成一座金矿,那我们就像是挖矿人。”田金杰形象地说。
抢抓保定市发展数据产业的机遇,北京燕鼎科才企业管理集团有限公司于2021年在保定高新区成立了河北燕鼎数据处理有限公司。2024年以来,保定市先后入选国家数据标注基地、国家数据基础设施建设先行先试城市,燕鼎数据也进入了快速发展期。
2023年,办公区域200平方米,员工三四十个人,营业收入300万元;2025年,办公区域1700平方米,员工300余人,营业收入2000万元——燕鼎数据董事长赵猛给出的企业发展数据振奋人心。
乘“数”而上,今年以来,燕鼎数据平均每天运营二三十个项目,任务计划已排到2027年。在标注任务方面,公司的项目丰富多样,包括图片标注、语音标注、视频标注、AI训练标注等。
去年从保定职业技术学院毕业的周怡策,如今是素材场景标注项目小组的骨干标注员。通过燕鼎数据与学校共建的大数据实习实训基地,周怡策在实习结束后就与企业“双向奔赴”,无缝衔接入职。
随着保定市加快建设国家数据标注基地,引育数据标注相关企业52家,服务华为盘古、字节豆包、讯飞星火等22个人工智能大模型,越来越多像周怡策一样的年轻人找到了用武之地。目前,全市相关从业人员已达1.5万人。(河北日报记者 潘文静)