36氪:「自动驾驶 数据标注」爆发,起底五大创业新秀的商业机密|汽车数智内参!
2022-12-01名家专栏
这句话在人工智能崛起的十余年里,俨然变成了一个挥之不去的魔咒。2022年,工信部副部长张云明指出,“截至目前,我国人工智能核心产业规模已经超过4000亿元,企业数量接近4000家。”这背后,从事数据标注的劳动人口超过千万,其中从事「自动驾驶 数据标注」的劳动人口已达到500万左右。
这句话在人工智能崛起的十余年里,俨然变成了一个挥之不去的魔咒。2022年,工信部副部长张云明指出,“截至目前,我国人工智能核心产业规模已经超过4000亿元,企业数量接近4000家。”这背后,从事数据标注的劳动人口超过千万,其中从事「自动驾驶 数据标注」的劳动人口已达到500万左右。
2022年,随着自动驾驶数据标注的需求量开始爆发,简单粗暴的堆人力,已无法有效解决“需求波峰”时供应不足的行业痛点。
该如何利用技术的手段,缓解人力的困局?该如何让「自动驾驶 数据标注」的效率提升、质量可控?已经成为不少数据标注创业者、自动驾驶从业者共同思考的现实问题。
基于此,本期《36氪·汽车数智内参》将围绕「自动驾驶 数据标注」的需求趋势、供给趋势做出判断,并为主机厂、自动驾驶机构、芯片机构等寻找一批前沿的科技创新项目。
需求侧:「自动驾驶 数据标注」的需求将长期存在,量级无上限
从2021年下半年起,主机厂「数据标注的需求信号」开始释放,并呈现逐步扩大的趋势。
据行业内部人士透露,“去年下半年,国内一大批主机厂开始在内部搭建自动驾驶团队,去年的人员规模大概从几人到十几人不等,今年已经突破百人。”“某一主机厂,单单是研究体系的数据一天就有三个T。”
从主机厂的数据标注投入金额看,去年的投入金额在几十万左右,今年的投入目标从大几百万到上千万不等,明年的预算已达到3000万人民币左右。对标国内某头部自动驾驶公司,其每年在数据方面的投入在6000万人民币左右,不难看出国内主机厂在自动驾驶的赛道上已开始奋起直追。
从相关数据标注公司的业务印证看,2021 年,澳鹏在中国市场收入近 2500 万美元,年增长率为 442%,预计 2022 年收入增速达到 100% 左右。其中自动驾驶相关的份额占60-70%以上,增长率达200%左右。其自动驾驶2D/3D 融合标注产能已达到 2 个月 1000 万帧,覆盖商用车、乘用车等各类车型。
从自动驾驶的不断演进看,随着激光雷达、摄像头等感应器的不断丰富,自动驾驶的数据标注类型与数量在不断增加;随着高速路、城市快速路、停车场等应用场景的不断丰富,自动驾驶的数据标注量呈现出指数级上升的趋势;随着更多量产车的上路,未来回传的数据量也将是大量且多元的……这些都对数据标注产生了持续的需求。
与此同时,自动驾驶行业「缺乏统一标准」「重复造轮子」的混乱局面,反而也催生了大规模的数据标注量。
据行业内部人士透露,“在自动驾驶行业里,几乎每一家涉足的机构都有各自的标注标准,甚至是标注工具。需求方的要求五花八门,每一家都在建立自己专属的数据集,且行业内无法通用,这就导致不少数据标注公司可能在‘同一张图片上’反复做不同的标注。”
-
到2025年(中期)、2030年(长期),自动驾驶数据标注的整体市场空间仍无法精准估算,但自动驾驶数据标注持续且长期的需求是非常确定的;
-
自动驾驶数据标注的需求量级也是无限的,并不会因为行业较长时间停留在L2+级别,而导致数据量不大;
-
国内主机厂不断提高数据标注预算的机会窗口期,将至少持续5-10年甚至更长;
-
主机厂与数据标注创业机构“强绑定”将成为趋势,这将有利于主机厂长期“把控”数据安全,且抢占产能,从而使自动驾驶相关项目的落地更具确定性。
供给侧:创新将重点围绕“AI辅助标注算法升级”和“精益流程”两条路径展开
从目前自动驾驶数据标注的供应商看,目前国内以百度、澳鹏、海天瑞声、数据堂、龙猫数据、倍赛科技等为代表,主要的合作模式为提供“标注工具+众包服务”。此外,在这个行业中还有中小型企业大约700-800家,它们大多数停留在“劳动密集型”的定位之中。
1.0时代,2012年前以开源的单机标注工具为代表,可以满足<10K数量级的标注处理;
2.0时代,2012年后深度学习的火热,催生了以海量数据“喂养”人工智能模型的更具性价的研发方式,进而催生了更大量级的数据标注需求。因此在2012年-2019年期间,是以数据标注平台为代表的,可以满足10K-100K数量级的标注处理;
3.0时代,2019年后自动驾驶的火热则不断对数据标注的量级提出更高要求,100K、1000K的需求量演进几乎成为行业共识,单纯堆人力的方式已经变得既不经济也不效率,行业呼唤着更加智能化的数据生产平台,或者是更加精益化的生产流程出现,以应对>100K的数据标注需求。
通过供给侧的技术演进路径不难看出,从2012年至今,整个数据标注的技术正在从“单机标注工具——数据标注平台——智能数据标注平台/精益流程生产平台”的趋势演进。在2022年这个关键节点,行业内已经出现不少优质的“智能数据标注平台/精益流程生产平台”,其背后的创业机构也纷纷在今年完成早期融资。
-
「自动驾驶 数据标注」公司需要大规模堆人力的魔咒,正在不断被技术所打破;
-
通过AI辅助标注算法的升级,减少人力、提升标注效率,是未来数据标注创新的路径之一。
-
将工业领域的“精益生产”引入数据标注行业,从顶层设计起做出完整的“精益流程”的梳理,辅以AI技术提升效率,并降低对“个人能力”的依赖,是未来数据标注创新的路径之二。
-
整体而言,2019年以来这一波借助科技起势的「自动驾驶 数据标注」公司,未来仍面临诸多不确定性:未来如果新的算法出现,不需要大量的数据标注时,创业公司该如何是好?是否现在就需要提前谋划在数据标注之外的价值沉淀?
1. 博登智能 |未来两到三年,重点发力无监督数据处理方法
2. 整数智能|持续深化平台的自动化能力,与行业共享数据闭环带来的时间复利
4. 卓印智能|将工业中「精益管理」模式引入数据标注流程
5. 37度数据|主打“高性价比”和“安全”跨领域数据标注平台
博登智能——自动驾驶数据闭环工具链供应商
博登智能成立于2019年,定位成为自动驾驶数据闭环工具链供应商。今年10月份,其正式对外宣布完成数千万元天使轮融资,投资方为浙江见识创业投资管理有限公司等。
核心产品为智能驾驶数据处理平台,该平台是通过博登自研的数据闭环工具链,结合AI算法的自动标注能力开发完成的,具有完全自主知识产权。该平台可支持覆盖市场上95%以上传感器驱动的数据采集、存储,预处理,标注,模型训练/部署等整套数据处理流水线系统,形成数据闭环。
创始人兼CEO赵捷博士拥有智能机器人专业背景,曾任德国汽车行业Tier1企业核心算法高级工程师,并在智能汽车领域深耕十余年,参与开发多款量产智能驾驶项目(如2019款宝马5系等);首席科学家赵万磊为厦门大学模式识别实验室教授,拥有多项计算机视觉、图像检索等领域关键科技成果。
「自动驾驶 数据标注」正处于从作坊模式演变为现代化工厂运营模式的进程中,行业对于能够实现“批量生产”的工具和现代化的管理运营体系持续需要,叠加自动驾驶测试环节中的大量需求。博登智能有潜力将数据采集、数据合成、仿真系统等单一工具“串联”成完整的工具链,更深程度的切入自动驾驶行业。
在创新维度,由博登自研的BASE标注平台(BASE V4.0版本),已迭代为采用图状态管理模式,引Potree提3D点云加载速度。目前,已通过 ISO9001、CMMI3认证,已累积获得6项专利和16项软著。
在研发维度,目前博登的软件研发团队成员为25人,均来自985院校和海归;研发投入占总成本的30%-40%。在研发资源方面,其与厦门大学有深度的学术合作,并正在与上海某高校规划相关研发实验室的合作。
在成熟维度,博登智能的技术成熟度已达到进入主机厂进行落地合作的程度,目前,该平台已与国内龙头车企等企业达成长期合作,项目估算超两千万。在产品成熟度层面,其系统内的标注工具可通过自主研发的自动识别目标物体、自动跟踪物体、自动3D框贴边、3D框到2D图片映射、2D语义分割、3D语义分割等技术,在小于1秒的时间内落地实现快速标注多种实例,比人工的效率提高50倍以上。
在价格维度,相较于传统的纯人工标注方式,可以节省30-40%的成本,并提高30%的处理效率。
在产能维度,以3D图片为例,其AI全自动标注的日均产能为>20K张,比AI辅助标注的日均产能高5K张,比人工标注的日均产能高10K张。
不同标注之间的产能对比
在前景维度,在未来2-3年的周期中,博登智能将重点发力无监督数据处理方法,建立独有的数据集,以省去部分标注成本;从长期的视角出发,博登智能将持续专注于高附加值、有技术门槛的产品创新,在数据闭环的服务过程中,将深挖在自动驾驶领域中的机会。
整数智能——AI企业的数据合伙人
整数智能成立于2019年,致力于为人工智能领域的企业及科研院所提供 一站式的数据管理服务。
其核心产品一为,整数智能自研的「MolarData」数据众包管理平台,能够智能调度全网网民,在平台算法的支持下高质高效地完成人工智能领域的数据需求。目前,在自动驾驶领域可实现图像、文本、音频、视频、3D点云等众多类型的标注需求,智能工具组合的支持下标注效率可提升两倍以上,与此同时,可以运用其后台系统成体系化管理任务并进行质量控制;核心产品二为AIPower模块,可提供包括AI预标注、AI审核在内的 Al辅助功能,持续助力算法模型迭代。
潜在价值:随着AI预标注、AI审核在内的Al辅助功能业务量增大,将反哺其算法模型的迭代,这将为企业沉淀出优质的算法财富。未来,整数智能持续看到4D标注业务的发展前景,在这个方向叠加自动化标注的技术,将产生巨大前景。
在创新维度,整数智能解决方案处于一个比较全面发展的状态,不仅拥有智能算法预处理等AI含量高的方案,也拥有基础数据标注工具。在标注效率、标注质量定制成本等方面均具有优势。与此同时,可支持众包功能和智能标注功能。
在研发维度,目前整数智能的研发投入已达到千万级别,研发占总成本的70-80%;整体研发人员占总员工比例在50%以上。截至目前,其在申软著数量达到30+,在申专利数量达到5项。
在成熟维度,在技术成熟度上,整数智能的AI算法仍处于持续迭代的路上。在产品成熟度层面,其「MOLAR AI数据库服务」通过市场分析,确定客户需求,提供量身定制的采集方案。同时,已采集数据标注将会有内部专业人员验收检验,安全留存后投入使用。目前,整数已制作10万小时音频数据集,覆盖金融地产、智能音箱、银行保险、智能客服等领域;「MOLAR 数据生产SaaS平台」,SaaS平台能够给AI工具辅助提效。如:图像拉框辅助,整数研发光流跟踪算法进行逐帧辅助标注 节约80%以上的人力标注时间;OCR转写辅助:平台基于CTPN算法构建OCR预标注系统 算法完成初步文字检测,节约50%以上人力;ASR辅助音频采集:通过ASR算法对采集到的音频进行自动检验 能够节约60%左右的人力复核成本。目前团队自研的30余个AI辅助提效工具大大增加了标注过程中的效率和准确度。目前,其自动驾驶合作方包含主机厂、teir1、自动驾驶公司,合作方数量累计20+。
在产能维度,目前整数智能单月最大产能可实现最大产能3000万人民币价值的业务量。
在前景维度,未来整数智能也持续看到4D标注业务的发展前景,即基于视觉去重建整个三维空间,起到类似雷达的效果。而在这个方向叠加自动化标注的技术,将产生巨大前景。
恺望数据——自动驾驶的数据快充站
恺望数据成立于2022年2月,是一家为车企与自动驾驶公司提供一站式数据解决方案的公司。针对数据供给不稳定、流程繁杂、工具低效等痛点,恺望致力于让数据生产线从手工作坊向标准化、规模化和自动化转变,提升自动驾驶数据生产效率,保持产能稳定并降低成本,加速自动驾驶落地。
其核心价值在于,综合技术和运营两方面优势,对数据标注生产过程进行原子化拆解,实现数据标注全流程的整体增质与提效;通过超大规模资源聚合 ,让高门槛的小众供给,变成低门槛的大众参与,缓解自动驾驶数据标注对“人”的专业要求。
潜在价值:通过持续运营“高并发的技术栈 + 数据驱动的生产线”,未来将可以在自动驾驶数据标注大规模的需求下,保持实时的AI算法迭代。这也将在数据标注全流程中不断降低对人力的依赖,未来有望不断提升标注效率和质量。
在创新维度,恺望数据综合技术和运营两方面优势,对数据标注生产过程进行原子化拆解。通过对数据标注全流程的精细化设计与管理,可提升全流程效率至少30%以上。
在研发维度,目前恺望的研发投入占总成本的60%左右,主要围绕底层数据流转,代码管理代码,编排系统流水化作业等方面展开,未来将重点投入在算法研发和技术团队的扩张层面。从团队人员构成看,创始人于旭此前为Uber中国第4号员工、Momenta 第3号员工 、字节跳动 AI数据服务资源负责人,拥有平台大规模运营管理和自动驾驶行业经验;运营合伙人任丹丹此前在梅赛德斯-奔驰汽车金融服务,是运营流程管理专家;技术合伙人陈鑫此前在Momenta数据平台Tech Lead,拥有标注 - 数据流 - 训练 - 仿真平台经验 。
在成熟维度,其产品在2022年3月份已开始冷启动运营,平台预计在2022年年底投入规模生产。目前在接的客户有16家,其中包括4家主机厂、8家自动驾驶公司,已全部进入到量产阶段,月度流水已实现小几百万的规模。
在价格维度,其价格比行业均值低10-15%,同时可以为自动驾驶相关客户提供咨询服务等增值服务,帮助机构从0到1快速进入自动驾驶研发。
在产能维度,面对自动驾驶数据标注需求的快速增涨,其平台可支撑100万人同时在线。单月最大产能以2D&3D图像标注为例,可实现阅读1000万图的产能。同时,面对行业内可能存在的需求“波峰-波谷”问题,其通过平台大规模运营经验和相关技术手段可实现有效缓解压力的效果。
在前景维度,面对汽车智能化产业链从作坊进化到现代企业化管理的过程中,不断去人力化、AI辅助化将会成为未来的发展趋势。科技型数据标注公司,在其中不仅仅可以把握自动化标注带来的需求红利,还可能在数据挖掘等方向上,衍生出更多的产品,这将会激发出恺望更大的潜力。
卓印智能——AI应用开发与落地的加速器
卓印智能成立于2021年12月,致力于成为AI应用开发与落地的加速器 。为机器学习团队提供,AI数据全生命周期的服务,以数据为引擎,加速产业智能化进程,降低AI落地成本。
其数据标注平台,引入工业领域的“精益生产”思路,通过拆分,减少每个环节的需求,理解难度和标注难度,提高2倍效率;样例帧优先处理,完成后,其他同场景的数据,参考样例帧进行处理即可,降低了判断难度,提高2倍效率;精益流程改进:流程中接入全面
质量管理方法,在样例帧标注和质检时即开始关注质量问题,减少返工工作50% ;可视化把控进度,保证生产资源的高效利用。
潜在价值:在自动驾驶数据标注大规模的需求下,保持实时的AI算法迭代,在数据标注全流程中不断降低对人力的依赖,未来有望不断提升标注效率和质量。
在创新维度,基于精益生产,将生产工序细分 后,未来将组建金字塔型的生产力资源结构,执行不同环节的生产需要,以降低生成成本,提高毛利率。目前,行业平均毛利率20-25%,在精益基础上,卓印将达到毛利率60-70%。
在研发维度,目前其核心团队基本为研发人员,具备5年+ 从业经验。985、211院校毕业生占比超过50%,海归硕士及以上学历占比超过50% ,核心成员来自阿里、百度、谷歌等头部互联网/世界500强企业。CEO俞开文为西北工业大学学士,纽卡斯尔大学 硕/博士,曾任百度/阿里资深AI技术架构师, 声讯AI负责人,艾米机器人技术VP ,拥有丰富的人工智能算法、技术架构经验和大型ToB项目落地经验。
在成熟维度,目前其已拥有基础产品,即标注平台,可实现2D、3D标注;供应商资源已累计几十家。由于整体还处于早期阶段,技术成熟度和产品成熟度有望进一步提升。
在价格维度,整体定价与行业平均值持平,随着算法迭代可持续为合作方带来长期的降本、增质。
在产能维度,平台上线后单月最大产能预计可达到3000-5000万元人民币价值的标注项目。
在前景维度,根据卓印的未来规划,2022年将实现AI知识生产平台PMF、AI知识管理平台MVP。到2025年,将实现80%服务的SAAS化。
37度数据——一站式AI数据解决方案提供商
37度数据成立于2019年4月,由金山云投资,聚焦为AI行业提供一站式AI数据解决方案。团队均来自业内一线的AI及AI数据服务公司,具备10年以上的专业数据服务经验。2021初获得保利资本科技基金、第四范式千万级别 Pre-A轮融资。
其核心方案包括AI数据解决方案、AI数据安全解决方案。服务能力包括AI数据标注和采集服务、AI数据标注平台私有化服务、AI数据整体培训和考核体系。
在基础AI数据采集和标注服务上“高性价比”和“安全”是37度数据的优势。其采用AI辅助技术、自建标注团队精细化管理,确保高性价比。通过数据交后即焚等机制,确保AI数据的安全唯一性。
在自动驾驶领域,长期为国内外各车厂及自动驾驶解决方案商,提供整体数据采集、标注及标注平台服务,范围覆盖智能驾驶领域各类应用场景。
潜在价值:未来37度数据加速AI在各行业落地,将有可能通过在不同行业积累的跨界经验,为自动驾驶数据标注带来更丰富的创新机会。
在创新维度,37度数据在安全稳定方面,具备完整DDOS防御、防御带宽防盗链处理技术;在效率方面,其拥有300人自建标注团队,多重质检,准确率98%以上,可实现交付0逾期。
在研发维度,其团队成员来自业内一线的AI及AI数据服务公司,具备10年以上的专业数据服务经验。在研发资源方面,与国交信息达成合作围绕低碳AI、大数据、AIot等技术在交通运输领域开展业务合作,并积累相应的研发经验。
在成熟维度,37度数据具备各类智能驾驶相关数据标注服务经验,具备相对完善的数据生产工艺。与众多国内外客户大型DMS项目合作,积累了丰富的相关项目采集经验。为保障数据标注安全性、稳定性和及时性,其在山东泰安、山西大同等地已建立300人的自有标注基地。
在价格维度,整体报价与行业平均水平持平,具体数据标注量级大小可能会引发价格的上下波动。
在前景维度,未来37度数据将进一步加大AI能力投入,一方面深化AI辅助标注应用,“人机结合”提升标注效率和质量。另一方面,向行业提供更多基于场景化的AI数据及AI模型评测解决方案,解决AI落地最后一公里难题。
附:主流对标机构
Scale AI
Scale AI主要业务是人工智能训练数据分析。在六年时间里,Scale AI已成为估值73亿美元的行业独角兽。根据iResearch、前瞻研究院的预测,2021年中国数据标注市场规模为43亿人民币,占Scale AI估值的八分之一左右。在国外市场,自动驾驶公司 Waymo、Uber、Lyft、Zoox 等,正在采用 Scale 标注平台,用以开发复杂环境和极端气候下安全可控的自动驾驶技术。
起初,Scale AI提供的数据主要用于训练自动驾驶,因此最早和Waymo等自动驾驶机构达成合作。他们早期走的是人工标注路线,很可能是用印度的标注团队,靠比美国更便宜的标注服务打开市场。
美国高昂的人工费让Scale AI没有陷入堆人力“内卷”中,而是坚定的走技术解决方案。Scale AI将人工智能应用到自己的数据标注服务中,先用人工智能识别一遍,人工主要负责校对其中的错误,校对完的数据再度用来训练自己的人工智能,让下一次标注更精准。随着训练数据越来越多,Scale AI做标注的效率也会越来越快,需要人工参与也会越来越少,成本自然也会越来越低。
2021年底,为进一步提高技术实力,Scale AI专门收购数据管理平台公司SiaSearch,让平台的数据标注和管理能力进一步提高。如今,Scale AI的业务已不止自动驾驶,Uber、宝洁,Open AI,英伟达 ,Paypal,爱彼迎等大公司都与Scale AI有数据处理上的合作。2020年9月,它们还和美国军方达成合作,拿下9100万美元的大单,协助美国军方开发、更新用于训练人工智能的数据集。
澳鹏中国
目前,澳鹏中国的自动驾驶数据标注客户可分为三类:主机厂、资本涌入的IT公司和跨界巨头。其中,主机厂对数据标注的需求和市场上存在的需求几乎相同,分别为点数据、平面数据、融合数据还有车道线、红绿灯等。
在澳鹏中国的自身增长方面,2021 年,澳鹏在中国市场收入近 2500 万美元,年增长率为 442%,预计 2022 年收入增速达到 100% 左右;其中自动驾驶相关的份额占60~70%以上,增长率高达200%左右。中国绝大多数的主机厂都与澳鹏合作,拥有了庞大的客户群体,其2D/3D 融合标注产能达到 2 个月 1000 万帧,覆盖商用车、乘用车等各类车型。
在澳鹏中国的未来策略方面,其很早就开始部署数据标注平台,首先在中国进行大规模研发,并投入了大量的时间、精力和金钱,每年研发经费几千万元,此外在技术和管理能力方面也拥有不少积淀;未来澳鹏将不断创新,与自动驾驶主机厂持续合作,努力成为全球化数据服务商。
依靠国家的战略支持,得益于人力成本低,制造业强大,新能源车普及、市场活跃、企业众多等优势,中国的自动驾驶市场未来将会越来越大。澳鹏中国预计2025年前的市场竞争主要在国内,2025年之后随着中国自动驾驶产品走向世界,将是世界范围内的竞争。
此外,未来的标注市场将会向提供全球化全栈式服务的头部企业集中,中小型公司将专注细分领域 / 地域,发挥特长,拓展业务。