AI时代的“富士康”,数据标注行业也能孕育千亿独角兽?【AI大师课3.2】

bob官方体育世界杯

栏目分类
你的位置:bob官方体育世界杯 > bob官方体育世界杯介绍 > AI时代的“富士康”,数据标注行业也能孕育千亿独角兽?【AI大师课3.2】
AI时代的“富士康”,数据标注行业也能孕育千亿独角兽?【AI大师课3.2】
发布日期:2025-01-23 09:44    点击次数:177

本期内容

数据对AI的重要性正在发生变化。除了文本数据,随着多模态大模型的兴起,所需的数据种类变得更加多样化。现在不仅包括网页和APP数据,还有来自麦克风、扬声器、屏幕、手写笔、摄像头和传感器等的数据——这些多模态数据的处理难度加大,需要将它们转换成统一对齐的格式以供训练使用,同时还要跨越不同的时域,统一不同时间的数据,要求越来越严格。所以,这个行业实际上才刚刚开始。

在数据方面,除了定义和多模态处理,大模型的标注工作也非常重要。这包括大模型的指令标注和泛化,需要有人去重新表述问题,进行标注。这就是所谓的“有多少人工,就有多少智能”,涉及多语言文本标注和图像视频标注。

随着大模型的发展,标注的难度大幅提升,图像和语音识别都集中在大模型中,不再像以前那么容易。因此,高质量的数据变得尤为重要,大公司也开始减少外包,转而自己进行数据标注。

数据标注的方法也在不断创新,特别是在智能汽车行业,现在更多的是处理三维激光雷达扫描来的数据,然后进行标注。有些情况下,还会自动生成这些三维数据,因为不可能有那么多车辆去实际跑路。在某些专业领域,标注工作需要专业知识,比如医疗影像数据的标注,不是随便一个人就能做到的,而是需要三甲医院10年以上经验的医生来进行。

以科大讯飞的讯飞医疗为例,它很早与协和医院等顶级医疗机构合作,共同进行数据标注工作。别的公司再牛,OpenAI再厉害,算法模型再厉害,也弄不到这些数据。等到训练好了后,它就相当于一个十年以上的医生做医疗诊断。

因此,专业领域的数据标注成为了垂直大模型的门槛,因为这些数据往往只有特定机构能够获取,从而形成了行业的绝对垄断,成为真正的护城河。

以上内容为「寻找下一个“英伟达”」课程第3章第2节的部分内容,吕伟老师将在本节课程的后续内容中,结合更多公司实例讲解AI数据市场的布局与发展前景。对本专辑感兴趣的朋友,欢迎点击此处加入,学习本课程的完整内容。



上一篇:没有了
下一篇:没有了