
资料内容:
AI 的应用领域非常非常广,上图只是大家相对熟悉的几个,而且每一个领域用到的算法都 
不一样。有很多想转型的产品,第一个考虑的点就是:不懂技术就做不了 AI,我是不是学 
完算法才能入行? 
其实不是。 
大家可能知道: 
不仅算法重要,很多时候数据可能更重要;有保质保量的数据,才可能有好的训练效果。 
数据可分为两种类型:“被标记过”的数据和“未被标记过”的数据。什么是标记呢?意 
同“贴标签”,当你看到一个西瓜,你知道它是属于水果。那么你就可以为它贴上一个水 
果的标签。算法同事用“有标签的数据”去训练模型,这里就有了“监督学习”。 
重点就是这里:只要是跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自 
然语言理解等等,他们都有一个必走的流程——
不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。 
二、数据处理流程拆解 
1、数据标注 
数据的质量直接会影响到模型的质量,因此数据标注在整个流程中绝对是非要重要的一点。
1)一般来说,数据标注部分可以有三个角色 
标注员:标注员负责标记数据。 
审核员:审核员负责审核被标记数据的质量。 
管理员:管理人员、发放任务、统计工资。 
只有在数据被审核员审核通过后,这批数据才能够被算法同事利用。 
2)数据标记流程 
任务分配:假设标注员每次标记的数据为一次任务,则每次任务可由管理员分批发放记录, 
也可将整个流程做成“抢单式”的,由后台直接分发。 
标记程序设计:需要考虑到如何提升效率,比如快捷键的设置、边标记及边存等等功能都 
有利于提高标记效率。 
3)进度跟踪:程序对标注员、审核员的工作分别进行跟踪,可利用“规定截止日期”的 
方式淘汰怠惰的人。 
4)质量跟踪:通过计算标注人员的标注正确率和被审核通过率,对人员标注质量进行跟 
踪,可利用“末位淘汰”制提高标注人员质量。
 
                