
资料内容:
三、AI 技术 
业内通常将人工智能分类为机器学习、计算机视觉、语音交互和自然语言处理四大领域, 
机器学习可以理解为是其他三大领域的底层基础,大致可以分为监督学习、非监督学习、 
强化学习、迁移学习。 
本文在此基本不涉及公式,尽量以平直易懂的语言讲述这几种机器学习方法及相关算法。 
个人认为在实战过程中根据工作需要再深入学习这些算法,会更有针对性而且效率会更高, 
事半功倍。
3.1 机器学习 
概念:投喂给机器训练数据,机器从这些数据中找出一个能够良好拟合已有数据的函数, 
新数据来了后,就可以通过这个函数预测对应结果。 
适合解决的问题:有规律可以学习、编程很难做到、有能够学习到规律的数据。 
工作方式: 
根据任务目标确定算法; 
在预处理阶段把数据分成三组:训练数据(用来训练模型)、验证数据(开发过程中用于 
调参)、 测试数据(测试用); 
用训练数据来构建使用相关特征的模型; 
把验证数据接入模型调参; 
用测试数据检查被验证的模型的表现; 
用完全训练好的模型在新数据上做预测; 
用更多数据或选取不同特征以及利用调整过的参数来提升优化算法的性能表现。 
分类:按学习方式可以分为监督学习(包括半监督学习)、无监督学习、强化学习、迁移 
学习。 
3.2 监督学习 
概念:机器学习的一种,通过学习许多有标签的样本,得到特征值和标记值之间的对应规 
律,然后对新的数据做出预测。 
分类:根据输入数据 x 预测出输出数据 y,如果 y 是整数的类别编号,则称为分类问题, 
算法包括:决策树、随机森林、贝叶斯、KNN、SVM、逻辑回归。如果 y 是实数值,则为回 
归问题,算法包括决策树、随机森林、KNN、SVM、线性回归。 
主流算法: 
1)决策树算法 
基本原理:决策树是一个树结构,每个非叶节点表示一个特征属性,每个分支代表这个特 
征属性在某值域上的输出,每个叶节点存放一个类别。使用决策树进行决策的过程就是从 
根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达某个 
叶节点,该叶节点存放的类别即为决策结果。
 
                