资料内容:
什么是 AutoML?
AutoML 旨在通过⾃动化常⽤步骤(如特征预处理、模型选择
和超参数调整)来简化 ML 模型的构建过程。在接下来的章节
中,您将详细了解这些步骤,并且您将实际构建⼀个 AutoML
系统来更深⼊地了解 AutoML 可⽤的⼯具和库。
在不涉及细节的情况下,回顾什么是 ML 模型以及如何训练
ML 模型是很有⽤的。
ML 算法会对你的数据进⾏运算,找到⼀定的模式,这个学习
过程叫做模型训练。作为模型训练的结果,你将拥有⼀个 ML
模型,它可以给你关于数据的⻅解/答案,⽽不需要你写明确
的规则。
当你在实践中使⽤ ML 模型时,你会抛出⼀堆数值数据作为训
练算法的输⼊。训练过程的输出是⼀个 ML 模型,您可以使⽤
它进⾏预测。预测可以帮助您根据服务器的当前状态来决定是
否应该在未来四⼩时内对其进⾏维护,或者您的客户是否会转
向您的竞争对⼿。
有时候你正在解决的问题不会被很好地定义,你甚⾄不知道你
在寻找什么样的答案。在这种情况下,ML 模型将帮助您探索
您的数据集,例如确定⼀组在⾏为⽅⾯彼此相似的客户,或者
根据他们的相关性找到股票的层次结构。
当你的模型出现客户群时,你会怎么做?嗯,你⾄少知道这⼀
点:属于同⼀个集群的客户在特征上是相似的,⽐如年龄、职
业、婚姻状况、性别、产品偏好、⽇/周/⽉消费习惯、消费总
额等等。属于不同集群的客户互不相同。有了这样的洞察⼒,
您可以利⽤这些信息为每个集群创建不同的⼴告活动。
从更技术性的⾓度来看,让我们⽤简单的数学术语来理解这个
过程。有⼀个数据集 X ,其中包含 n 个例⼦。这些例⼦可以
代表顾客或不同种类的动物。每个例⼦通常是⼀组实数,称为
特征,例如,如果我们有⼀个 35 岁的⼥性客户在您的商店花
了 12000 美元,您可以⽤以下向量(0.0,35.0,12000.0)
表⽰该客户。请注意,性别⽤ 0.0 表⽰,这意味着男性客户
将拥有该功能的 1.0 。向量的⼤⼩代表维度。因为这是⼀个⼤
⼩为三的向量,我们通常⽤ m 来表⽰,所以这是⼀个三维数
据集。
根据问题类型,您可能需要为每个⽰例设置⼀个标签。例如,
如果这是⼀个监督学习问题,如⼆进制分类,你可以⽤ 1.0
或 0.0 标记你的例⼦,这个新变量被称为标记或⽬标变量。
⽬标变量通常被称为 y 。