机器学习术语

机器学习是一门专业性很强的技术，它大量地应用了数学、统计学上的知识，因此总会有一些蹩脚的词汇，这些词汇就像“拦路虎”一样阻碍着我们前进，甚至把我们吓跑。因此认识，并理解这些词汇是首当其冲的任务。本节将介绍机器学习中常用的基本概念，为后续的知识学习打下坚实的基础。

机器学习术语

1) 模型

模型这一词语将会贯穿整个教程的始末，它是机器学习中的核心概念。你可以把它看做一个“魔法盒”，你向它许愿（输入数据），它就会帮你实现愿望（输出预测结果）。整个机器学习的过程都将围绕模型展开，训练出一个最优质的“魔法盒”，它可以尽量精准的实现你许的“愿望”，这就是机器学习的目标。

2) 数据集

数据集，从字面意思很容易理解，它表示一个承载数据的集合，如果说“模型”是“魔法盒”的话，那么数据集就是负责给它充能的“能量电池”，简单地说，如果缺少了数据集，那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”，它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。

3) 样本&特征

样本指的是数据集中的数据，一条数据被称为“一个样本”，通常情况下，样本会包含多个特征值用来描述数据，比如现在有一组描述人形态的数据“180 70 25”如果单看数据你会非常茫然，但是用“特征”描述后就会变得容易理解，如下所示：

样本与特征
图1：样本&特征

由上图可知数据集的构成是“一行一样本，一列一特征”。特征值也可以理解为数据的相关性，每一列的数据都与这一列的特征值相关。

4) 向量

任何一门算法都会涉及到许多数学上的术语或者公式。在本教程写作的过程中也会涉及到很多数学公式，以及专业的术语，在这里我们先对常用的基本术语做一下简单讲解。

第一个常用术语就是“向量”，向量是机器学习的关键术语。向量在线性代数中有着严格的定义。向量也称欧几里得向量、几何向量、矢量，指具有

大小

和

方向

的量。您可以形象地把它的理解为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的量叫做数量（物理学中称标量），数量只有大小，没有方向。

在机器学习中，模型算法的运算均基于线性代数运算法则，比如行列式、矩阵运算、线性方程等等。其实对于这些运算法则学习起来并不难，它们都有着一定运算规则，只需套用即可，因此你也不必彷徨，可参考

向量运算法则

。向量的计算可采用 NmuPy 来实现，如下所示：

1	import numpy as np#构建向量数组a=np.array([-1,2])b=np.array([3,-1])#加法a_b=a+b#数乘a2=a2b3=b(-3)#减法b_a=a-bprint(a_b,a2,b3,b_a)

输出结果：

1	[2 1] [-2 4] [-9 3] [-4 3]

简而言之，数据集中的每一个样本都是一条具有向量形式的数据。

5) 矩阵

矩阵也是一个常用的数学术语，你可以把矩阵看成由向量组成的二维数组，数据集就是以二维矩阵的形式存储数据的，你可以把它形象的理解为电子表格“一行一样本，一列一特征”表现形式如下：

矩阵电子表
图2：矩阵表格

如果用二维矩阵的表示的话，其格式如下所示：

假设函数&损失函数

机器学习在构建模型的过程中会应用大量的数学函数，正因为如此很多初学者对此产生畏惧，那么它们真会有这么可怕吗？其实我认为至少没有你想的那么可怕。从编程角度来看，这些函数就相当于模块中内置好的方法，只需要调用相应的方法就可以达成想要的目的。而要说难点，首先你要理解你的应用场景，然后根据实际的场景去调用相应的方法，这才是你更应该关注的问题。

假设函数和损失函数是机器学习中的两个概念，它并非某个模块下的函数方法，而是我们根据实际应用场景确定的一种函数形式，就像你解决数学的应用题目一样，根据题意写出解决问题的方程组。下面分别来看一下它们的含义。

1) 假设函数

假设函数（Hypothesis Function）可表述为

y=f(x)

其中 x 表示输入数据，而 y 表示输出的预测结果，而这个结果需要不断的优化才会达到预期的结果，否则会与实际值偏差较大。

2) 损失函数

损失函数（Loss Function）又叫目标函数，简写为 L(x)，这里的 x 是假设函数得出的预测结果“y”，如果 L(x) 的返回值越大就表示预测结果与实际偏差越大，越小则证明预测值越来越“逼近”真实值，这才是机器学习最终的目的。因此损失函数就像一个度量尺，让你知道“假设函数”预测结果的优劣，从而做出相应的优化策略。

3) 优化方法

“优化方法”可以理解为假设函数和损失函数之间的沟通桥梁。通过 L(x) 可以得知假设函数输出的预测结果与实际值的偏差值，当该值较大时就需要对其做出相应的调整，这个调整的过程叫做“参数优化”，而如何实现优化呢？这也是机器学习过程中的难点。其实为了解决这一问题，数学家们早就给出了相应的解决方案，比如梯度下降、牛顿方与拟牛顿法、共轭梯度法等等。因此我们要做的就是理解并掌握“科学巨人”留下的理论、方法。

对于优化方法的选择，我们要根据具体的应用场景来选择应用哪一种最合适，因为每一种方法都有自己的优劣势，所以只有合适的才是最好的。

上述函数的关系图如下所示：

损失函数关系图
图3：函数关系图

拟合&过拟合&欠拟合，泛化能力

泛化能力是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

提取几个关键词：新鲜样本、适应能力、规律、合适输出。由此可见，经训练样本训练的模型需要对新样本做出合适的预测，这是泛化能力的体现。

举个例子，高中生每天各种做题，五年高考三年模拟一遍遍的刷，为的什么，当然是想高考能有个好成绩。高考试题一般是新题，谁也没做过，平时的刷题就是为了掌握试题的规律，能够举一反三、学以致用，这样面对新题时也能从容应对。这种规律的掌握便是泛化能力，有的同学很聪明，考上名校，很大程度上是该同学的泛化能力好。

考试成绩差的同学，有这三种可能：一、泛化能力弱，做了很多题，始终掌握不了规律，不管遇到老题新题都不会做；二、泛化能力弱，做了很多题，只会死记硬背，一到考试看到新题就蒙了；三、完全不做题，考试全靠瞎蒙。机器学习中，第一类情况称作欠拟合，第二类情况称作过拟合，第三类情况称作不收敛。

拟合是机器学习中的重要概念，也可以说，机器学习的研究对象就是让模型能更好的拟合数据，那到底如何理解“拟合”这个词呢？

1)拟合

形象地说，“拟合”就是把平面坐标系中一系列散落的点，用一条光滑的曲线连接起来，因此拟合也被称为“曲线拟合”。拟合的曲线一般用函数进行表示，但是由于拟合曲线会存在许多种连接方式，因此就会出现多种拟合函数。通过研究、比较确定一条最佳的“曲线”也是机器学习中一个重要的任务。如下图所示，展示一条拟合曲线（蓝色曲线）：

拟合曲线
图4：曲线拟合