1. 描述什么是机器学习的泛化能力

    机器学习的⽬标是让我们的模型能很好的适⽤于“新样本“,我们称模型适⽤于未知新样本的能⼒为泛化能⼒

  2. 简述K近邻算法的原理

    已有⼀批有标签的数据,输⼊没有标签的数据后,需要对它们进⾏分类。将新数据每个特征与有标签数据计算相似度,选取k个相似度最⾼的样本,分别统计它们的标签出现次数,出现最多的分类作为新数据的分类

    如何定义相似度指标:

    1. 直线距离(欧式距离)
    2. 街区距离(曼哈顿距离)
    3. 闵可夫斯基距离

    优势:

    1. 很简单,容易实现
    2. 可以应⽤于任何分布的情况
    3. 样本数量很⼤也能产⽣好的结果

    不⾜:

    1. 参数的选择,k值
    2. 对分类新的样本时间⽐较⻓,因为要计算距离。
  3. 以信息增益作为属性的划分方法,简述决策树的算法原理

    使⽤信息增益选择测试属性:

    $H(x)=-\sum p_ilog(p_i)$

    $G(D,a)=H(D)-\sum^V_{v=1}\dfrac{D^v}{D}H(D^v)$

    信息增益倾向于取值较多的特征,因此我们对信息增益归⼀化,引⼊增益率:

    $Gain_ratio(D,a)=\dfrac{Gain(D,a)}{IV(a)}$

    $IV(a)=-\sum^V_{v=1}\dfrac{|D^v|}{|D|}log_2\dfrac{|D^v|}{|D|}$

    不过还存在的问题是,它更倾向于取值数⽬⽐较少的属性

    启发式⽅法:⼀种启发式⽅法是结合⼆者,先从候选划分属性中找出信息增益⾼于平均⽔平的属性,再从中选取增益率最⾼的

  4. 简述决策树的预剪枝策略

    在模型构建过程中对模型进⾏剪枝,对每个结点在划分前进⾏验证集的估计,如果划分结点对泛化能⼒不带来提升,则停⽌划分并将当前结点记为叶结点。

  5. 简述Bagging集成方法的原理并举例

    bagging的特点:

    1. 个体学习器之间不存在强依赖关系,具有独⽴性。
    2. 可以并⾏的⽣成
    3. 算法的时间复杂度低,训练⼀个bagging集成与直接使⽤基学习器的复杂度同阶

    使⽤场景:

    ​ 单个模型不稳定,⽤集成的⽅法投票

    训练算法:

    ​ $for \ \ t \ \ = \ \ 1 \ \ to \ \ T \ \ do$

    ​ 通过对$D$有放回抽样,得到训练样本$D_t$

    ​ 使用$D_t$训练得到模型$M_t$

    ​ 结束

    预测的时候使⽤组合分类器对样本X进⾏分类,T个模型同时预测,并返回多数的表决。

    例子:

    ​ 随机森林算法
    含义:建立随机森林的基本思想是,通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由多个训练样本生成多个分类树组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。随机森林有两个重要参数,一是树节点预选的变量个数,二是随机森林中树的个数。

  6. 详细描述随机森林的原理及算法过程

    通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由多个训练样本生成多个分类树组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。随机森林有两个重要参数,一是树节点预选的变量个数,二是随机森林中树的个数

    1. 首先是输入为样本集 $D=(x_1,y_1),(x_2,y_2),…,(x_m,y_m)$
    2. 随机地选择训练的数据集和样本特征进行$T$轮训练,对于$t=1,2,…,T$:
      1. 对训练集进行第$t$次随机采样,共采集$m$次,得到包含$m$个样本的采样集$D_t$
      2. 用采样集 $D_t$训练第t个决策树模型 $G_t(x)$,在训练决策树模型的节点的时候, 在节点上所有的样本特征中选择一部分样本特征, 在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分。
    3. 输出最终的强学习器$F(x)$
  7. 随机森林为什么不容易过拟合

    在建立每一棵决策树的过程中,有两点需要注意 -采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,那么采样的样本也为N个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。

  8. 写出支持向量机基本模型的优化目标函数

    优化目标是:最大化样本中距离超平面最近的距离,约束条件是样本都被正确分隔。

    $arg min_{w,b}\dfrac{1}{2}||w||^2$

    $s.t. \ y_i(w^Tx_i+b)\geq 1, i=1,2,…,m$

  9. 简述核函数的作用原理

    对于线形不可分的数据,可以⽤核函数将样本从原始空间映射到⼀个更⾼维的特征空间, 使得样本 在这个特征空间内线性可分。

    不需要设计映射关系计算样本的映射后的值,因为在SVM的推导中,它只会以内积的形式出现:

    ​ $min\alpha \ \dfrac{1}{2}\sum^m{i=1}\sum^m{j=1}\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)-\sum^m{i=1}\alpha_i$

  10. 简述什么是自注意力

    Self-Attention是attention机制中的一种,对于输入文本,我们需要对其中的每个字分别增强语义向量表示,因此,我们分别将每个字作为Query,加权融合文本中所有字的语义信息,得到各个字的增强语义向量,如下图所示。在这种情况下,Query、Key和Value的向量表示均来自于同一输入文本,因此,该Attention机制也叫Self-Attention。

  11. 简述特征选择与数据降维的相同及不同之处

    降维本质上是从一个维度空间映射到另一个维度空间,特征的多少没有减少,当然在映射的过程中特征值也会相应的变化。特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后不改变值。

  12. 简述PCA原理

    一种常用的数据降维方法。它可以通过线性变换将原始数据变换为一组各维度线性无关的表示,以此来提取数据的主要线性分量。

    首先将样本数据构造成对应的数据矩阵然后求取该数据矩阵的协方差矩阵求解协方差矩阵的特征值和特征向量根据特征值对特征向量进行排序就可以得到特征直方图,抽取其中的几个维度的特征向量组成特征矩阵,用投影矩阵对原样本数据做一个转换。

    中心化:让样本中心为0

    最近重构性:样本点到这个超平面的距离都足够近

    最大可分性:样本点在这个超平面上的投影能尽可能分开,目标是让映射之后的样本方差越大

  13. 详细描述DBSCAN算法流程

  14. 解释EM算法的M-step原理

    e步得到$Q_i(z_i)=\dfrac{p(x_i,z_i;\theta)}{\sum_zp(x_i,z_i;\theta)}=\dfrac{p(x_i,z_i;\theta)}{p(x_i;\theta)}=p(z_i|x_i;\theta)$

    在固定其他参数θ后,$Q_i(z_i)$的计算公式就是后验概率,解决了$Q_i(z_i)$如何选择的问题。

    如果$Q_i(z_i)=p(z_i|x_i;\theta)$,则(2)式是我们包含隐藏数据的对数似然函数的一个下界。如果我们能最大化(2)式这个下界,则也是在极大化我们的对数似然函数

    $argmax\sum^n{i=1}\sum{z_i}Q_i(z_i)log\dfrac{p(x_i,z_i;\theta)}{Q_i(z_i)}$

    即求解M步