常见机器学习机基本问题

1.参数模型和非参数模型的区别？

参数模型：在进行训练之前首先对目标函数的进行假设，然后从训练数据中学的相关函数的系数

典型的参数模型：LR、LDA(线性判别分析)、感知机、朴素贝叶斯、简单神经网络

参数模型的优点：

简单：容易理解和解释结果

快速：训练速度快

数据需求量少

参数模型的局限性：

模型的目标函数形式假设大大限制了模型

由于参数模型复杂度一般不高，因此更适合简单问题

非参数模型：不对目标函数的形式做出任何强烈的假设的算法，可以在训练集中自由的学习任何函数形式

典型的非参数模型:KNN、决策树、SVM

非参数学习模型的优点：

灵活性强，可拟合各种不同形式的样本

性能：模型效果一般较好

非参数学习模型的局限性

训练数据需求量大

训练速度慢，因为一般非参数模型要训练更多的参数

可解释性差

更容易出过拟合

2.生成模型和判别模型

由生成方法生成的模型成为生成模型，由判别方法产生的模型成为生成模型。下面重点介绍两种方法。

生成方法:由数据学联合概率分布P(X,Y)，然后求出条件概率P(Y|X)作为预测模型,即生成模型。（之所以称为生成方法是因为模型表示了给定输入X产生出Y的生成关系）

典型的生成模型:朴素贝叶斯、隐马尔科夫链

生成方法特点:

可还原联合概率分布

收敛速度更快

生成方法可处理隐变量，但判别方法不能

判别方法：由数据直接学习决策函数f(x)或者条件概率分布f(Y|X)作为预测模型，即判别模型。

典型的判别模型:KNN、感知机、决策树、LR

判别模型的特点：

直接学习决策函数或条件概率，直接面对预测，准确率更高

由于直接学习决策函数或条件概率，可以对数据进行各种程度上的抽象、定义特征并使用特征，简化学习问题

3.常见损失函数以及应用？

逻辑斯特损失函数：

对数似然损失

合页损失

指数损失

4.朴素贝叶斯“朴素”表现在哪里？
“朴素”主要表现在它假设所有特征在数据集中的作用是同样且独立的，而在真实世界中这种假设是不成立的，因此称之为朴素贝叶斯。