常见机器学习机基本问题
1.参数模型和非参数模型的区别?
参数模型:在进行训练之前首先对目标函数的进行假设,然后从训练数据中学的相关函数的系数
典型的参数模型:LR、LDA(线性判别分析)、感知机、朴素贝叶斯、简单神经网络
参数模型的优点:
- 简单:容易理解和解释结果
- 快速:训练速度快
- 数据需求量少
参数模型的局限性:
- 模型的目标函数形式假设大大限制了模型
- 由于参数模型复杂度一般不高,因此更适合简单问题
非参数模型:不对目标函数的形式做出任何强烈的假设的算法,可以在训练集中自由的学习任何函数形式
典型的非参数模型:KNN、决策树、SVM
非参数学习模型的优点:
- 灵活性强,可拟合各种不同形式的样本
- 性能:模型效果一般较好
非参数学习模型的局限性
- 训练数据需求量大
- 训练速度慢,因为一般非参数模型要训练更多的参数
- 可解释性差
- 更容易出过拟合
2.生成模型和判别模型
由生成方法生成的模型成为生成模型,由判别方法产生的模型成为生成模型。下面重点介绍两种方法。
生成方法:由数据学联合概率分布P(X,Y),然后求出条件概率P(Y|X)作为预测模型,即生成模型。(之所以称为生成方法是因为模型表示了给定输入X产生出Y的生成关系)
典型的生成模型:朴素贝叶斯、隐马尔科夫链
生成方法特点:
- 可还原联合概率分布
- 收敛速度更快
- 生成方法可处理隐变量,但判别方法不能
判别方法:由数据直接学习决策函数f(x)或者条件概率分布f(Y|X)作为预测模型,即判别模型。
典型的判别模型:KNN、感知机、决策树、LR
判别模型的特点:
- 直接学习决策函数或条件概率,直接面对预测,准确率更高
- 由于直接学习决策函数或条件概率,可以对数据进行各种程度上的抽象、定义特征并使用特征,简化学习问题
3.常见损失函数以及应用?
逻辑斯特损失函数:
对数似然损失
合页损失
指数损失
4.朴素贝叶斯“朴素”表现在哪里?
“朴素”主要表现在它假设所有特征在数据集中的作用是同样且独立的,而在真实世界中这种假设是不成立的,因此称之为朴素贝叶斯。