朴素贝叶斯算法
概率论的知识,用来做分类比较多,本质上是属于求后验概率。前提是属性之间相互独立。
贝叶斯定理
贝叶斯定理的发明者
托马斯·贝叶斯
提出了一个很有意思的假设:“如果一个袋子中共有 10 个球,分别是黑球和白球,但是我们不知道它们之间的比例是怎么样的,现在,仅通过摸出的球的颜色,是否能判断出袋子里面黑白球的比例?”
上述问题可能与我们高中时期所接受的的概率有所冲突,因为你所接触的概率问题可能是这样的:“一个袋子里面有 10 个球,其中 4 个黑球,6 个白球,如果你随机抓取一个球,那么是黑球的概率是多少?”毫无疑问,答案是 0.4。这个问题非常简单,因为我们事先知道了袋子里面黑球和白球的比例,所以很容易算出摸一个球的概率,但是在某些复杂情况下,我们无法得知“比例”,此时就引出了贝叶斯提出的问题。
在统计学中有两个较大的分支:一个是“频率”,另一个便是“贝叶斯”,它们都有各自庞大的知识体系,而“贝叶斯”主要利用了“相关性”一词。下面以通俗易懂的方式描述一下“贝叶斯定理”:通常,事件 A 在事件 B 发生的条件下与事件 B 在事件 A 发生的条件下,它们两者的概率并不相同,但是它们两者之间 ...
岭回归和LASSO回归,线性回归
线性回归很简单,用线性函数拟合数据,用 mean square error (mse) 计算损失(cost),然后用梯度下降法找到一组使 mse 最小的权重。
lasso 回归和岭回归(ridge regression)其实就是在标准线性回归的基础上分别加入 L1 和 L2 正则化(regularization)。
本文的重点是解释为什么 L1 正则化会比 L2 正则化让线性回归的权重更加稀疏,即使得线性回归中很多权重为 0,而不是接近 0。或者说,为什么 L1 正则化(lasso)可以进行 feature selection,而 L2 正则化(ridge)不行。
线性回归——最小二乘
线性回归的拟合函数(或 hypothesis)为:
f(x)=wTx+bf(x) = w^Tx+b
f(x)=wTx+b
cost function (mse) 为:
J=1n∑i=1n(f(xi)−yi)2=1n∑i=1n(w⊤xi+b−yi)2\begin{aligned}
J &=\frac{1}{n} \sum_{i=1}^{n}\left(f\left(\boldsymbol{x}_ ...
欠拟合过拟合
过拟合和欠拟合在日常训练模型中一定会遇见。那么它产生的原因是什么?又该如何解决?面试时又该如何回答?
1 过拟合和欠拟合是什么
拟合(Fitting):模型能不能很好的描述某些样本,并且有比较好的泛化能力
过拟合(Overfitting):就是太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平,不具泛化性,拿到新样本后没有办法去准确的判断
欠拟合(UnderFitting):测试样本的特性没有学到,或者是模型过于简单无法拟合或区分样本
2 过拟合
2.1 过拟合的表现
当模型在测试集上的损失函数值出现先下降后上升,那么此时可能出现过拟合。
2.2 导致过拟合的原因是什么?
训练集数量不足,样本类型单一。例如:如果我们用只包含负样本的训练集训练模型,然后用训练好的模型预测验证集中的正样本时,模型就会在训练时效果特别好,但是在验证时表现很差。因此,在选取训练集尽可能的覆盖所有数据类型。
训练集中存在噪声。使得机器将噪声认为是特征,从而忽略了样本的正确特征信息。
模型复杂度过高。当模型过于复杂时,会导致模型过于充分的学习 ...
损失函数补充
损失函数(Loss Function)
损失函数–定义函数模型的好坏
摘要:
本文主要介绍几个机器学习中常用的损失函数,解释其原理,性能优缺点和适用范围。
目录:
什么是损失函数?
为什么要用损失函数?
有哪些损失函数?
基于距离度量的损失函数
均方误差损失函数(MSE)
L2损失函数
L1损失函数
Smooth L1损失函数
huber损失函数
基于概率分布度量的损失函数
KL散度函数(相对熵)
交叉熵损失
softmax损失函数
Focal loss
如何选择损失函数?
参考资料
1. 什么是损失函数?
一言以蔽之,损失函数(loss function)就是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。
2. 为什么使用损失函数?
损失函数使用主要是在模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值。得到损失值之后,模型通过反向传播去更新各 ...
机器学习术语
机器学习是一门专业性很强的技术,它大量地应用了数学、统计学上的知识,因此总会有一些蹩脚的词汇,这些词汇就像“拦路虎”一样阻碍着我们前进,甚至把我们吓跑。因此认识,并理解这些词汇是首当其冲的任务。本节将介绍机器学习中常用的基本概念,为后续的知识学习打下坚实的基础。
机器学习术语
1) 模型
模型这一词语将会贯穿整个教程的始末,它是机器学习中的核心概念。你可以把它看做一个“魔法盒”,你向它许愿(输入数据),它就会帮你实现愿望(输出预测结果)。整个机器学习的过程都将围绕模型展开,训练出一个最优质的“魔法盒”,它可以尽量精准的实现你许的“愿望”,这就是机器学习的目标。
2) 数据集
数据集,从字面意思很容易理解,它表示一个承载数据的集合,如果说“模型”是“魔法盒”的话,那么数据集就是负责给它充能的“能量电池”,简单地说,如果缺少了数据集,那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”,它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。
3) 样本&特征
样本指的是数据集中的数据,一条数据被称为“一个样本”,通常情况下,样本会包含多个特征值用来描述数据, ...
数学竞赛(非数学系)考试大纲
一、函数、极限、连续
1.函数的概念及表示法、简单应用问题的函数关系的建立
2.函数的性质:有界性、单调性、周期性和奇偶性
3.复合函数、反函数、分段函数和隐函数、基本初等函数的性质及其图形、初等函数
4.数列极限与函数极限的定义及其性质、函数的左极限与右极限
5.无穷小和无穷大的概念及其关系、无穷小的性质及无穷小的比较
6.极限的四则运算、极限存在的单调有界准则和夹逼准则、两个重要极限
7.函数的连续性(含左连续与右连续)、函数间断点的类型
8.连续函数的性质和初等函数的连续性
9.闭区间上连续函数的性质(有界性、最大值和最小值定理、介值定理)
二、一元函数微分学
\1. 导数和微分的概念、导数的几何意义和物理意义、函数的可导性与连续性之间的关系、平面曲线的切线和法线
2.基本初等函数的导数、导数和微分的四则运算、一阶微分形式的不变性
\3. 复合函数、反函数、隐函数以及参数方程所确定的函数的微分法
4.高阶导数的概念、分段函数的二阶导数、某些简单函数的n阶导数
5.微分中值定理,包括罗尔定理、拉格朗日中值定理、柯西中值定理和泰勒定理。
6.洛必达(L’Hospital)法则与求未定 ...
博弈论(pxc)
博弈论
博弈是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略 (行动),以实现利益最大化的过程。
所谓利益最大化,就是纯粹用理性思维,做一个“精致的利己主义者”,摒弃感性思维。
竞品分析
「竞品分析」的理念、流程、方法、工具
原文链接
本文将对竞品分析的「道、法、术、器」(即竞品分析的理念、流程、方法、工具)做系统性介绍,可以为你解答以下关键问题:
竞品分析与市场分析有什么区别?为什么要做竞品分析?专业有效的竞品分析流程是怎样的?在对竞品做分析时,需要重点关注什么问题?竞品分析报告应该怎么写?…
一、重新认识竞品分析
顾名思义,竞品分析是对竞争对手产品的分析。过去常用的分析方式总是围绕产品本身展开,这样就会导致分析的维度浮于表面,分析的结果也不能对产品规划与业务运营起到促进作用。
**1,我们应当跳出「产品」看竞争。**在对竞品进行分析时,除了功能、界面、交互体验之外,我们更需要关注产品背后的信息:
竞品做的怎么样?
他是如何做到的?
他为什么要这么做?
下一步他会怎么做?
**2,竞品分析与市场分析其实是有区别的。**市场分析、竞品分析、产品分析、产品体验分析在「分析目的」、「产品数量」、「分析维度」三个方面都是有所区别的,是一个从宏观到微观的过程。1、市场分析以寻找市场机会,帮助产品定位为目标,较宏观,对具体的产品没有深入分析,产品数量较多。分析维度有市场规模、 ...
baseline基础模型
baseline = 基础模型参照物
baseline这个概念是作为算法提升的参照物而存在的,相当于一个基础模型,可以以此为基准来比较对模型的改进是否有效。通常在一些竞赛或项目中,baseline就是指能够顺利完成数据预处理、基础的特征工程、模型建立以及结果输出与评价,然后通过深入进行数据处理、特征提取、模型调参与模型提升或融合,使得baseline可以得到改进。所以这个没有明确的指代,改进后的模型也可以作为后续模型的baseline。
想强调一下,baseline 就只是「参照物」的意思,至于 baseline 系统是怎么来的、性能如何,并没有一定的标准。
比如:
如果你是机器学习的初学者,在做课程作业,那么你可能用「随机猜测」作为 baseline;如果你是要在顶会发论文,那么很可能就需要用当前最好的系统(称为 state of the art)来作 baseline,否则审稿人就会质疑。
如果你的论文的论点是「我针对某系统作了改进,提升了性能」,那么 baseline 就应该是未改进的系统(相当于生物实验中的「对照组」),它与改进后的系统只有一处不同,这样才能下结论说你的改进就 ...
数据分析笔记1
数据分析笔记
企业数据分析方向
现状分析(分析当下数据):现阶段整体情况和各个部分构成占比
原因分析(分析过去数据):某一现状产生的原因,做出调整优化
预测分析(结合数据预测未来):结合已有数据预测未来发展趋势
原因分析:
离线分析(批处理)
面向过去,面向历史,分析已有数据:
在时间维度明显成批次性变化,1周1次/一天1次,又叫批处理。
现状分析
实时分析(流式处理)
面向当下,分析实时产生的数据。
所谓的实时是指从数据产生到数据分析到数据应用时间间隔很短,分秒毫秒级别。
预测分析
机器学习
基于历史数据和当下产生数据预测未来发生的事情。
侧重于数学算法的运用,如分类、聚类、关联、预测。
数据分析步骤
数据分析步骤重要性体现在:为开展数据分析提供了强有力的逻辑支撑。
步骤:
1、明确分析目的思路
2、数据收集
3、数据处理
4、数据分析
5、数据展现
6、报告撰写
1、明确分析目的和思路
目的是整个分析流程的起点,为数据收集处理分析提供清晰指引;
思路:使分析框架体系化,具有逻辑性,维度完整性,结果有效准确行;
需要数据分析方法论支持,如营销管理类理论。比如用户行为理论,PES ...