欠拟合过拟合
过拟合和欠拟合在日常训练模型中一定会遇见。那么它产生的原因是什么?又该如何解决?面试时又该如何回答?
1 过拟合和欠拟合是什么
拟合(Fitting):模型能不能很好的描述某些样本,并且有比较好的泛化能力
过拟合(Overfitting):就是太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平,不具泛化性,拿到新样本后没有办法去准确的判断
欠拟合(UnderFitting):测试样本的特性没有学到,或者是模型过于简单无法拟合或区分样本
2 过拟合
2.1 过拟合的表现
当模型在测试集上的损失函数值出现先下降后上升,那么此时可能出现过拟合。
2.2 导致过拟合的原因是什么?
训练集数量不足,样本类型单一。例如:如果我们用只包含负样本的训练集训练模型,然后用训练好的模型预测验证集中的正样本时,模型就会在训练时效果特别好,但是在验证时表现很差。因此,在选取训练集尽可能的覆盖所有数据类型。
训练集中存在噪声。使得机器将噪声认为是特征,从而忽略了样本的正确特征信息。
模型复杂度过高。当模型过于复杂时,会导致模型过于充分的学习 ...
损失函数补充
损失函数(Loss Function)
损失函数–定义函数模型的好坏
摘要:
本文主要介绍几个机器学习中常用的损失函数,解释其原理,性能优缺点和适用范围。
目录:
什么是损失函数?
为什么要用损失函数?
有哪些损失函数?
基于距离度量的损失函数
均方误差损失函数(MSE)
L2损失函数
L1损失函数
Smooth L1损失函数
huber损失函数
基于概率分布度量的损失函数
KL散度函数(相对熵)
交叉熵损失
softmax损失函数
Focal loss
如何选择损失函数?
参考资料
1. 什么是损失函数?
一言以蔽之,损失函数(loss function)就是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。
2. 为什么使用损失函数?
损失函数使用主要是在模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值。得到损失值之后,模型通过反向传播去更新各 ...
机器学习术语
机器学习是一门专业性很强的技术,它大量地应用了数学、统计学上的知识,因此总会有一些蹩脚的词汇,这些词汇就像“拦路虎”一样阻碍着我们前进,甚至把我们吓跑。因此认识,并理解这些词汇是首当其冲的任务。本节将介绍机器学习中常用的基本概念,为后续的知识学习打下坚实的基础。
机器学习术语
1) 模型
模型这一词语将会贯穿整个教程的始末,它是机器学习中的核心概念。你可以把它看做一个“魔法盒”,你向它许愿(输入数据),它就会帮你实现愿望(输出预测结果)。整个机器学习的过程都将围绕模型展开,训练出一个最优质的“魔法盒”,它可以尽量精准的实现你许的“愿望”,这就是机器学习的目标。
2) 数据集
数据集,从字面意思很容易理解,它表示一个承载数据的集合,如果说“模型”是“魔法盒”的话,那么数据集就是负责给它充能的“能量电池”,简单地说,如果缺少了数据集,那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”,它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。
3) 样本&特征
样本指的是数据集中的数据,一条数据被称为“一个样本”,通常情况下,样本会包含多个特征值用来描述数据, ...
数学竞赛(非数学系)考试大纲
一、函数、极限、连续
1.函数的概念及表示法、简单应用问题的函数关系的建立
2.函数的性质:有界性、单调性、周期性和奇偶性
3.复合函数、反函数、分段函数和隐函数、基本初等函数的性质及其图形、初等函数
4.数列极限与函数极限的定义及其性质、函数的左极限与右极限
5.无穷小和无穷大的概念及其关系、无穷小的性质及无穷小的比较
6.极限的四则运算、极限存在的单调有界准则和夹逼准则、两个重要极限
7.函数的连续性(含左连续与右连续)、函数间断点的类型
8.连续函数的性质和初等函数的连续性
9.闭区间上连续函数的性质(有界性、最大值和最小值定理、介值定理)
二、一元函数微分学
\1. 导数和微分的概念、导数的几何意义和物理意义、函数的可导性与连续性之间的关系、平面曲线的切线和法线
2.基本初等函数的导数、导数和微分的四则运算、一阶微分形式的不变性
\3. 复合函数、反函数、隐函数以及参数方程所确定的函数的微分法
4.高阶导数的概念、分段函数的二阶导数、某些简单函数的n阶导数
5.微分中值定理,包括罗尔定理、拉格朗日中值定理、柯西中值定理和泰勒定理。
6.洛必达(L’Hospital)法则与求未定 ...
博弈论(pxc)
博弈论
博弈是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略 (行动),以实现利益最大化的过程。
所谓利益最大化,就是纯粹用理性思维,做一个“精致的利己主义者”,摒弃感性思维。
竞品分析
「竞品分析」的理念、流程、方法、工具
原文链接
本文将对竞品分析的「道、法、术、器」(即竞品分析的理念、流程、方法、工具)做系统性介绍,可以为你解答以下关键问题:
竞品分析与市场分析有什么区别?为什么要做竞品分析?专业有效的竞品分析流程是怎样的?在对竞品做分析时,需要重点关注什么问题?竞品分析报告应该怎么写?…
一、重新认识竞品分析
顾名思义,竞品分析是对竞争对手产品的分析。过去常用的分析方式总是围绕产品本身展开,这样就会导致分析的维度浮于表面,分析的结果也不能对产品规划与业务运营起到促进作用。
**1,我们应当跳出「产品」看竞争。**在对竞品进行分析时,除了功能、界面、交互体验之外,我们更需要关注产品背后的信息:
竞品做的怎么样?
他是如何做到的?
他为什么要这么做?
下一步他会怎么做?
**2,竞品分析与市场分析其实是有区别的。**市场分析、竞品分析、产品分析、产品体验分析在「分析目的」、「产品数量」、「分析维度」三个方面都是有所区别的,是一个从宏观到微观的过程。1、市场分析以寻找市场机会,帮助产品定位为目标,较宏观,对具体的产品没有深入分析,产品数量较多。分析维度有市场规模、 ...
baseline基础模型
baseline = 基础模型参照物
baseline这个概念是作为算法提升的参照物而存在的,相当于一个基础模型,可以以此为基准来比较对模型的改进是否有效。通常在一些竞赛或项目中,baseline就是指能够顺利完成数据预处理、基础的特征工程、模型建立以及结果输出与评价,然后通过深入进行数据处理、特征提取、模型调参与模型提升或融合,使得baseline可以得到改进。所以这个没有明确的指代,改进后的模型也可以作为后续模型的baseline。
想强调一下,baseline 就只是「参照物」的意思,至于 baseline 系统是怎么来的、性能如何,并没有一定的标准。
比如:
如果你是机器学习的初学者,在做课程作业,那么你可能用「随机猜测」作为 baseline;如果你是要在顶会发论文,那么很可能就需要用当前最好的系统(称为 state of the art)来作 baseline,否则审稿人就会质疑。
如果你的论文的论点是「我针对某系统作了改进,提升了性能」,那么 baseline 就应该是未改进的系统(相当于生物实验中的「对照组」),它与改进后的系统只有一处不同,这样才能下结论说你的改进就 ...
数据分析笔记1
数据分析笔记
企业数据分析方向
现状分析(分析当下数据):现阶段整体情况和各个部分构成占比
原因分析(分析过去数据):某一现状产生的原因,做出调整优化
预测分析(结合数据预测未来):结合已有数据预测未来发展趋势
原因分析:
离线分析(批处理)
面向过去,面向历史,分析已有数据:
在时间维度明显成批次性变化,1周1次/一天1次,又叫批处理。
现状分析
实时分析(流式处理)
面向当下,分析实时产生的数据。
所谓的实时是指从数据产生到数据分析到数据应用时间间隔很短,分秒毫秒级别。
预测分析
机器学习
基于历史数据和当下产生数据预测未来发生的事情。
侧重于数学算法的运用,如分类、聚类、关联、预测。
数据分析步骤
数据分析步骤重要性体现在:为开展数据分析提供了强有力的逻辑支撑。
步骤:
1、明确分析目的思路
2、数据收集
3、数据处理
4、数据分析
5、数据展现
6、报告撰写
1、明确分析目的和思路
目的是整个分析流程的起点,为数据收集处理分析提供清晰指引;
思路:使分析框架体系化,具有逻辑性,维度完整性,结果有效准确行;
需要数据分析方法论支持,如营销管理类理论。比如用户行为理论,PES ...
深度学习相关知识
Confusion matrix混淆矩阵
混淆矩阵
混淆矩阵是 ROC 曲线绘制的基础,同时它也是衡量分类型模型 准确度中最基本、最直观、计算最简单的方法。以分类模型中的二分类为例,对于这 种问题,模型最终需要判断样本的结果是 0 还是 1,或者说是 Positive 还是 Negative。
因此,能得到这四个基础指标,可以看成是一级指标:
真实值是 Positive,模型认为 是 Positive 的数量(TP)。
真实值是 Positive,模型认为是 Negative 的数量(FN)。
真实值 是 Negative,模型认为是 Positive 的数量(FP)。
真实值是 Negative,模型认为是 Negative的数量(TN)。
将这四个指标一起呈现在表格中,就能得到如表 3 这样一个矩阵,称它 为混淆矩阵。预测性分类模型,是希望越准越好。在混淆矩阵中,TP 与 TN 的数量越 大越好,而 FP 与 FN 的数量越小越好。
accuracy rate:准确率
准确率指的是预测值为 1 且真实值也为 1 的样本在预测值为 1 的所有样本中所占 的比例。
recall ra ...
anchor-free
Anchor-Free
自从去年8月CornerNet开始,Anchor-Free的目标检测模型层出不穷,最近达到了井喷的状态,宣告着目标检测迈入了Anchor-Free时代。
其实Anchor-Free并不是一个新概念了,大火的YOLO算是目标检测领域最早的Anchor-Free模型,而最近的Anchor-Free模型如FASF、FCOS、FoveaBox都能看到DenseBox的影子。
下面主要讲一下有代表性的Anchor-Free模型(包括DenseBox、YOLO、CornerNet、ExtremeNet、FSAF、FCOS、FoveaBox),分成3个部分来介绍(早期探索、基于关键点、密集预测),具体细节就不展开了~
早期探索
1.DenseBox
最早知道这篇文章,是在去年刚接触目标检测的时候,看了一篇地平线对DenseBox作者的采访,当时因为刚接触感触不深,但是从当前的时间节点回头看,DenseBox的想法是多么的超前啊。采访中说道,当年DenseBox其实早在2015年初就已经开发出来了,这比同期的Faster-RCNN系列提前数月,但是论文直到9月才在arxiv上发 ...