定量变量与定性变量的转换
定量变量和定性变量的转换(Transform of Quantitative & Qualitative Variables)
定量变量(Quantitative Variables):也称为数值型变量(Numerical Variables),可以用连续值或离散值表示。比如:气温(连续值),学生人数(离散值)。
为什么要对定量变量进行转换?大多数情况下,我们可以直接使用定量变量。但是有时候,特征和目标之间不呈线性关系。比如说年龄和收入之间的关系,当人年轻时,收入通常会稳步上升,但到了一定年纪之后,收入便开始降低。我们当然可以用非线性模型来拟合数据,但是这样会把模型弄得很复杂。因此比较好的做法是在数据准备的阶段就对定量变量做分箱处理(Binning,也称为分区间)。在对定量变量分箱处理之后,还要再将其转换为虚拟变量或对其进行WOE转换(参见:https://zhuanlan.zhihu.com/p/30026040)。
将定量变量转换为定性变量的方法为:分区间(Binning),包括等宽分区间以及自适应分区间。
等宽分区间(Fixed-Width Binning):可以用p ...
决策树算法补充
四类常见的机器学习算法:
ID3算法 : 信息增益
C4.5算法: 信息增益率
C5.0
CART: 基尼系数
首先我们先简单介绍一下决策树,
决策树算法在“决策”领域有着广泛的应用,比如个人决策、公司管理决策等。其实更准确的来讲,决策树算法算是一类算法,这类算法逻辑模型以“树形结构”呈现,因此它比较容易理解,并不是很复杂,我们可以清楚的掌握分类过程中的每一个细节。
if-else原理
想要认识“决策树算法”我们不妨从最简单的“if - else原理”出发来一探究竟。作为程序员,我相信你对 if -else 原理并不感到陌生,它是
条件判断
的常用语句。下面简单描述一下 if -else 的用法:if 后跟判断条件,如果判断为真,也即满足条件,就执行 if 下的代码段,否则执行 else 下的代码段,因此 if-else 可以简单的理解为“如果满足条件就…,否则…”
if-else 有两个特性:一是能够利用 if -else 进行条件判断,但需要首先给出判断条件;二是能无限嵌套,也就是在一个 if-else 的条件执行体中,能够再嵌套另外一个 if-else,从而实现无限循环嵌套 ...
朴素贝叶斯算法
概率论的知识,用来做分类比较多,本质上是属于求后验概率。前提是属性之间相互独立。
贝叶斯定理
贝叶斯定理的发明者
托马斯·贝叶斯
提出了一个很有意思的假设:“如果一个袋子中共有 10 个球,分别是黑球和白球,但是我们不知道它们之间的比例是怎么样的,现在,仅通过摸出的球的颜色,是否能判断出袋子里面黑白球的比例?”
上述问题可能与我们高中时期所接受的的概率有所冲突,因为你所接触的概率问题可能是这样的:“一个袋子里面有 10 个球,其中 4 个黑球,6 个白球,如果你随机抓取一个球,那么是黑球的概率是多少?”毫无疑问,答案是 0.4。这个问题非常简单,因为我们事先知道了袋子里面黑球和白球的比例,所以很容易算出摸一个球的概率,但是在某些复杂情况下,我们无法得知“比例”,此时就引出了贝叶斯提出的问题。
在统计学中有两个较大的分支:一个是“频率”,另一个便是“贝叶斯”,它们都有各自庞大的知识体系,而“贝叶斯”主要利用了“相关性”一词。下面以通俗易懂的方式描述一下“贝叶斯定理”:通常,事件 A 在事件 B 发生的条件下与事件 B 在事件 A 发生的条件下,它们两者的概率并不相同,但是它们两者之间 ...
岭回归和LASSO回归,线性回归
线性回归很简单,用线性函数拟合数据,用 mean square error (mse) 计算损失(cost),然后用梯度下降法找到一组使 mse 最小的权重。
lasso 回归和岭回归(ridge regression)其实就是在标准线性回归的基础上分别加入 L1 和 L2 正则化(regularization)。
本文的重点是解释为什么 L1 正则化会比 L2 正则化让线性回归的权重更加稀疏,即使得线性回归中很多权重为 0,而不是接近 0。或者说,为什么 L1 正则化(lasso)可以进行 feature selection,而 L2 正则化(ridge)不行。
线性回归——最小二乘
线性回归的拟合函数(或 hypothesis)为:
f(x)=wTx+bf(x) = w^Tx+b
f(x)=wTx+b
cost function (mse) 为:
J=1n∑i=1n(f(xi)−yi)2=1n∑i=1n(w⊤xi+b−yi)2\begin{aligned}
J &=\frac{1}{n} \sum_{i=1}^{n}\left(f\left(\boldsymbol{x}_ ...
欠拟合过拟合
过拟合和欠拟合在日常训练模型中一定会遇见。那么它产生的原因是什么?又该如何解决?面试时又该如何回答?
1 过拟合和欠拟合是什么
拟合(Fitting):模型能不能很好的描述某些样本,并且有比较好的泛化能力
过拟合(Overfitting):就是太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平,不具泛化性,拿到新样本后没有办法去准确的判断
欠拟合(UnderFitting):测试样本的特性没有学到,或者是模型过于简单无法拟合或区分样本
2 过拟合
2.1 过拟合的表现
当模型在测试集上的损失函数值出现先下降后上升,那么此时可能出现过拟合。
2.2 导致过拟合的原因是什么?
训练集数量不足,样本类型单一。例如:如果我们用只包含负样本的训练集训练模型,然后用训练好的模型预测验证集中的正样本时,模型就会在训练时效果特别好,但是在验证时表现很差。因此,在选取训练集尽可能的覆盖所有数据类型。
训练集中存在噪声。使得机器将噪声认为是特征,从而忽略了样本的正确特征信息。
模型复杂度过高。当模型过于复杂时,会导致模型过于充分的学习 ...
损失函数补充
损失函数(Loss Function)
损失函数–定义函数模型的好坏
摘要:
本文主要介绍几个机器学习中常用的损失函数,解释其原理,性能优缺点和适用范围。
目录:
什么是损失函数?
为什么要用损失函数?
有哪些损失函数?
基于距离度量的损失函数
均方误差损失函数(MSE)
L2损失函数
L1损失函数
Smooth L1损失函数
huber损失函数
基于概率分布度量的损失函数
KL散度函数(相对熵)
交叉熵损失
softmax损失函数
Focal loss
如何选择损失函数?
参考资料
1. 什么是损失函数?
一言以蔽之,损失函数(loss function)就是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。
2. 为什么使用损失函数?
损失函数使用主要是在模型的训练阶段,每个批次的训练数据送入模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值。得到损失值之后,模型通过反向传播去更新各 ...
机器学习术语
机器学习是一门专业性很强的技术,它大量地应用了数学、统计学上的知识,因此总会有一些蹩脚的词汇,这些词汇就像“拦路虎”一样阻碍着我们前进,甚至把我们吓跑。因此认识,并理解这些词汇是首当其冲的任务。本节将介绍机器学习中常用的基本概念,为后续的知识学习打下坚实的基础。
机器学习术语
1) 模型
模型这一词语将会贯穿整个教程的始末,它是机器学习中的核心概念。你可以把它看做一个“魔法盒”,你向它许愿(输入数据),它就会帮你实现愿望(输出预测结果)。整个机器学习的过程都将围绕模型展开,训练出一个最优质的“魔法盒”,它可以尽量精准的实现你许的“愿望”,这就是机器学习的目标。
2) 数据集
数据集,从字面意思很容易理解,它表示一个承载数据的集合,如果说“模型”是“魔法盒”的话,那么数据集就是负责给它充能的“能量电池”,简单地说,如果缺少了数据集,那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”,它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。
3) 样本&特征
样本指的是数据集中的数据,一条数据被称为“一个样本”,通常情况下,样本会包含多个特征值用来描述数据, ...
数学竞赛(非数学系)考试大纲
一、函数、极限、连续
1.函数的概念及表示法、简单应用问题的函数关系的建立
2.函数的性质:有界性、单调性、周期性和奇偶性
3.复合函数、反函数、分段函数和隐函数、基本初等函数的性质及其图形、初等函数
4.数列极限与函数极限的定义及其性质、函数的左极限与右极限
5.无穷小和无穷大的概念及其关系、无穷小的性质及无穷小的比较
6.极限的四则运算、极限存在的单调有界准则和夹逼准则、两个重要极限
7.函数的连续性(含左连续与右连续)、函数间断点的类型
8.连续函数的性质和初等函数的连续性
9.闭区间上连续函数的性质(有界性、最大值和最小值定理、介值定理)
二、一元函数微分学
\1. 导数和微分的概念、导数的几何意义和物理意义、函数的可导性与连续性之间的关系、平面曲线的切线和法线
2.基本初等函数的导数、导数和微分的四则运算、一阶微分形式的不变性
\3. 复合函数、反函数、隐函数以及参数方程所确定的函数的微分法
4.高阶导数的概念、分段函数的二阶导数、某些简单函数的n阶导数
5.微分中值定理,包括罗尔定理、拉格朗日中值定理、柯西中值定理和泰勒定理。
6.洛必达(L’Hospital)法则与求未定 ...
博弈论(pxc)
博弈论
博弈是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略 (行动),以实现利益最大化的过程。
所谓利益最大化,就是纯粹用理性思维,做一个“精致的利己主义者”,摒弃感性思维。
竞品分析
「竞品分析」的理念、流程、方法、工具
原文链接
本文将对竞品分析的「道、法、术、器」(即竞品分析的理念、流程、方法、工具)做系统性介绍,可以为你解答以下关键问题:
竞品分析与市场分析有什么区别?为什么要做竞品分析?专业有效的竞品分析流程是怎样的?在对竞品做分析时,需要重点关注什么问题?竞品分析报告应该怎么写?…
一、重新认识竞品分析
顾名思义,竞品分析是对竞争对手产品的分析。过去常用的分析方式总是围绕产品本身展开,这样就会导致分析的维度浮于表面,分析的结果也不能对产品规划与业务运营起到促进作用。
**1,我们应当跳出「产品」看竞争。**在对竞品进行分析时,除了功能、界面、交互体验之外,我们更需要关注产品背后的信息:
竞品做的怎么样?
他是如何做到的?
他为什么要这么做?
下一步他会怎么做?
**2,竞品分析与市场分析其实是有区别的。**市场分析、竞品分析、产品分析、产品体验分析在「分析目的」、「产品数量」、「分析维度」三个方面都是有所区别的,是一个从宏观到微观的过程。1、市场分析以寻找市场机会,帮助产品定位为目标,较宏观,对具体的产品没有深入分析,产品数量较多。分析维度有市场规模、 ...