深度学习相关知识
Confusion matrix混淆矩阵
混淆矩阵
混淆矩阵是 ROC 曲线绘制的基础,同时它也是衡量分类型模型 准确度中最基本、最直观、计算最简单的方法。以分类模型中的二分类为例,对于这 种问题,模型最终需要判断样本的结果是 0 还是 1,或者说是 Positive 还是 Negative。
因此,能得到这四个基础指标,可以看成是一级指标:
真实值是 Positive,模型认为 是 Positive 的数量(TP)。
真实值是 Positive,模型认为是 Negative 的数量(FN)。
真实值 是 Negative,模型认为是 Positive 的数量(FP)。
真实值是 Negative,模型认为是 Negative的数量(TN)。
将这四个指标一起呈现在表格中,就能得到如表 3 这样一个矩阵,称它 为混淆矩阵。预测性分类模型,是希望越准越好。在混淆矩阵中,TP 与 TN 的数量越 大越好,而 FP 与 FN 的数量越小越好。
accuracy rate:准确率
准确率指的是预测值为 1 且真实值也为 1 的样本在预测值为 1 的所有样本中所占 的比例。
recall ra ...
anchor-free
Anchor-Free
自从去年8月CornerNet开始,Anchor-Free的目标检测模型层出不穷,最近达到了井喷的状态,宣告着目标检测迈入了Anchor-Free时代。
其实Anchor-Free并不是一个新概念了,大火的YOLO算是目标检测领域最早的Anchor-Free模型,而最近的Anchor-Free模型如FASF、FCOS、FoveaBox都能看到DenseBox的影子。
下面主要讲一下有代表性的Anchor-Free模型(包括DenseBox、YOLO、CornerNet、ExtremeNet、FSAF、FCOS、FoveaBox),分成3个部分来介绍(早期探索、基于关键点、密集预测),具体细节就不展开了~
早期探索
1.DenseBox
最早知道这篇文章,是在去年刚接触目标检测的时候,看了一篇地平线对DenseBox作者的采访,当时因为刚接触感触不深,但是从当前的时间节点回头看,DenseBox的想法是多么的超前啊。采访中说道,当年DenseBox其实早在2015年初就已经开发出来了,这比同期的Faster-RCNN系列提前数月,但是论文直到9月才在arxiv上发 ...
马尔可夫链
马尔可夫链
前言
马尔可夫链(Markov Chain)可以说是机器学习和人工智能的基石,在强化学习、自然语言处理、金融领域、天气预测、语音识别方面都有着极其广泛的应用
The future is independent of the past given the present
未来独立于过去,只基于当下。
这句人生哲理的话也代表了马尔科夫链的思想:过去所有的信息都已经被保存到了现在的状态,基于现在就可以预测未来。
一句话描述:状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备**“无记忆”的性质:下一状态的概率分布只能由当前状态决定**,在时间序列中它前面的事件均与之无关。
虽然这么说可能有些极端,但是却可以大大简化模型的复杂度,因此马尔可夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络 RNN,隐式马尔可夫模型 HMM 等,当然 MCMC 也需要它。
1. 随机过程是啥玩意儿
马尔可夫链是随机过程 这门课程中的一部分,先来简单了解一下。
简单来说,随机过程就是使用统计模型一些事物的过程进行预测和处理 ,比如股价预测通过今天股票的涨跌,却预测明天后天股 ...
资本禀赋
资本禀赋
资源禀赋又称为要素禀赋,指一国拥有的各种生产要素,包括劳动力、资本、土地、技术、管理等的方面。俄林早期师承瑞典著名经济学家赫克歇尔而深受启发,故他的要素禀赋说也被称为赫–俄模式。该模式是现代国际贸易理论的新开端,与李嘉图的比较成本说模式并列为国际贸易理论的两大基本模式。
国要素禀赋中某种要素供给所占比例大于别国同种要素的供给比例而价格相对低于别国同种要素的价格,则该国的这种要素相对丰裕;反之,如果在一国的生产要素禀赋中某种要素供给所占比例小于别国同种要素的供给比例而价格相对高于别国 同种要素的价格,则该国的这种要素相对稀缺。
资源禀赋与国际产业转移要素禀赋决定了各国的比较优势,由此也决定了国际产业转移的方向,不管是静态的还是动态的。但是在实际的经济运行中,国际产业的转移是存在刚性的,这体现为以下几个方面:
1.生产要素的异质性
在旧的贸易理论和“要素禀赋论”中,都假定要素是同质的,没有任何差异,可以转移的(尽管土地不会搬家,特殊的地理位置,自然环境和气候也有它的特殊性)。一旦一个国家之间的要素禀赋发生变化,国际产业结构也随之转移。然而每种要素实际上都不是同一的,它包含着许多小 ...
国赛2020B沙漠致富之路
B题穿越沙漠
考虑如下的小游戏:玩家凭借一张地图,利用初始资金购买一定数量的水和食物(包括食品和其他日常用品),从起点出发,在沙漠中行走。途中会遇到不同的天气,也可在矿山、村庄补充资金或资源,(赚钱)目标是在规定时间内到达终点,并保留尽可能多的资金。(资金max)
游戏的基本规则如下:
(1)以天为基本时间单位,游戏的开始时间为第0天,玩家位于起点。玩家必须在截止日期或之前到达终点,到达终点后该玩家的游戏结束。
(2)穿越沙漠需水和食物两种资源,它们的最小计量单位均为箱。每天玩家拥有的水和食物质量之和不能超过负重上限。若未到达终点而水或食物已耗尽,视为游戏失败。
(3)每天的天气为“晴朗”、“高温”、“沙暴”三种状况之一,沙漠中所有区域的天气相同。
(4)每天玩家可从地图中的某个区域到达与之相邻的另一个区域,也可在原地停留。沙暴日必须在原地停留。
(5)玩家在原地停留一天消耗的资源数量称为基础消耗量,行走一天消耗的资源数量为基础消耗量的 倍。
(6)玩家第0天可在起点处用初始资金以基准价格 ...
图论
图论
推荐博客
基本概念补充
图论中图是由点和边构成的,可以反映一些对象之间的关系。
无向图
无向图(简称图):没有方向,由点和边构成的图,记做G =(V , E),点是V,边是E。
注:图论的图与几何图、工程图不一样。
因为一般情况下的图中点的相对位置及点间连线长短,对于反映对象之间的关系并不是重要的。
联结$ v_{i1}∗∗和∗∗**和**∗∗和∗∗ v_{ik}∗∗的链∗∗:在无向图G中,若存在一个点边的交错序列(**的链**:在无向图G中,若存在一个点边的交错序列(∗∗的链∗∗:在无向图G中,若存在一个点边的交错序列( v_{i1},,, e_{i1},,, v_{i2},,, e_{i2},……,……,…… v_{ik-1},,, e_{ik-1},,, c_{ik})其中)其中)其中 v_{ik}属于V(G),属于V(G),属于V(G), e_{ij}$属于E(G)。
联结 v_{i1} 和 v_{ik} 的圈:在上述的链中,若 v_{i1} = v_{ik},也就是首尾相连。
连通图:对于一个无向图,若任何两个不同的点之间,至少存在一条链。
简单图:一个图如果它既没有 ...
时间序列模型
原文出处
时间序列(按照时间排序的一组随机变量)_百度百科 (baidu.com)
时间序列基础知识 - 知乎 (zhihu.com)
一
二
三
时间序列(ARIMA)案例超详细讲解
1时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,并将这些知识和信息用于预测。
想象一下,你的任务是:根据已有的历史时间数据,预测未来的趋势走向。作为一个数据分析师,你会把这类问题归类为什么?当然是时间序列建模。
从预测一个产品的销售量到估计每天产品的用户数量,时间序列预测是任何数据分析师都应该知道的核心技能之一。常用的时间序列模型有很多种,在本文中主要研究ARIMA模型,也是实际案例中最常用的模型,这种模型主要针对平稳非白噪声序列数据。
时间序列概念
时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,并将这些知识和信息用于预测。比如销售量是上升还是下降,是否可以通过现有的数据预测未来一年的销 ...
排队论
排队论
博客1
博客2
优秀博主的专栏
零.排队论简述
什么是排队论:
排队论(queueing theory)是专门研究带有随机因素产生拥挤现象的优化理论,是有关于服务设施与被服务者构成的排队服务系统的理论。
亦称随机服务系统理论。因为被服务者到达系统的时间是不确定的。
排队论是计算机通信网络和计算机系统中通信信息量研究的基础理论,信息系统通信问题的定量研究往往要求借助于排队论才能得到解决。
经典模型:
一.基本组成
1.输入过程
顾客到达的方式通常是一个给一个到达的,也可能是成批的。顾客到达总是有一定规律,即到达的过程或到达时间间隔符合一定的分布,称到达分布。
顾客到达或到达时间通常假定为相互独立的且遵从同一分布的随机变
顾客来源:有限/无限
顾客数量:有限/无限
经常性的顾客来源:顾客到达间隔时间服从某一概率分布
顾客的行为假定:在未服务之前不会离开、当看到队列很长的时候离开、从一个队列移到另一个队列
2.服务规则
服务规则
服务台数量:单服务台、多服务台、无限服务台
服务协议:FCFS、LCFS、RSS、PR、PS、IS
先来先服务:FCFS(First-Come ...
遗传算法
遗传算法
遗传算法(Genetic Algorithm,GA)是由John Holland于20世纪70年代提出,该算法是根据大自然中生物体进化规律而设计提出的,来模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。其本质是一种高效、并行、全局搜索的方法,能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最佳解。
遗传算法的流程:
123451.评估每条染色体所对应个体的适应度While(未找到满意的解):2.遵照适应度越高,选择概率越大的原则,从种群中选择两个个体作为父方和母方3.抽取父母双方的染色体,进行交叉,产生子代4.对子代的染色体进行变异
优点:
1) 遗传算法具有广泛的应用领域
2) 遗传算法具有群体搜索的特性
3) 遗传算法基于概率规则,搜索更为灵活
4) 遗传算法直接以目标函数作为搜索信息,不涉及目标函数值求微分的过程
缺点:
1) 遗传算法效率比较低
2) 遗传算法容易过早收敛
3) 遗传算法在编码时容易出现不规范不准确的问题
主成分分析法
主成分分析法(PCA)
参考资料:
spssspro
PCA(主成分分析)过程详解
简书
数据降维大法–主成分分析法
1主成分分析法是运用“降维”思想,把多个指标变换成少数综合指标的多元统计方法,这里的综合指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变量的综合替代对象,并且保证了转化过程中的信息损失最小 。
前言废话篇:
什么,老板既然让我一天内分析完今年公司的经营状态??
光是公司财务数据就已经包含20+个变量,固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、等等,何况公司还有其他的部门!
老板虐我千百遍,我待老板如初恋,再见了,我也该去寻找真正属于我的幸福了。可是工作做不完,晚上就没时间去寻找幸福了,作为一名专业首席财务官(公司唯一的会计),偷懒这件事情上我还没有输过谁,既然那么多变量,那我就把20个变量偷偷的变成5个变量,四舍五入我只要分析5个变量的数据,是时候打开微信约妹子了。
废话结束,开启正文模式
那哪些才是可选择的重要指标呢?这就是我们所说的数 ...