标准差太大怎么办_为什么标准化数据后数据变少了
大家好!今天让小编来大家介绍下关于标准差太大怎么办_为什么标准化数据后数据变少了的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
文章目录列表:
1.标准差太大怎么办2.为什么标准化数据后数据变少了
3.如何对数据进行标准化处理
4.怎么做极差标准化?可以教我么?
5.[转载]中心化(又叫零均值化)和标准化(又叫归一化)
标准差太大怎么办
问题一:请教数据统计时标准差太大如何处理 发生这样的情况肯定是你数据量比较小。但是你又说了满足正态分布,如果改变数据可能就改变了分布,但是改变分布也不使得你的标准差发生大的改变。因为标准差是数据本身产生的,除非你改数字。那之后你就只能改变描述数据的方法,不知道你想体现这个数据什么特征。你要不试试均值除以标准差
问题二:标准差 大于 平均值可以吗 这个问题有点偏题之嫌。
标准差貌似不能大于均值,其实可以。因为这两个东西没有理论上的必然联系。
我试了一组数,四个1,四个-1,一个24,一个25,这十个数字的均值是4.9,标准差是9.8(使用Excel之STDEVP函数)。另一组数,六个0,两个10,一个14,一个15,均值4.9,标准差是6.17。
只要加大数据之间的差距,标准差一定扩大,但扩大差距的同时,平均水平可以保持不变。
另外,如果是非负数,也同样可以实现标准差大于均值的情况。如,九个1,一个100,均值为10.9,标准差为29.7。
这个问题的提出可能与一个常见现象有关:平均值越大,标准差经常也越大。但这种经验并不能妨碍使用标准差公式算出极端值。
而且,差异过分大的数值,在社会现象当中通常不会汇集到同一个数据 *** ――即“同质总体”中,个体差异太大就不能构成“同质”了。
很高兴为您解答有用请采纳
问题三:请教:参数估计标准差太大,估计值不理想,如何处理 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。 1.简单随机抽样确定样本量主要有两种类型: (1)对于平均数类型的变量 对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据,总体单位数N。计算公式为:n=σ2/(e2/Z2+σ2/N)特殊情况下,如果是很大总体,计算公式变为:n= Z2σ2/e2例如希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96。根据估计总体的标准差为150元,总体单位数为1000。样本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88(2)于百分比类型的变量对于已知数据为百分比,一般......>>
问题四:标准差的数值的大小代表什么意义?标准差大好还是小好? 标准差也被称为标准恭差,或者实验标准差。简单来说,标准差是一组数据平均值分散程度的一种度量。
一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。 一般来说标准差较小为好,这样代表比较稳定。
问题五:为什么混凝土标准差过大 你好!!~混凝土标准差是用来评定混凝土同一时期生产质量波动水平的重要指标。 混凝土标准差偏大评定出来的混凝土质量不合格。分析原因每次生产混凝的强度一般波动不太大,强度报告上的数据离散性偏大,一般不超过5MPA 为宜 ,当然高强度混凝土强度至少高10MPA 就比较合适了这个是评定混凝土质量的经验。 有些资料员不懂这个每次都行合格就行 数据偏差太大以至于你后来评定混凝土 标准差偏大的一个原因。 还有就是计算是你的公式数据可否正确仔细核查公式程序。 在一个就是一般评定不超过三个月最好 超出就容易出现你说的问题。谢谢 !~
问题六:舒尔特表的结果标准差太大说明什么? 不够稳定,这个主要是看顺眼、看不顺眼,并且有时候着急就更不容易找到
可以尝试6×6的、7×7的,以增加难度
一个表格用过几次后就应该换了
问题七:如果变量中有许多零,回归后标准差很大,如何处理好 首先r的范围是(-1,1),应该是绝对值越接近1越线性相关,接近-1是负线性相关,接近1是线性相关
问题八:标准差与方差问题 用标准差与方差没有太大区别,但是比较时只能用一个
它们都是用来度量随机变量和其数学期望(即均值)之间的偏离程度,偏离海度越大,不论是标准差还是方差,都会变大
问题九:标准差太大,需要处理数据吗 方法一:规范化方法
也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。
方法二:正规化方法
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。
z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
spss默认的标准化方法就是z-score标准化。
用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
步骤如下:
求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
为什么标准化数据后数据变少了
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
1)无量纲化
2)避免数值问题:太大的数会引发数值问题。
3)一些模型求解的需要。例如梯度下降法。不归一化,容易产生陕谷,而学习率较大时,以之字形下降。学习率较小,则会产生直角形路线。
4)特殊情况,特殊分析,不同的模型,归一化有不同的原因。关于BP神经网络的,参考 http://nnetinfo.com/nninfo/showText.jsp?id=37
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:
看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。
用反正切函数也可以实现数据的归一化:
使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。
而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
另附另一参考文献: http://www.ilovematlab.cn/thread-63766-1-1.html
https://zhuanlan.zhihu.com/p/23684808
http://www.ilovematlab.cn/thread-63766-1-1.html
http://blog.csdn.net/lkj345/article/details/50352385
如何对数据进行标准化处理
缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。
怎么做极差标准化?可以教我么?
建议使用SPSS软件,具体方法如下:
1.打开spss软件,然后将界面切换到变量视图。在编辑列中创建观察指标和类型。图中示例创建两个指标,一个作为自变量,另一个作为因变量,分别是gdd和城市化水平,代表人均gdp和城市化水平。
2、指标及类型建构建好后,就要输入数据到spss中了。切换到“数据视图”,数据可以自己手工输入,也可以从excel中复制或导入。
3、点击分析和回归,对数据进行线性回归分析。
4、进入线性回归设置界面,设置自变量,因变量。
5.设置完各种参数后,单击“确定”,spss将根据预设进行分析并自动输出分析结果。分析结果如图所示,并根据已知的分析结果,可知自变量和因变量符合线性回归模型。
[转载]中心化(又叫零均值化)和标准化(又叫归一化)
数据标准化方法包括总和标准化、标准差标准化、极大值标准化和极差标准化,极差标准化方法是:对于正向指标(数据越大,反应的情况越好)X'=(X - Xmin)/(Xmax-Xmin);对于负向指标(数据越小,反应的情况越好)X'=(Xmax - X)/(Xmax-Xmin)。但是一般的软件好像没有这种内定的标准化方法,像spss就是默认使用标准差标准化方法,如果必须使用spss极差标准化可以自己编写代码内嵌实现,如果只是简单的处理数据,完全没必要折腾自己,标准差标准化足以,可喜的是标准差标准化算出的结果还有负值,多了一条不错的结论。另外,matlab绝对可以实现你所要的算法,你也可以尝试一下!当然了,excel也可以实现你的要求,只是需要你自己慢慢弄了。
https://blog.csdn.net/GoodShot/article/details/80373372
一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?
1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。原理:数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
2、(1)中心化(零均值化)后的数据均值为零
(2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)
三、下面解释一下为什么需要使用这些数据预处理步骤。
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
其实,在不同的问题中,中心化和标准化有着不同的意义,
比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
·对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。
四、归一化
两个优点:
1)归一化后加快了梯度下降求最优解的速度;
2)归一化有可能提高精度。
1、 归一化为什么能提高梯度下降法求解最优解的速度?
如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
2、归一化有可能提高精度
一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
3、以下是两种常用的归一化方法:
1)min-max标准化(Min-MaxNormalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2)Z-score标准化(0-1标准化)方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
转化函数为:
其中 为所有样本数据的均值, 为所有样本数据的标准差。
五、中心化(以PCA为例)
下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0).
在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。
如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。
黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才2能比较好的“概括”原来的数据。
参考:
1.https://blog.csdn.net/goodshot/article/details/79488629
2.https://blog.csdn.net/GoodShot/article/details/78241862
相关文章