方差和均值如何判断数据的好坏(分层数据的均值与方差公式)
负的平方怎么算 话说数据科学——数学技能之均值(mean)与方差(variance)
本期我们来简单了解一下均值(mean)和方差(variance)这两个概念,同样我们会在西格玛运算这一背景之下来进行说明。
均值(mean)
在这个等式的左侧使用符号来表示均值,其右下侧的x表示一个 ,故所表达的是 x中所有数之和的均值。通过等式右侧的表达式可知,在 x中有n个数, x的所有数之和表示为
,即
的计算结果,其均值为所有数的总和除以数字的个数n。
我们举一个简单的例子来看一下,假设有一个 A,该 中有三个实数如下
A={1,5,12},其 A的绝对值为|A|=3,说明该 有三个实数。
A的均值计算过程为
,=6。
在了解均值的基础上,我们延伸到一个概念——均值中心化,简单来说,可以理解为将我们所计算出的当前均值作为中心点(“0”)来看待。例如当 A的均值“6”作为中心点来看的话,相应的 A的所有数字均需相应地进行位移。
均值中心化这一概念会在线性回归中应用到,对于数据分析也是很重要的一个技巧,在之后相关的内容中,我们会进一步介绍。
至于为何要提出均值这一概念,我们可以这样去理解,如果遇到一个体量非常大的数据 ,均值或许是我们能该数据集信息的最简单方式,毕竟这个均值是可以给我们提供一定的信息的。
方差(variance)
虽然均值在一定程度上可以提供关于数据集的信息,但并不总是如此。例如,以下两个
A={1,5,12},B={5,6,7}
和经计算后,两个 的均值都是6,但实际上两个 是不一样的,我们也需要其他的判断方式或工具来帮助我们进行数据集的区分。
如果在实数轴上来看这两个 ,会发现 B的延展性更大。
如何知道其延展性具体是多少,我们可以通过方差来进行对比。
等式左侧用表示 X的方差,右侧表达式取 X中每个数与均值差的平方之和,除以 X所有数的个数或其绝对值n。
这里为何使用 X中各个数字与均值差的平方,是考虑到差会有负数的情况,例如在 A中,均值左侧的数字1和5与均值相减得到就是负数,而我们实际要知道的是该数与均值之间的距离,通过平方就可解决这一问题。
根据以上等式,我们来计算一下所给的两个 A和B的方差。
比较之下, A的方差远远大于 B,从而也印证了在实数轴上它的延展性更大。尽管两个 的均值相同,其方差或标准差不一样,这对于我们在进行数据分析时是个很好的判断工具,比较两个数据集的差别。
分层数据的均值与方差公式 怎么用均值和标准差求出原始数据