高中数学 09 统计
随机抽样
简单随机抽样:
定义:设一个总体含有\(N\)个个体,从中逐个不放回地抽取\(n\)个个体作为样本\((n\leq N)\),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。
常用方法:抽签法和随机数法。抽签法是将总体中的\(N\)个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取\(n\)次,就得到一个容量为\(n\)的样本。随机数法是利用随机数表、随机数生成器或统计软件来抽取样本,先将总体中的个体编号,然后根据随机数确定抽取的个体编号。
分层抽样:
定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样。
适用情况:当总体是由不同层次或类别组成,且各层次或类别之间有明显差异时,适合采用分层抽样。例如,调查某学校学生的视力情况,可按年级分层进行抽样。
用样本估计总体
用样本的频率分布估计总体分布:
频率分布表:计算样本数据在各个区间内出现的频数和频率,列出频率分布表。例如,对某班级学生的考试成绩进行统计,可将成绩划分为若干区间,统计每个区间内的人数,进而得到频率分布表。
频率分布直方图:以面积的形式反映了数据落在各个小组内的频率大小。它的纵轴表示频率与组距的比值,每个小矩形的面积等于该组的频率,所有小矩形的面积之和等于\(1\)。通过频率分布直方图可以直观地看出数据的分布情况,如分布的形状、中心位置、离散程度等。
频率分布折线图:在频率分布直方图的基础上,把每个小矩形上面的中点用线段连接起来,就得到频率分布折线图。它能更直观地反映数据的变化趋势。
茎叶图:将数据的茎和叶按一定的顺序排列,茎表示数据的高位部分,叶表示数据的低位部分。茎叶图既能展示数据的分布情况,又能保留原始数据的信息,适用于数据较少的情况。
用样本的数字特征估计总体的数字特征:
众数:一组数据中出现次数最多的数据叫做这组数据的众数。众数可以反映一组数据的集中趋势,有时一组数据可能有多个众数,也可能没有众数。
中位数:将一组数据按照从小到大(或从大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数;如果数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数。中位数不受极端值的影响,能较好地反映数据的中间水平。
平均数:一组数据的总和除以数据的个数得到的商叫做这组数据的平均数。平均数反映了一组数据的平均水平,但容易受极端值的影响。
方差与标准差:方差是用来衡量一组数据波动大小的量,计算公式为\(s^{2}=\frac{1}{n}[(x_{1}-\overline{x})^{2}+(x_{2}-\overline{x})^{2}+\cdots+(x_{n}-\overline{x})^{2}]\),其中\(x_{1},x_{2},\cdots,x_{n}\)是样本数据,\(\overline{x}\)是样本平均数。标准差是方差的算术平方根,即\(s=\sqrt{s^{2}}\)。方差或标准差越大,表明数据的波动越大,数据越分散;方差或标准差越小,表明数据的波动越小,数据越集中。
统计案例
回归分析:
变量间的相关关系:两个变量之间的关系有函数关系和相关关系。函数关系是一种确定性关系,而相关关系是一种非确定性关系,即当一个变量的值确定时,另一个变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。
回归直线方程:对于具有线性相关关系的两个变量\(x\)和\(y\),通过最小二乘法得到回归直线方程\(\hat{y}=\hat{b}x+\hat{a}\),其中\(\hat{b}=\frac{\sum_{i = 1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i = 1}^{n}(x_{i}-\overline{x})^{2}}\),\(\hat{a}=\overline{y}-\hat{b}\overline{x}\)。回归直线方程可以用来预测当\(x\)取某一值时\(y\)的取值范围。
独立性检验:
分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。例如,性别有男、女两个类别,是否吸烟有吸烟、不吸烟两个类别等。
独立性检验的基本思想:通过计算\(K^{2}\)统计量来判断两个分类变量是否有关联。\(K^{2}=\frac{n(ad - bc)^{2}}{(a + b)(c + d)(a + c)(b + d)}\),其中\(n=a+b+c+d\)是样本容量,\(a\)、\(b\)、\(c\)、\(d\)分别是列联表中的四个数据。根据\(K^{2}\)的观测值与临界值的比较来确定两个分类变量是否有关联以及关联的程度。
统计在实际生活和科学研究中有着广泛的应用,通过对数据的收集、整理、分析和推断,可以帮助我们更好地了解事物的本质和规律,做出合理的决策。