高中数学 18 成对数据的统计分析
变量间的相关关系
相关关系的概念:两个变量之间的关系有函数关系和相关关系。函数关系是一种确定性关系,而相关关系是一种非确定性关系,即当一个变量的值确定时,另一个变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。例如,人的身高和体重之间就存在相关关系,一般来说,身高较高的人体重也会相对较重,但并不是确定的函数关系。
散点图:用坐标平面上的点来表示成对数据,以横轴表示一个变量,纵轴表示另一个变量,这样的图形叫做散点图。通过散点图可以直观地观察两个变量之间的关系,如是否存在线性关系、正相关还是负相关等。如果散点图中的点大致分布在一条直线附近,那么这两个变量之间可能存在线性相关关系;如果点从左下角到右上角分布,呈现上升趋势,则为正相关;如果点从左上角到右下角分布,呈现下降趋势,则为负相关。
一元线性回归模型
回归直线方程:对于具有线性相关关系的两个变量\(x\)和\(y\),通过最小二乘法得到回归直线方程\(\hat{y}=\hat{b}x+\hat{a}\),其中\(\hat{b}=\frac{\sum_{i = 1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i = 1}^{n}(x_{i}-\overline{x})^{2}}\),\(\hat{a}=\overline{y}-\hat{b}\overline{x}\)。\(\hat{y}\)是\(y\)的预测值,\(\overline{x}\)和\(\overline{y}\)分别是\(x\)和\(y\)的样本均值。回归直线方程可以用来预测当\(x\)取某一值时\(y\)的取值范围。
模型的检验:
残差分析:对于样本点\((x_{i},y_{i})\),其残差为\(e_{i}=y_{i}-\hat{y}_{i}\),即观测值与预测值的差。通过绘制残差图,可以直观地判断模型的拟合效果。如果残差图中的点比较均匀地分布在以横轴为对称轴的水平带状区域内,说明模型的拟合效果较好;如果残差图中出现明显的规律或趋势,则说明模型可能存在问题。
相关系数\(r\)的检验:相关系数\(r=\frac{\sum_{i = 1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum_{i = 1}^{n}(x_{i}-\overline{x})^{2}\sum_{i = 1}^{n}(y_{i}-\overline{y})^{2}}}\),其取值范围是\([-1,1]\)。当\(r>0\)时,表示两个变量正相关;当\(r<0\)时,表示两个变量负相关;\(\vert r\vert\)越接近\(1\),表示两个变量的线性相关性越强;\(\vert r\vert\)越接近\(0\),表示两个变量的线性相关性越弱。一般地,当\(\vert r\vert\geqslant0.75\)时,认为两个变量有很强的线性相关性。
列联表与独立性检验
分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。例如,性别有男、女两个类别,是否吸烟有吸烟、不吸烟两个类别等。
列联表:列出两个分类变量的频数表,称为列联表。一般地,假设有两个分类变量\(X\)和\(Y\),它们的取值分别为\(\{x_{1},x_{2}\}\)和\(\{y_{1},y_{2}\}\),则其列联表如下:
| | \(y_{1}\) | \(y_{2}\) | 总计 |
| \(x_{1}\) | \(a\) | \(b\) | \(a + b\) |
| \(x_{2}\) | \(c\) | \(d\) | \(c + d\) |
| 总计 | \(a + c\) | \(b + d\) | \(n=a + b + c + d\) |
独立性检验:利用随机变量\(K^{2}=\frac{n(ad - bc)^{2}}{(a + b)(c + d)(a + c)(b + d)}\)来判断两个分类变量是否有关联,其中\(n=a+b+c+d\)是样本容量。根据\(K^{2}\)的观测值与临界值的比较来确定两个分类变量是否有关联以及关联的程度。一般地,当\(K^{2}\)的观测值越大,说明两个分类变量之间有关系的可能性越大。给定一个显著性水平\(\alpha\),如果\(K^{2}\)的观测值大于对应的临界值\(k_{0}\),则在显著性水平\(\alpha\)下拒绝原假设,认为两个分类变量有关系;否则,认为两个分类变量没有关系。
成对数据的统计分析在实际生活中有广泛的应用,如经济预测、医学研究、社会调查等领域,通过对成对数据的分析,可以帮助我们发现变量之间的关系,进而为决策提供依据。