总体和样本
研究对象的全体称为总体,组成总体的每一个元素称为个体。
统计量及其分布
设 X1,X2,⋯,Xn 来自总体 X 的一个样本,g(x1,x2,⋯,xn) 为 n 元函数,若 g 中不含有任何未知参数,则称 g(X1,X2,⋯,Xn) 为样本 X1,X2,⋯,Xn 的一个 统计量。若 (x1,x2,⋯,xn) 为样本值,则称 g(x1,x2,⋯,xn) 为 g(X1,X2,⋯,Xn) 的 观测值。
常用统计量
样本数字特征
- 样本均值:X=n1i=1∑nXi
- 样本方差:S2=n−11i=1∑n(Xi−X)2
- 样本标准差:S=n−11i=1∑n(Xi−X)2
- 样本 k 阶(原点)矩:Ak=n1i=1∑nXik(k=1,2,⋯)
- 样本 k 中心矩:Bk=n1i=1∑n(Xi−X)k(k=1,2,⋯)
顺序统计量
将样本 X1,X2,⋯,Xn 的 n 个观测量按其值从小到大的顺序排列,得到 X(1)⩽X(2)⩽⋯⩽X(n)。
随机变量 X(k)(k=1,2,⋯,n)称为\textbf{第 k 顺序统计量},其中 X(1) 是最小顺序统计量,而 X(n) 是最大顺序统计量。
性质
设总体 X 的期望 EX=μ,方差 DX=σ2,样本 X1,X2,⋯,Xn 取自 X,X 和 S2 分别为样本的均值和方差,则:
- EXi=μ
- DXi=σ2
- EX=EX=μ
- DX=D(n1i=1∑nxi)=n21nσ2=n1DX=nσ2。
- E(S2)=DX=σ2
三大分布
χ2 分布
概念
若随机变量 X1,X2,⋯,Xn 相互独立,且都服从标准正态分布,则随机变量 X=i=1∑nXi2 服从自由度为 n 的 χ2 分布,记为 X∼χ2(n),特别地 Xi2∼χ2(1)。

上 α 分位数
对给定的 α(0<α<1)称满足 P{χ2>χα2(n)}=∫χα2(n)+∞f(x)dx=α 的 χα2(n) 为 χ2(n) 分布的上 α 分位点。
性质
- X1+X2∼χ2(n1+n2)
- EX=N,DX=2n
t 分布
概念
若随机变量 X∼N(0,1),Y∼χ2(n),XY 相互独立,则随机变量 t=Y/nX 服从自由度为 n 的 t 分布,记为 t∼t(n)。

上 α 分位数
P{t>tα(n)}=α
性质
F 分布
概念
若随机变量 X∼χ2(n1),Y∼χ2(n2),且 X 与 Y 相互独立,则 F=Y/n2X/n1 服从自由度为 (n1,n2) 的 F 分布,记为 F∼F(n1,n2),其中 n1 为第一自由度,n2 为第二自由度。

上 α 分位数
P{F>Fα(n1,n2)}=α
性质
- 若 F∼F(n1,n2),则 F1∼F(n2,n1)。
- F1−α(n1,n2)=Fα1(n2,n1)
- t∼t(n),则t2∼F(1,n)
正态分布下的常用结论
设X1,X2,⋯,Xn是来自正态总体N(μ,σ2)的一个样本,X,S2分别是样本均值和样本方差,则
X∼N(μ,nσ2),即nσX−μ=σn(X−μ)∼N(0,1);
σ21∑i=1n(Xi−μ)2∼χ2(n)
σ2(n−1)S2=∑i=1n(σXi−X)2∼χ2(n−1)(μ未知时,在(2)中用X替代μ)
X 与S2相互独立,Sn(X−μ)∼t(n−1)(σ未知时,在(1) 中用S替代 σ).进一步有
S2n(X−μ)2∼F(1,n−1)
σ2(n−1)S2/(n−1)(σ/nX−μ)21=S2n(X−μ)2
参数的点估计
定义:设总体 X 的分布函数为 F(x;θ),其中 θ 为一个未知参数,X1,X2,⋯, \ Xn 是取自总体 X 的一个样本。由样本构造一个适当的统计量 θ^(X1,X2,⋯,Xn) 作为参数 θ 的估计,称统计量 θ^(X1,X2,⋯,Xn) 为 θ 的估计量,一般记为 θ^=θ^(X1,X2,⋯,Xn)。
如果x1,x2,⋯,xn是样本的一个观察值,将其代入估计量θ^中得到值θ^(x1,\x2,⋯,xn),并且此值作为未知参数θ的参数值,统计值称这个值为未知参数θ的估计值。
建立一个适当的统计量作为未知参数 θ 的估计量并以相应的观察值作为未知参数估计值的问题,就是参数 θ 的 点估计问题。
矩估计
Xˉ=EX
n1i=1∑nXi2=E(X2)
最大似然估计
\begin{cases}
\prod_{i=1}^np(x_i;\theta)(\text{这是离散型总体}X\text{取}x_1,x_2,\cdots,x_n\text{的概率)}, \\
\\
\prod_{i=1}^nf(x_i;\theta)(\text{这是连续型总体}X\text{取}x_1,x_2,\cdots,x_n\text{的联合概率密度)}. &
\end{cases}$$
求参数 $\begin{cases}\text{若似然函数有驻点,则令}\frac{\mathrm{d}L}{\mathrm{d}\theta}=0\text{或}\frac{\mathrm{d}(\ln L)}{\mathrm{d}\theta}=0,\text{解出}\hat{\theta},\\\\\text{若似然函数无驻点(单调),则用定义求}\hat{\theta},\\\text{若似然函数为常数,则用定义求}\hat{\theta},\text{此时}\hat{\theta}\text{不唯一}.\end{cases}$
### 估计量的评价标准
- 无偏性
- 有效性(最小方差)
- 一致性(相和性)
$$\lim_{n\to\infty}P\{\mid\hat{\theta}-\theta\mid\geqslant\varepsilon\}=0$$
切比雪夫不等式 $P\{ \mid X- EX\mid \geqslant \varepsilon \} \leqslant \frac DX{\varepsilon ^2}$ ,
辛钦大数定律 (独立同分布、$EX$ 存在)
$\Rightarrow\overline{X}\xrightarrow{P}EX$
## 区间估计
$\text{设}X\sim N(\mu,\sigma^2)\text{,从总体}X\text{中抽取样本}X_1,X_2,\cdots,X_n\text{,样本均值为}\overline{X}\text{,样本方差为}S^2$
$\sigma^2\text{已知,}\mu\text{的置信水平是 1}-\alpha\text{的置信区间为}$
$$\left(\overline{X}-\frac{\sigma}{\sqrt{n}}z_{\frac{\alpha}{2}},\overline{X}+\frac{\sigma}{\sqrt{n}}z_{\frac{\alpha}{2}}\right)$$
$\sigma^{2}$ 未知 $,\mu$ 的置信水平是 1 $-\alpha$ 的置信区间为
$$\left(\overline{X}-\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1),\overline{X}+\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)\right)$$
$\mu$ 已知 $,\sigma^2$ 的置信水平是 1 $-\alpha$ 的置信区间为 (此种情况一般不出现)
$$\left(\frac{\sum_{i=1}^n(X_i-\mu)^2}{\chi_{\frac{\alpha}{2}}^2(n)},\frac{\sum_{i=1}^n(X_i-\mu)^2}{\chi_{1-\frac{\alpha}{2}}^2(n)}\right)$$
$\mu\text{未知,}\sigma^2\text{的置信水平是 1}-\alpha\text{的置信区间为}$
$$\left(\frac{(n-1)S^2}{\chi_\alpha^2(n-1)},\frac{(n-1)S^2}{\chi_{1-\frac{\alpha}{2}}^2(n-1)}\right)$$
## 假设检验
>拒绝域的形式与备择假设 $H_{1}$ 的形式一致
- $\sigma^{2}\text{已知,}\mu\text{未知 }.H_{0};\mu=\mu_{0},H_{\mathrm{i}};\mu\neq\mu_{0},\text{则拒绝域为}\left(-\infty,\mu_{0}-\frac{\sigma}{\sqrt{n}}z_{\frac{\alpha}{2}}\right]\cup\left[\mu_{0}+\frac{\sigma}{\sqrt{n}}z_{\frac{\alpha}{2}},+\infty\right)$
- $\sigma^{2}\text{未知,}\mu\text{未知.}H_{0}{:}\mu=\mu_{0},H_{1}{:}\mu\neq\mu_{0},\text{则拒绝域为}$$\left(-\infty,\mu_0-\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}\left(n-1\right)\right]\bigcup\left[\mu_0+\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}\left(n-1\right),+\infty\right)$
- $\sigma^{2}\text{已知},\mu\text{未知}.H_{0};\mu\leqslant\mu_{0},H_{1};\mu>\mu_{0},\text{则拒绝域为}\left[\mu_{0}+\frac{\sigma}{\sqrt{n}}z_{\alpha},+\infty\right)$
- $\sigma^{2}\text{已知},\mu\text{未知}.H_{0}:\mu\geqslant\mu_{0},H_{1}:\mu<\mu_{0},\text{则拒绝域为}\left(-\infty,\mu_{0}-\frac{\sigma}{\sqrt{n}}z_{\alpha}\right]$
- $\sigma^{2}\text{未知},\mu\text{未知}.H_{0}:\mu\leqslant\mu_{0},H_{1}:\mu>\mu_{0},\text{则拒绝域为}\left[\mu_{0}+\frac{S}{\sqrt{n}}t_{\alpha}(n-1),+\infty\right]$
- $\sigma^{2}\text{未知},\mu\text{未知}.H_{0}:\mu\geqslant\mu_{0},H_{1}:\mu<\mu_{0},\text{则拒绝域为}\left(-\infty,\mu_{0}-\frac{S}{\sqrt{n}}t_{\alpha}(n-1)\right]$
## 两类错误
- 弃真
- $\text{犯第一类错误的概率为 }\alpha=P\{\text{ 拒绝 }H_0\mid H_0\text{ 为真 }\}$
- 取伪
- $\text{犯第二类错误的概率为 }\beta=P\{\text{ 接受 }H_0\mid H_0\text{ 为假 }\}=P\{\text{ 接受 }H_0\mid H_1\text{ 为真 }\}$