• 当我们用试验或者观察的方法研究一个问题,首先要通过试验取得必要的数据,然后对数据进行分析,以便对所提问题做出尽可能正确的结论
    • 尽可能正确:数据带有随机性的误差,这种误差除了测量不准带来的误差以外,关键的是我们所获得的数据仅仅是所研究事物的一小部分,究竟是哪一部分则是随机的,所以分析得出的结论一般是有错误的。
    • 不过我们想错误愈小愈好。需要用到数理统计的方法
    • 数理统计:用概率论和数学方法,研究怎么收集带有随机误差的数据,在设定的统计模型之下,对数据进行统计分析,以对所研究的问题进行统计推断。
  • 例子:研究元件的平均寿命。(书上第二个问题是关于假设检验的,先跳过)

    • 我们事先假定元件寿命服从指数分布。(统计模型)
    • 如果我们知道了分布中参数$\lambda$ 的值,则我们可以直接推出平均寿命为$1/\lambda$
    • 但实际上这个参数往往是未知的。我们只好从大批元件中在同等条件下随机抽出若干个,测出其寿命为$X_1,…,X_n$(收集的数据)
    • 一个自然的想法是用$n$个元件寿命的均值去估计$\lambda$ 。(统计分析和推断)
    • 这种问题叫做!!!参数估计!!!!非常重要的一个问题!!
  • 总体

    • 所研究问题的对象的全体构成的集合。总体随研究范围而定,比如中国的大学,杭州的大学。
    • 我们研究的总体中的个体,实际上只关心一些指标,比如要研究大学生的身高,那么我们就关注大学生的身高这一指标值。那么总体就是这些身高值组成的集合。
    • 总体单单有这样一堆杂乱无章的数还不行,没有什么数学或概率上的性质。比如元件的寿命是一堆数字,大学生身高也是一堆数字。
    • 所以!!我们要研究的是赋有一定概率分布的总体,称为统计总体
      • 总体分布不同,分析方法不同。
      • 比如元件寿命分布为指数分布,大学生身高分布为正态分布
    • 即使两个总体内个体性质根本不同,但只要有同一的概率分布,则可以视为同一类总体
      • 比如人的寿命服从指数分布,元件啊的寿命也服从指数分布。
    • 更准确地说:总体分布是一个概率分布族的一员。
      • 因为我们假定元件寿命服从指数分布,并没有指定$\lambda$取值
      • 比如元件寿命是一个指数分布族中的一员。(包含一个参数$\lambda$,叫做单参数分布族)
      • 正态分布族是双参数分布族
    • 另外,有时我们只是假设总体具有一定概率分布,并不知道其数学形式,这种总体叫非参数总体
    • 还有就是实际上总体中个体数总是有限的,有限总体的相应分布是离散的,其形式与个体总数有关,且缺少一个简洁的数学形式。我们可以用一个连续分布去逼近离散分布。当总体所含个数特别多时,这种逼近所带来的误差可以忽略不计。尤其是正态分布,对许多实际问题的总体分布都给了足够好的近似!背后的原因和大数定理有关!
    • 注意:一个物体的真实重量未知,我们多次量测去估计它。该试验的总体不是这个物体!而是所有可能的量测结果组成的集合!!!我们只需要说量测结果是随机的,服从某某分布即可。
  • 样本

    • 从总体中在抽出的一部分个体。(注意:每个个体抽出机会要等同)
    • 我们兴趣不在个体本身,而是在个体的某一特征值(比如身高),
    • 描述为:$n$个样本,$X_1,…,X_n$ 。尽管他们有具体的值,但实际上也是随机变量,因为抽到哪一个个体是随机的。所以样本$X_1,…,X_ n$ ,某一次的观测值我们记为$x_1,…,x_n$
    • 当总体个数足够多,抽出$n$个样本不会改变其原有分布,因此,这些样本是独立同分布的,其分布即为总体的分布。(我们主要研究这种情形,即总体个数足够多的情况)
  • 统计量

    • 完全由样本所决定的量叫做统计量

    • 比如$\bar{X}=(X_1+X_2+…+X_n)/N$ 就是一个统计量,所谓“完全”指统计量只依赖于样本,里面不能有其他未知的量。尤其是,它不能依赖总体分布中所包含的参数。比如$(X-\mu)$ 不是统计量。

    • 统计量可以看作是对样本的一种加工,将样本所含某一方面的信息集中起来。比如$\bar{X}$ 可用于估计$\mu$ 。而如果想了解总体方差$\sigma^2$ ,则需要用$S^2=\sum_\limits{i=1}^n(X_i-\bar{X}^2)/(n-1)$ 称作样本方差

    • 样本矩(先略掉