• 总体分布的表示:以$f(x;\theta_1,…,\theta_k)$ 记其为概率密度函数(连续型)或其概率分布函数(离散型)为总体分布。这个分布具有$k$个未知参数$\theta_1,…,\theta_k$ 。例如正态分布总体$N(\mu,\sigma^2)$ 有$\theta_1=\mu$,$\theta_2=\sigma^2$。例如二项分布,只有一个参数,就用$\theta$ 表示。

  • 参数估计的点估计:

    • 设有了从总体中抽出的样本$X_1,…,X_n$ (独立同分布),要依据这些样本对参数$\theta_1 ,\theta_2,…,\theta_k$ 的未知值进行估计,或估计它们中的一部分,或它们的的某个已知函数$g(\theta_1,\theta_2,…)$ 。
    • 例如要估计$\theta_1$
    • 我们要构造适当的统计量$\hat{\theta_1}=\hat{\theta_1}(X_1,X_2,…,X_n)$ 。
    • 每次有了样本,就带入上面的函数算出一个值,作为$\theta_1$ 的估计值
    • 这种统计量叫做xxx的估计量。
    • 由于未知参数$\theta_1$是数轴一个点,我们要用一个点去估计另一个点,叫做点估计。
    • 点估计的方法有几种,同一个参数往往可以用若干看起来合理的方法去估计,因此要有一种判断优劣的准则。
  • 矩估计

  • 极大似然估计

    • 设总体有分布$f(x;\theta_1,\theta_2,…,\theta_k)$ , 从总体中抽出的样本$X_1,…,X_n$ (以后默认都是独立同分布),则样本的联合分布为(即$(X_1,X_2,..,X_n)$的分布):注意!单个样本的分布和总体相同,联合分布不同!
      • 用概率密度函数表示为
      • $f(x_1,x_2,…,x_n)=f(x_1;\theta_{1:k})f(x_2;\theta_{1:k})…f(x_n;\theta_{1:k})$
      • 因为独立!!所以可以直接拆开乘
    • 记为$L(x_1,…,x_n;\theta_1,…,\theta_k)$
      • 固定$\theta$ ,若有$L(Y_{1:n})>L(X_{1:n})$ 则说明观察时出现$Y_{1:n}$ 点的可能性更大
      • 固定$X$ ,若有$L(\theta’)>L(\theta’’)$ 则说明被估计的参数$\theta_{1:k}$ 是$\theta’$ 的可能性更大
    • 固定$X$ 时,$L(\theta)$ 称为似然函数

      • 反映了在观察结果已知的情况下,$(\theta_1,…,\theta_k)$ 的各种值的似然程度

        • 这里有点像贝叶斯公式的推理:由结果推各种原因的概率。
        • 这里参数$\theta_{1:k}$ 有一定的值(虽然未知),并非事件或随机变量,于是用“似然”这个词
      • 自然!我们应该用似然程度最大的那个点$(\theta_{1:k}^)$ ,即满足下列条件的那个$(\theta_{1:k}^)$作为参数的估计值

        $
        L(X_1,…,X_n;\theta_1^,…,\theta_k^)=\max_\limits{\theta_1,…\theta_k}L(X_1,…,X_n;\theta_1,…,\theta_k)
        $

      • 因为在已得样本的条件下,这个看起来最像是真的参数值!!!(这个看起来像即似然!最像即似然程度最大)。

      • 这个估计$(\theta_{1:k}^*)$ 就叫做$(\theta_{1:k})$ 的极大似然估计。

为什么要最大化这个$L$ 其实有更好的解释:以下摘自CSDN和百度百科

https://blog.csdn.net/baidu_38172402/article/details/89074482

对于这个函数:$f(x;\theta)$
输入有两个:$x$表示某一个具体的数据;$\theta$表示模型的参数。

如果$x$未知,$\theta$ 已知,则称为概率函数,表示给定模型,不同样本点出现的概率是多少

如果$x$已知,$\theta$ 未知,一般写作$L(\theta|x)$ 。称为似然函数。表示对于不同模型参数下,出现$x$这个样本点的概率是多少

我们当然希望极大化这个函数!!使得出现$x$这个样本点的概率最大呀!!

可是,上面的是$L$ 似乎不是$P$ ,即不是概率,而是概率密度函数?最大化L等价于最大化P吗?

是的!!!我们看百度百科!!

对于离散型,用分布列进行描述。可以看到两者自然等价。

而对于连续型

注意:上面还提到了样本和样本的观测值!!!学习一下!

反正,虽然还是对那个$n$维立方体看不太懂,但是可以看到最大化$L$确实是和最大化$P$ 等价的

后面的步骤,百度百科讲的很好了!如何求极大似然估计。我觉得用语也比那本书更规范。比如提到了样本和样本观测值,极大似然估计值和极大似然估计量。

注意:如果$f$ 对参数不可导,或者$f$根本不连续,此时则似然方程就不能用,必须要回到max那个式子去求。还要注意求出来的点可能有几组,是极值点,要验证去找最值点。

注意:一般说来,它相对其他估计方法,比较优良,当然也有不好的情况。与矩估计不同,极大似然估计要求分布需要有参数的形式。如果对总体分布毫无所知,而要去估计其期望,方差时,这种方法无能为力!!

  • 贝叶斯估计

    • 对似然函数的理解:https://www.zhihu.com/question/54082000

    • 对于贝叶斯学派,假设抽样前,已经对$\theta $ 有一定的知识,叫先验知识,进一步的,学派要求这种知识要用某个概率分布表示出来,这个分布就叫先验分布(先验概率$P(\theta)$)

      • 如何获得这种分布(或者先验概率$P(\theta)$):
        • 学派必须要求我们通过历史经验,甚至主观认识去假定一个这样的分布出来!(即这里可以使用主观概率)
      • 获得了分布,如何得出参数的估计?
    • 首先,通过条件概率公式,获得$\theta$ 的条件概率
      $
      P(\theta|X_1,…,X_n)=\frac{P(\theta)P(X_1…X_n|\theta)}{P(X_1,…,X_n)}=\frac{P(\theta)P(X_1|\theta)…P(X_2|\theta)}{P(X_1,…,X_n)}
      $

  • $P(X_1,…,X_n)$ 是边缘概率,通过$(\theta;X)$ 的联合概率分布推导出。

    • $P(X_1,…,X_n)=\sum_{\theta}{P(\theta;X)}$

    • $P(\theta|X_1,…,X_n)$ 代表了我们对参数的认识,综合了参数的先验知识和样本带来的信息,被称为后验概率,因为是在做了试验之后取得的。

  • 贝叶斯学派下一个重要观点:在得出后验分布后,对参数$\theta$ 的任何统计推断都必须基于这个分布。

    • 具体如何使用。有不同的准则和自由度。一个常用的方法是取后验分布式子的均值作为参数的估计!

    • 而极大后验估计,就是

      • $\hat{\theta}_{MAP}=arg\max{P(\theta|X)} $

      • 即:$arg\max{P(\theta)P(X|\theta)}$

        即:$arg \max{\log{P(\theta)}+\log{P(X|\theta)}}$

        即:$arg \min (-\log{P(\theta)}-\log{P(X|\theta)})$

      • 找参数,使得后验概率最大

      • 这他妈不就是负对数似然加一个先验项吗!!!!!

    • 垃圾CSDN!!!

    • 最好的一篇博文:https://zhuanlan.zhihu.com/p/32480810

    • 似然函数:$L(\theta|x)=P(x|\theta)\equiv P(x;\theta)$