prednaska 14.4.2025
This commit is contained in:
parent
43f85277f6
commit
9b5c6ebe7c
4 changed files with 65 additions and 1 deletions
BIN
skripta.pdf
BIN
skripta.pdf
Binary file not shown.
|
@ -54,6 +54,7 @@
|
|||
\include{stochasticke-nerovnosti}
|
||||
\include{stochasticke-konvergence}
|
||||
\include{statisticke-uceni}
|
||||
\include{statisticke-funkcionaly}
|
||||
\include{ukazkove-pisemky}
|
||||
|
||||
\end{document}
|
||||
|
|
12
statisticke-funkcionaly.tex
Normal file
12
statisticke-funkcionaly.tex
Normal file
|
@ -0,0 +1,12 @@
|
|||
\section{Statistické funkcionály}
|
||||
|
||||
Nechť $X_1, \dots, X_n$ je IID náhodný výběr z $F$ s rozsahem výběru $n$. Chceme odhadnout $F$ jejím empirickým protějškem.
|
||||
|
||||
\begin{definition}[ECDF]
|
||||
Pro $x \in \R$ definujeme
|
||||
$$ \hat F_n(x) = \frac{1}{n}\sum_{i = 1}^n \chi_{\{X_i \leq x\}}. $$
|
||||
\end{definition}
|
||||
|
||||
Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Dále budeme používat relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$.
|
||||
|
||||
\hfill \textit{konec 16. přednášky (14.4.2025)}
|
|
@ -11,6 +11,7 @@ V této kapitole se budeme věnovat základům matematické statistiky, což je
|
|||
Obecně si představujeme měřitelná zobrazení $X_1, \dots, X_n$. V praxi však většinou dostaneme pouze reálná čísla $X_i(\omega)$ pro pro jedno konkrétní $\omega \in \Omega$. Možná rozdělení těchto náhodných veličin budeme modelovat pomocí takzvaných parametrických modelů, tedy množin $\mathcal{F}$ rozdělení, jež se dají parametrizovat konečným počtem parametrů.
|
||||
|
||||
\begin{example}[Normální model]
|
||||
\label{ex-normal-model}
|
||||
$$ \mathcal{F} = \left\{ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left\{- \frac{(x - \mu)^2}{2\sigma^2} \right\}, \mu \in \R, \sigma^2 > 0\right\}. $$
|
||||
Taková data pochází z normálního rozdělení se dvěma parametry $\mu$ a $\sigma^2$.
|
||||
\end{example}
|
||||
|
@ -86,7 +87,7 @@ $$ f(x_1, \dots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta). $$
|
|||
Z Věty \ref{thm-mse-bias-var} dostáváme, že $\MSE(\hat\theta_n) = \E_\theta[\hat\theta_n - \theta]^2 \to 0$. Z definice $L_2$ konvergence dostáváme, že $\hat\theta_n \overset{L_2}\to \theta$. Zbytek dostáváme z faktu, že $L_2$ konvergence implikuje konvergenci v pravděpodobnosti.
|
||||
\end{proof}
|
||||
|
||||
\begin{example}
|
||||
\begin{example} \label{ex-coin-consistent}
|
||||
Mějme stejnou situaci jako v Příkladu \ref{ex-coin-bernoulli}. Jelikož náš odhad je nestranný ($\E(\hat p_n) = p$) a $\Var(\hat p_n) = \frac{p(1 - p)}{n} \to 0$ pro $n \to \infty$, dostáváme díky Větě \ref{thm-consistence-sufficient-condition}, že $\hat p_n \overset P \to p$.
|
||||
\end{example}
|
||||
|
||||
|
@ -105,3 +106,53 @@ $$ f(x_1, \dots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta). $$
|
|||
Tato definice říká, že interval $C_n$ zachytí $\theta$ s pravděpodobností (přibližně) $1 - \alpha$. Tento parametr nazýváme \textit{pokrytí} intervalu spolehlivosti (CI). Interval spolehlivosti je náhodná veličina, i přestože $\theta$ je pevné deterministické. Pro vícerozměrné prostory uvažujeme kouli/elipsoid spolehlivosti (ale toto rozšíření je komplikovanější, protože na $\R^d, d>1$ neexistuje vhodné uspořádání).
|
||||
|
||||
\hfill \textit{konec 15. přednášky (8.4.2025)}
|
||||
|
||||
\begin{example}[Interval spolehlivosti a normalita]
|
||||
Mějme stejný setup jako v Příkladu \ref{ex-normal-model}, tedy $X_1, \dots, X_n \overset{IID}\sim N(\mu, \sigma^2)$ a parametr $\mu \in \R$ je \textit{neznámý} a má být \textit{odhadnut} (bodový odhad a konfidenční interval), $\sigma^2 > 0$ je předpokládáno \textit{známé}.
|
||||
|
||||
Nezávislost a stejná rozdělenost nám poskytuje možnost pracovat s mnohorozměrným vektorem $\vec X := (X_1, \dots, X_n)^T \sim ((\mu, \dots, \mu)^T, \sigma^2 I_n)$.
|
||||
|
||||
Uvažujme bodový odhad $\hat \mu_n = \frac{1}{n} \sum_{i=1}^n X_i \equiv \bar X_n$. Tento odhad je konzistentní, což plyne ze zákona velkých čísel \ref{thm-weak-lln}.
|
||||
Z linearity normálních rozdělení dostáváme $\sqrt{n}(\hat \mu_n - \mu) / \sigma \sim N(0, 1)$.
|
||||
|
||||
Nechť $u_\beta := \Phi^{-1}(\beta)$ je $\beta$-kvantil ($\beta \in (0, 1)$) standardního normálního rozdělení a nechť $Y = \sqrt{n}\frac{\bar X_n - \mu}{\sqrt{\sigma^2}}$. Potom
|
||||
$$ P[ -u_{1 - \alpha/2} \leq Y \leq u_{1 - \alpha/2}] = P[Y \leq u_{1 - \alpha/2}] - P[Y \leq - u_{1 - \alpha/2}] = $$
|
||||
$$ 1 - \frac{\alpha}{2} - \frac{\alpha}{2} = 1 - \alpha$$
|
||||
pro všechna $n \in \N$ a $\mu \in \R$. Ve druhé rovnosti jsme použili vlastnost $u_\beta = -u_{1 - \beta}$, která se snadno ověří přímým dosazením do definice distribuční funkce normálního rozdělení.
|
||||
|
||||
Jednoduchými algebraickými úpravami získáme nerovnost pro $\mu$ (zapíšeme to rovnou ve tvaru intervalu):
|
||||
$$ \mu \in \left(\bar X_n - u_{1 - \alpha / 2} \sqrt{\frac{\sigma^2}{n}}, \bar X_n + u_{1 - \alpha/2} \sqrt{\frac{\sigma^2}{n}}\right). $$
|
||||
Tento interval je $1 - \alpha$ interval spolehlivosti pro hodnotu $\mu$. Tedy s pravděpodobnosti $1 - \alpha$ leží hodnota $\mu$ v tomto intervalu.
|
||||
|
||||
Pro výpočet také můžeme použít centrální limitní větu, v tomto případě dostaneme stejný interval spolehlivosti (s poznámkou, že jde o přibližný, tedy asymptotický interval spolehlivosti).
|
||||
\end{example}
|
||||
|
||||
Zkoumejme délku získaného intervalu spolehlivosti. Z předchozího příkladu máme délku $2u_{1 - \alpha/2}\sqrt{\frac{\sigma^2}{n}}$. Poznamenejme si, že s klesajícím $\alpha$ (povolená tolerance) roste délka intervalu. Taktéž roste délka intervalu s rostoucím rozptylem $\sigma^2$ a klesajícím rozsahem výběru $n$. Mějme danou délku $d$. Kolik pozorování potřebujeme, abychom získali interval spolehlivosti užší než $d$? Vychází
|
||||
$$ n \geq \floor*{\frac{4u^2_{1 - \alpha/2} \sigma^2}{d^2}} + 1. $$
|
||||
|
||||
\begin{theorem}[Interval spolehlivosti založený na normalitě]
|
||||
Předpokládejme, že $\hat \theta_n$ je asymptoticky standardně normální odhad parametru $\theta$ a $\widehat\se(\hat \theta_n)$ je konzistentní odhad $\se(\theta_n)$, tj. $\widehat\se(\hat \theta_n) - \se(\hat \theta_n) \overset P \to 0$. Nechť $u_{1 - \alpha/2}$ je $(1 - \alpha/2)$-kvantil standardního normálního rozdělení a
|
||||
$$ C_n = \left(\hat \theta_n - u_{1 - \alpha/2}\widehat\se(\hat\theta_n), \hat\theta_n + u_{1 - \alpha/2}\widehat\se(\hat\theta_n)\right).$$
|
||||
Pak
|
||||
$$P_\theta[\theta \in C_n] \overset {n\to\infty} \to 1 - \alpha.$$
|
||||
\end{theorem}
|
||||
|
||||
\begin{proof}
|
||||
Z definice asymptoticky standardně normálního odhadu máme
|
||||
$$ \frac{\hat \theta_n - \theta}{\se(\hat\theta_n)} \overset D \to N(0, 1) $$
|
||||
a máme konzistentní odhad standardní chyby odhadu
|
||||
$$ \widehat\se(\hat\theta_n H) - \se(\hat\theta_n) \overset P \to 0. $$
|
||||
|
||||
Ze Slutského věty (Věta \ref{thm-slutsky}) dostáváme $Y := \frac{\hat\theta_n - \theta}{\widehat\se(\hat\theta_n)} \overset D \to N(0, 1)$. Potom již platí
|
||||
$$ \lim_{n \to \infty} P[-u_{1 - \alpha/2} \leq Y \leq u_{1 - \alpha/2}] = \Phi(u_{1 - \alpha_2}) - \Phi(u_{\alpha/2}) = 1 - \alpha. $$
|
||||
\end{proof}
|
||||
|
||||
Neformálně zapisujeme $\theta_n \approx N(\theta, \widehat\se(\hat\theta_n))$. Přibližně platí pro $95\%$-intervaly spolehlivosti $\alpha = 0.05$ a $u_{0.975} \approx 1.96 \approx 2$ vedoucí k explicitnímu intervalu spolehlivosti $\hat\theta_n \pm 2\widehat\se(\hat\theta_n)$.
|
||||
|
||||
\begin{example}
|
||||
Pokračujeme v Příkladu \ref{ex-coin-consistent}. Již jsme spočítali $\hat p_n \overset P \to p$, $\se(\hat p_n) = \sqrt{p(1 - p)/n}$ a $\widehat\se(\hat p_n) := \sqrt{\hat p_n(1 - \hat p_n) / n}$. Ze Slutského věty pak máme $\widehat\se(\hat p_n) - \se(\hat p_n) \overset P \to 0$.
|
||||
|
||||
Z centrální limitní věty dostáváme, že $\frac{\hat p_n - p}{\se(\hat p_n)} \overset D \to N(0, 1)$. Dále opětovným použitím Slutského věty získáme $\frac{\hat p_n - p}{\widehat\se(\hat p_n)} \overset D \to N(0, 1)$. Tedy z předchozí věty
|
||||
$$ \hat p_n \pm u_{1 - \alpha/2} \sqrt{\hat p_n(1 - \hat p_n)/n} $$
|
||||
je asymptotický (přibližný) $(1 - \alpha)$-interval spolehlivosti pro $p$.
|
||||
\end{example}
|
||||
|
|
Loading…
Add table
Add a link
Reference in a new issue