diff --git a/skripta.pdf b/skripta.pdf index 6d1566d..0f669de 100644 Binary files a/skripta.pdf and b/skripta.pdf differ diff --git a/skripta.tex b/skripta.tex index e11b5d2..0b56a69 100644 --- a/skripta.tex +++ b/skripta.tex @@ -28,6 +28,9 @@ \DeclareMathOperator{\Cov}{Cov} \DeclareMathOperator{\sd}{sd} \DeclareMathOperator{\sgn}{sgn} +\DeclareMathOperator{\bias}{bias} +\DeclareMathOperator{\se}{se} +\DeclareMathOperator{\MSE}{MSE} \DeclarePairedDelimiter\ceil{\lceil}{\rceil} \DeclarePairedDelimiter\floor{\lfloor}{\rfloor} @@ -50,6 +53,7 @@ \include{stredni-hodnota} \include{stochasticke-nerovnosti} \include{stochasticke-konvergence} +\include{statisticke-uceni} \include{ukazkove-pisemky} \end{document} diff --git a/statisticke-uceni.tex b/statisticke-uceni.tex new file mode 100644 index 0000000..9a7fb16 --- /dev/null +++ b/statisticke-uceni.tex @@ -0,0 +1,107 @@ +\section{Statistické učení} + +V této kapitole se budeme věnovat základům matematické statistiky, což je obor, který bude středobodem naší pozornosti po celý zbytek semestru. Začneme formalizací pojmů týkajících se opakovaného provádění experimentu a charakterizací statistických modelů. + +\begin{definition} + Pokud jsou $X_1, \dots, X_n$ nezávislé a každá má stejné marginální rozdělení a distribuční funkci $F$, říkáme, že $X_1, \dots, X_n$ jsou IID (nezávislé a stejně rozdělené) a píšeme + $$ X_1, \dots, X_n \overset{IID}\sim F. $$ + Takové $X_1, \dots, X_n$ nazýváme \textit{náhodný výběr} velikosti $n$ z $F$. +\end{definition} + +Obecně si představujeme měřitelná zobrazení $X_1, \dots, X_n$. V praxi však většinou dostaneme pouze reálná čísla $X_i(\omega)$ pro pro jedno konkrétní $\omega \in \Omega$. Možná rozdělení těchto náhodných veličin budeme modelovat pomocí takzvaných parametrických modelů, tedy množin $\mathcal{F}$ rozdělení, jež se dají parametrizovat konečným počtem parametrů. + +\begin{example}[Normální model] + $$ \mathcal{F} = \left\{ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left\{- \frac{(x - \mu)^2}{2\sigma^2} \right\}, \mu \in \R, \sigma^2 > 0\right\}. $$ + Taková data pochází z normálního rozdělení se dvěma parametry $\mu$ a $\sigma^2$. +\end{example} + +Všechny parametrické modely můžeme obecně zapsat ve tvaru +$$ \mathcal{F} = \{ f(\cdot; \vec \theta) : \vec \theta \in \vec \Theta \subseteq \R^d \}. $$ +V dalším textu budeme využívat následující značení: +$$ P_\theta[X\in A] := \int_A f(x; \theta) dx; $$ +$$ \E_\theta[g(X)] := \int_\R g(x) f(x; \theta) dx. $$ + +Velkou skupinou modelů jsou také neparametrické modely, který nemůžeme parametrizovat konečným počtem parametrů. Například, celou funkci hustoty můžeme považovat za nekonečnědimenzionální prostor. Uvedeme si jeden příklad takového neparametrického modelu. + +\begin{example}[Model Sobolevova prostoru] + $$ \mathcal{F} = \left\{ f: \int_\R (f''(x))^2 dx < \infty \right\}. $$ + Data pochází z rozdělení s nepříliš ``vlnitou" hustotou. +\end{example} + +\begin{definition} + \textit{Bodový odhad} $\hat \theta_n$ parametru $\theta$ je měřitelná funkce $t$ náhodných veličin $X_1, \dots, X_n$: + $$ \hat \theta_n = t(X_1, \dots, X_n). $$ +\end{definition} + +V této definici předpokládáme, že $\theta$ je pevné ale neznámé reálné číslo (vektor). Avšak získaný odhad $\hat \theta_n$ je sice náhodná veličina, ale umíme ji přesně charakterizovat. + +\begin{definition} + Odhad $\hat \theta_n$ je \textit{nestranný}, pokud $\E[\hat \theta_n] = \theta$ pro všechna $n \in \N$. \textit{Vychýlení} odhadu definujeme jako $\bias(\hat \theta_n) := \E[\hat \theta_n] - \theta$. Odhad je \textit{konzistentní}, jestliže $\hat \theta_n \overset P \to \theta$ pro $n \to \infty$. + +\end{definition} + +V dnešní době je díky vývoji výpočetní techniky nestrannost více upozaďována, větší důraz proto klademe na konzistenci modelu. + +\begin{definition} + Rozdělení odhadu $\hat \theta_n$ nazýváme \textit{výběrové rozdělení}. Standardní odchylku $\hat \theta_n$ nazýváme \textit{standardní chyba} $\se(\hat \theta_n) = \sqrt{\Var \hat \theta_n}$. +\end{definition} + +V těchto případech je standardní chyba $\se$ neznámá veličina (parametr), ale obvykle ji můžeme odhadnout. Takovou odhadnutou standardní chybu značíme $\widehat \se$. + +\begin{example} + \label{ex-coin-bernoulli} + Mějme Bernoulliho náhodný výběr $X_1, \dots, X_n \overset{IID}\sim Be(p)$ a parametr $p \in (0, 1)$. Potom můžeme uvažovat odhad + $$ \hat p_n := \frac{1}{n} \sum_{i=1}^n X_i $$ + a z toho získáme odhad standardní chyby (díky nezávislosti a stejné rozdělenosti máme $\Var(\hat p_n) = \frac{p(1 - p)}{n}$). Jelikož přesná hodnota $p$ je neznámá, musíme tento parametr také odhadnout, proto + $$ \widehat \se(\hat p_n) := \sqrt{\frac{\hat p_n(1 - \hat p_n)}{n}}. $$ +\end{example} + +\begin{definition} + Kvalitu bodového odhadu můžeme posuzovat pomocí \textit{střední kvadratické chyby} + $$ \MSE(\hat \theta_n) := \E_\theta [\hat \theta_n - \theta]^2. $$ +\end{definition} + +Mějme na paměti, že $\E_\theta$ se v případě nezávislých a stejně rozdělených $X_i$ vztahuje k očekávané hodnotě vzhledem k rozdělení +$$ f(x_1, \dots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta). $$ + +\begin{theorem}[Rozklad střední kvadratické chyby] + \label{thm-mse-bias-var} + Mějme odhad $\hat \theta_n$. Pak vždy platí $\MSE(\hat \theta_n) = \bias^2(\hat \theta_n) + \Var(\hat \theta_n)$. +\end{theorem} + +\begin{proof} + Rozepsáním definice dostáváme + $$ \MSE[\hat \theta_n] = \E_\theta[\hat \theta_n - \theta]^2 = \E_\theta\left\{ [\hat \theta_n - \E\hat \theta_n + \E\hat \theta_n - \theta]^2 \right\} = $$ + $$ \E_\theta\left\{[\hat \theta_n - \E \hat\theta_n]^2 - 2[\hat\theta_n - \E\hat\theta_n][\E\hat\theta_n - \theta] + [\E\hat\theta_n - \theta]^2 \right\} = $$ + $$ = \Var(\hat\theta_n) + \bias^2(\hat\theta_n), $$ + kde poslední rovnost plyne z toho, že druhý sčítanec je nulový, což plyne z linearity střední hodnoty. +\end{proof} + +\begin{theorem}[Postačující podmínka pro konzistenci] + \label{thm-consistence-sufficient-condition} + Nechť platí $\bias(\hat \theta_n) \to 0$ a $\Var(\hat \theta_n) \to 0$. Potom platí $\hat\theta_n$ je konzistentní. +\end{theorem} + +\begin{proof} + Z Věty \ref{thm-mse-bias-var} dostáváme, že $\MSE(\hat\theta_n) = \E_\theta[\hat\theta_n - \theta]^2 \to 0$. Z definice $L_2$ konvergence dostáváme, že $\hat\theta_n \overset{L_2}\to \theta$. Zbytek dostáváme z faktu, že $L_2$ konvergence implikuje konvergenci v pravděpodobnosti. +\end{proof} + +\begin{example} + Mějme stejnou situaci jako v Příkladu \ref{ex-coin-bernoulli}. Jelikož náš odhad je nestranný ($\E(\hat p_n) = p$) a $\Var(\hat p_n) = \frac{p(1 - p)}{n} \to 0$ pro $n \to \infty$, dostáváme díky Větě \ref{thm-consistence-sufficient-condition}, že $\hat p_n \overset P \to p$. +\end{example} + +\begin{definition} + Odhad $\hat \theta_n$ parametru $\theta$ se nazývá \textit{asymptoticky standardně normální}, jestliže pro $n \to \infty$ platí + $$ \frac{\hat \theta_n - \theta}{\se(\hat \theta_n)} \overset D \to N(0, 1). $$ +\end{definition} + +\begin{definition} + $(1-\alpha)$-\textit{interval spolehlivosti} (konfidenční interval) pro parametr $\theta$ je interval $C_n = (a, b)$, kde $a = a(X_1, \dots, X_n)$ a $b = b(X_1, \dots, X_n)$ jsou měřitelné funkce dat takové, že pro všechna $\theta \in \Theta$ + $$ P_\theta[\theta \in C_n] = 1 - \alpha. $$ + \textit{Asymptotický} (přibližný) $(1 - \alpha)$-\textit{interval spolehlivosti} pro parametr $\theta$ je interval $C_n$ takový, že pro všechna $\theta \in \Theta$ + $$ \lim_{n \to \infty} P_\theta [\theta \in C_n] = 1 - \theta. $$ +\end{definition} + +Tato definice říká, že interval $C_n$ zachytí $\theta$ s pravděpodobností (přibližně) $1 - \alpha$. Tento parametr nazýváme \textit{pokrytí} intervalu spolehlivosti (CI). Interval spolehlivosti je náhodná veličina, i přestože $\theta$ je pevné deterministické. Pro vícerozměrné prostory uvažujeme kouli/elipsoid spolehlivosti (ale toto rozšíření je komplikovanější, protože na $\R^d, d>1$ neexistuje vhodné uspořádání). + +\hfill \textit{konec 15. přednášky (8.4.2025)}