Compare commits

...

2 commits

Author SHA1 Message Date
e92f8384de
prednaska 22.4.2025 2025-04-22 12:12:51 +02:00
6659028224
prednaska 15.4.2025 2025-04-20 22:08:16 +02:00
4 changed files with 238 additions and 1 deletions

110
parametricka-inference.tex Normal file
View file

@ -0,0 +1,110 @@
\section{Parametrická inference}
V této kapitole se budeme věnovat problému odhadování parametru tak, aby získané rozdělení co nejvhodněji pasovalo na experimentální data. Hlavním objektem zkoumání bude rodina parametrických modelů
$$ \mathcal{F} := \{f(\cdot, \vec \theta): \vec \theta \in \vec \Theta \subseteq \R^d\}, $$
kde $\vec \Theta$ je parametrický prostor a $\vec \theta = (\theta_1, \dots, \theta_d)$ je parametr.
Je zřejmé, že ne každý model je schopen pokrýt všechna možná rozdělení vyskytující se v přírodě. Musíme proto aproximovat a umět dobře odhadnout, kdy máme ``dost dobrý" odhad.
Budeme se zajímat o odhad nějaké funkce $T(\vec \theta)$. Například pro $X_i \sim N(\mu, \sigma^2)$, pokud naším parametrem zájmu je $\mu$, stačí volit $T(\vec \theta) = \mu$ a $\sigma^2$ se potom nazývá \textit{nežádoucí/rušivý parametr}.
\begin{example}
Připomeňme si, že náhodná veličina $X$ má rozdělení $\Gamma(a, p)$, jestliže
$$ f_X(x; a, p) = \frac{a^p}{\Gamma(p)} x^{p - 1} \exp\{-ax\}.$$
kde $a, p > 0$ a
$$ \Gamma(p) = \int_0^\infty y^{p-1}e^{-y} dy. $$
Parametrem ve smyslu úvodu je tedy vektor $\vec \theta = (a, p)$. Chceme-li spočítat průměrnou délku života (což je jedna z věcí, k modelování kterých se používá Gamma rozdělení), dostáváme
$$ T(a, p) = \E_{\vec\theta} X = \int_0^\infty \frac{a^px^p}{\Gamma(p)} e^{-ax} dx = \frac{1}{a\Gamma(p)} \int_0^\infty y^p e^{-y}dy = \frac{\Gamma(p + 1)}{a\Gamma(p)} = \frac{p}{a}. $$
\end{example}
V dalším textu uvažujme náhodný výběr $X_1, \dots, X_n \overset{IID}\sim F \in \mathcal{F}$.
\begin{example}
Uvažujme $\mathcal{F} = \{F(\mu): \E_{F(\mu)} = \mu \land |\mu| < \infty$ rodinu modelů s konečnou střední hodnotou. Potom $\bar X_n$ je konzistentní a nestranný odhad $\mu$ a $X_1$ je nestranný, ale ne konzistentní odhad $\mu$.
Dále uvažujme $\mathcal{F} = \{F(\sigma^2): \Var_{F(\sigma^2)} = \sigma^2 < \infty\}$ rodinu modelů s konečným rozptylem. Potom $\hat\sigma_n^2 = n^{-1}\sum_{i=1}^n (X_i - \bar X_n)^2$ je konzistentní, ale ne nestranný odhad $\sigma^2$ a $S_n^2 = (n - 1)^{-1} \sum_{i=1}^n (X_i - \bar X_n)^2$ je konzistentní a nestranný odhad $\sigma^2$.
\end{example}
\hfill \textit{konec 17. přednášky (15.4.2025)}
\begin{example}
Nechť $\mathcal{F} = \{Po(\lambda), \lambda > 0\}$ a $\theta = P[X_i = 0] = e^{-\lambda}$. Potom $\hat \theta_n = n^{-1} \sum_{i=1}^n \chi_{\{X_i = 0\}}$ (relativní četnost nul v původních datech) je konzistentní a nestranný odhad $\lambda$. Zároveň také $\tilde \theta_n = \left(\frac{n-1}{n}\right)^{\sum_{i=1}^n X_i}$ je konzistentní a nestranný.
Ukážeme si, že $\hat \theta_n$ je nestranný. Chceme dokázat, že $\E \hat\theta_n = \theta$. Můžeme psát
$$ \E\hat\theta_n = \E\left[\frac{1}{n} \sum_{i=1}^n \chi_{\{X_i = 0\}}\right] = \frac{1}{n}\sum_{i=1}^n P[X_i = 0] = \theta. $$
Obdobně ukážeme konzistenci tohoto odhadu, tedy, že $\hat\theta_n \to \theta$. Díky slabému zákonu velkých čísel (Věta \ref{thm-weak-lln}):
$$ \hat\theta_n \overset P\to \E[\chi_{\{X_1 = 0\}}] = P[X_1 = 0] = \theta. $$
Dále pro odhad $\tilde \theta_n$ můžeme psát (používáme označení $\sum_{i=1}^n X_i = Y$)
$$\E \tilde\theta_n = \E\left(\frac{n-1}{n}\right)^{\sum_{i=1}^n X_i} = \sum_{y=1}^\infty \left(\frac{n-1}{n}\right)^y \frac{(n\lambda)^y}{y!}e^{-n\lambda} = $$
$$ e^{-n\lambda}\sum_{y=0}^\infty \frac{[(n-1)\lambda]^y}{y!} = e^{-\lambda},$$
kde první rovnost plyne z toho, že součet $n$ IID poissonovských náhodných veličin s parametrem $\lambda$ je opět poissonovská náhodná veličina s parametrem $n\lambda$. K důkazu konzistence zlogaritmujeme náš odhad, dostaneme
$$ \log \tilde\theta_n = \left(\sum_{i=1}^n X_i\right)\log\frac{n -1}{n} = \bar X_n \log \left(1 - \frac{1}n\right)^n \overset P \to - \lambda. $$
Limitní přechod jsme získali díky Slutského větě (Věta \ref{thm-slutsky}). Dále z věty o spojité transformaci (Věta \ref{thm-continuous-mapping}) aplikované na funkci $t(x) = e^x$ dostáváme, že $\tilde \theta_n \overset P \to \theta$.
Ve speciálním případě $\theta = e^{-2\lambda}$ jediný nestranný odhad je $(-1)^{X_1}$, který ale nikdy nedosáhne přípustné hodnoty $e^{-2\lambda}$.
Skutečně, nechť existuje nestranný odhad parametru $\theta \in (0, 1)$. Označme ho $\hat\theta_n = T(X_1, \dots, X_n)$. Z definice nestrannosti musí platit, že $\E T(X_1, \dots, X_n) = \theta$. Potom platí
$$\theta = \E \sum_{x=0}^\infty T(x) \frac{\lambda^x}{x!}e^{-\lambda} \overset{\text{předpoklad}} = e^{-2\lambda}. $$
Z toho však plyne, že
$$\sum_{x=0}^\infty T(x)\frac{\lambda^x}{x!} = e^{-\lambda} = \sum_{x=0}^\infty \frac{(-\lambda)^x}{x!},$$
a tedy $T(x) = (-1)^x$ (rovnost mocninných řad).
\end{example}
Dále se budeme věnovat takzvané momentové metodě. Jedná se o univerzální techniku získání odhadů, která však ale nemusí poskytnout ten nejlepší možný odhad. Často ji například využijeme jako startovací bod pro další iterativní numerické metody.
\begin{definition}
Definujeme \textit{$k$-tý necentrální moment} jako
$$\mu_k' \equiv \mu_k'(\vec \theta) = \E_{\vec \theta} X^k = \int x^k f_X(x, \vec\theta) dP_X$$
a \textit{$k$-tý výběrový moment} jako
$$ \hat\mu_k' = \frac{1}{n} \sum_{i=1}^n X_i^k. $$
\end{definition}
\begin{definition}
\textit{Odhad metodou momentů $\hat{\vec\theta}_n$} je definován jako hodnota $\vec\theta$, pro kterou platí
$$\mu_1'(\hat{\vec\theta}_n) = \hat\mu_1', \dots, \mu_d'(\hat{\vec\theta}_n) = \hat\mu_d'.$$
\end{definition}
Alternativně bychom mohli použít centrované $k$-té momenty spolu s jejich empirickými protějšky.
\begin{example}
Nechť $X_1, \dots, X_n \overset{IID}\sim Be(p)$. Pak $\mu_1' = \E_pX_1 = p$ a $\hat\mu_1' = \bar X_n$. Rovnost těchto dvou hodnot nám dává odhad
$$ \hat p_n = \frac{1}{n} \sum_{i=1}^n X_i = \bar X_n $$
a je to opět stejný plug-in odhad.
\end{example}
\begin{example}
Nechť $X_1, \dots, X_n \overset{IID}\sim N(\mu, \sigma^2)$. Pak $\mu_1' = \E_{(\mu, \sigma^2)} X_1 = \mu$ a $\mu_2' = \E_{(\mu, \sigma^2)}X_1^2 = \Var_{(\mu, sigma^2)} X_1 + (\E_{(\mu, \sigma^2)} X_1)^2 = \sigma^2 + \mu^2$. Musíme vyřešit soustavu rovnic
\begin{align*}
\hat\mu_n &= \frac{1}{n} \sum_{i=1}^n X_i;\\
\hat\mu_n^2 + \hat\sigma_n^2 &= \frac{1}{n}\sum_{i=1}^n X_i^2.
\end{align*}
Řešením této soustavy je $\hat\mu_n = \bar X_n$ a $\hat\sigma_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar X_n)^2$.
\end{example}
Je důležité si poznamenat, že někdy si nevystačíme s prvními $d$ momenty, například, pokud je naše teoretické rozdělení symetrické okolo nuly.
\begin{example}
Nechť $X_1, \dots, X_n \overset{IID}\sim \Gamma(a, p)$, kde
$$ f_X(x; a, p) = \frac{a^p}{\Gamma(p)}x^{p-1}e^{-ax}, x > 0, $$
kde $a, p > 0$ a $\Gamma(p) = \int_0^\infty y^{p-1}e^{-y}dy$ je Gamma funkce. Pak, odhady momentovou metodou
$$ \hat a_n = \frac{\bar X_n}{\hat\sigma_n^2} \quad\text{a}\quad\hat p_n = \frac{\bar X_n^2}{\hat\sigma_n^2}$$
jsou konzistentní a AN.
Skutečně, máme
\begin{align*}
\mu_1'(a, p) &= \E_{(a, p)}X_1 = \frac{p}{a},\\
\mu_2'(a, p) &= \E_{(a, p)}X_1^2 = \int_0^\infty x^2 \frac{a^p}{\Gamma(p)}x^{p-1}e^{-ax} = \frac{a^p\Gamma(p + 2)}{\Gamma(p)a^{p+2}} = \frac{(p+1)p}{a^2}.
\end{align*}
Stačí tedy vyřešit soustavu
\begin{align*}
\hat\mu_1' &= \frac{1}{n}\sum_{i=1}^n X_i = \mu_1'(\hat a, \hat p) = \frac{\hat p}{\hat a};\\
\hat\mu_2' &= \frac{1}{n}\sum_{i=1}^n X_i^2 = \mu_2'(\hat a, \hat p) = \frac{(\hat p + 1)\hat p}{\hat a^2};\\
\end{align*}
Jejím řešením jsou právě výše uvedené odhady.
\end{example}
\hfill \textit{konec 18. přednášky (22.4.2025)}

Binary file not shown.

View file

@ -55,6 +55,7 @@
\include{stochasticke-konvergence}
\include{statisticke-uceni}
\include{statisticke-funkcionaly}
\include{parametricka-inference}
\include{ukazkove-pisemky}
\end{document}

View file

@ -7,6 +7,132 @@ Nechť $X_1, \dots, X_n$ je IID náhodný výběr z $F$ s rozsahem výběru $n$.
$$ \hat F_n(x) = \frac{1}{n}\sum_{i = 1}^n \chi_{\{X_i \leq x\}}. $$
\end{definition}
Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Dále budeme používat relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$.
Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Taktéž ECDF můžeme definovat jako relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$.
\hfill \textit{konec 16. přednášky (14.4.2025)}
\begin{theorem}[Bodové vlastnosti ECDF]
\label{thm-pointwise-ecdf}
Pro libovolné pevné $x \in \R$,
\begin{enumerate}[(i)]
\item $\E\left[\hat F_n(x)\right] = F(x)$;
\item $\Var\left[\hat F_n(x)\right] = \frac{F(x)(1 - F(x))}{n}$;
\item $\MSE\left(\hat F_n(x)\right) = \frac{F(x)(1 - F(x))}{n} \to 0$ pro $n \to \infty$;
\item $\hat F_n(X) \overset P \to F(x)$ pro $n \to \infty$.
\end{enumerate}
\end{theorem}
\begin{proof}
Platí $\E\left[\hat F_n(x)\right] = \E\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n} \sum_{i=1}^n P[X_i \leq x] = F(x)$. Tím jsme dokázali první vlastnost.
Dále platí $\Var\left[\hat F_n(x)\right] = \Var\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n^2} \sum_{i=1}^n \Var[\chi_{\{X_i \leq x\}}] = \frac{1}{n^2} \sum_{i= 1}^n \left[\E \chi^2 - (\E \chi)^2\right] = \frac{1}{n^2} \sum_{i = 1}^n (F(x) - F(x)^2) = \frac{F(x)(1 - F(x))}{n}$, čímž jsme dokázali druhou vlastnost.
K důkazu třetí rovnosti si uvědomíme, že díky již dokázané vlastnosti (i) je $\bias(\hat F_n(x)) = 0$ a tedy $\MSE\left(\hat F_n(x)\right) = \Var\left[\hat F_n(x)\right]$.
Nakonec, díky zákonu velkých čísel (Věta \ref{thm-weak-lln}) máme
$$ \hat F_n(x) = \frac{1}{n} \sum_{i = 1}^n \chi_{\{X_i \leq x\}} \overset P \to \E[\chi_{\{X_1 \leq x\}}] = F(x). $$
\end{proof}
\begin{definition}
\textit{Funkcionál} je zobrazení $T: \mathcal{F} \to \R$, kde $\mathcal{F}$ je nějaká množina funkcí.
\end{definition}
\begin{definition}
\textit{Statistický funkcionál} je zobrazení $T$, které přiřadí rozdělení $P_X$ reálné číslo.
\end{definition}
Můžeme také definovat vektorové funkcionály, stačí obor hodnot nahradit $\R^d$. Uvedeme si několik příkladů statistických funkcionálů.
\begin{example}
Následující operátory jsou statistické funkcionály:
\begin{itemize}
\item střední hodnota $\mu = \E X = \int x dP_X(x)$;
\item rozptyl $\sigma^2 = \Var X = \int (x - \mu)^2 dP_X(x)$;
\item medián $F^{-1}(1/2) \equiv \inf \{x : P_X((-\infty, x]) > 1/2\}$.
\end{itemize}
\end{example}
\begin{definition}
Pokud $T(P_X) = \int r(x) dP_X(x)$ pro nějakou měřitelnou funkci $r$, pak $T$ nazýváme \textit{lineární statistický funkcionál}.
\end{definition}
Motivací této definice je fakt, že takto definovaný funkcionál $T$ je lineární ve svých argumentech, jinými slovy,
$$ T(aP_X + bP_Y + c) = aT(P_X) + bT(P_Y) + c $$
pro $a, b, c \in \R$.
Z předchozího příkladu dostaneme, že střední hodnota a rozptyl jsou lineární a medián není (neexistuje vhodná měřitelná funkce $r$).
\begin{definition}
Nechť $X_1, \dots, X_n$ je náhodný výběr z $F$ s rozsahem výběru $n$, kde
$X_i : (\Omega, \mathcal{A}, P) \to (\R, \mathcal{B}(\R))$ pro $i = 1, \dots, n$. Pak
$$ \hat P_n(B) := \frac{1}{n} \sum_{i=1}^n \chi_{\{X_i \in B\}} \equiv \frac{1}{n} \sum_{i=1}^n \delta_{X_i} (B) $$
pro $B \in \mathcal{B}(\R)$ se nazývá \textit{empirická pravděpodobnostní míra}.
\end{definition}
Právě definovaný objekt je \textit{náhodná} pravděpodobnostní míra, které má diskrétní rovnoměrné pravděpodobnostní rozdělení (součet Diracových měr) na náhodných bodech $X_1, \dots, X_n$, kde každý tento bod má váhu $\frac{1}{n}$.
\begin{definition}
\textit{Plug-in odhad} neznámého parametru $\theta = T(P_X)$ je $\hat \theta_n := T(\hat P_n)$.
\end{definition}
Myšlenkou definice plug-in odhadu je nahrazení neznámé pravděpodobnostní míry jejím odhadem.
\begin{example}
Platí $\hat F_n(x) = \hat P_n((-\infty, x])$ pro $x \in \R$.
\end{example}
\begin{definition}
\textit{Empirický (plug-in) odhad} pro lineární statistický funkcionál $T(P_X) = \int r(x) dP_X(x)$ je
$$ T(\hat P_n) = \int r(x) d\hat P_n(x). $$
\end{definition}
\begin{theorem}[Výpočet plug-in odhadu pro lineární statistický funkcionál]
Pro empirický odhad lineárního statistického funkcionálu $T(P_X) = \int r(x) dP_X(x)$ platí
$$ T(\hat P_n) = \frac{1}{n} \sum_{i=1}^n r(X_i). $$
\end{theorem}
\begin{proof}
Nechť $\omega \in \Omega$ je dáno. Z definice empirického odhadu lineárního statistického funkcionálu dostáváme
$$ T(\hat P_n)(\omega) = \int_\R r(x) d\hat P_n(\omega)(x) = \int_\R r(x) d\left(\frac{1}{n}\sum_{i=1}^n \delta_{X_i(\omega)}(x)\right) = $$
$$ \frac{1}{n}\sum_{i=1}^n \int_\R r(x) d\delta_{X_i(\omega)}(x) = \frac{1}{n} \sum_{i=1}^n r(X_i(\omega)). $$
\end{proof}
\begin{example}
Spočteme empirickou střední hodnotu. Máme $\mu = T(P_X) = \int x dP_X(x)$ a tedy díky předchozí větě
$$ \hat \mu_n = \int xd\hat P_n(x) = \bar X_n. $$
\end{example}
\begin{example}
Spočteme empirický rozptyl. Z definice rozptylu máme
$$ \Var X = \sigma^2 = T(P_X) = \int (x - \mu)^2 dP_X(x) = \int x^2 dP_X(x) - \left(\int x dP_X(x)\right)^2. $$
Potom
$$ \hat \sigma_n^2 = \int x^2d\hat P_n(x) - \left(\int x d\hat P_n(x) \right)^2 = $$
$$ \frac{1}{n} \sum_{i=1}^n X_i^2 - \left(\frac{1}{n}\sum_{i=1}^n X_i\right)^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar X_n)^2. $$
\end{example}
\begin{example}
Spočteme empirickou korelaci. Nechť tedy $Z = [X, Y]^T$ a nechť $\rho = T(P_{[X, Y]^T})$ označuje příslušnou korelaci.
Můžeme psát
$$ T(P_{[X, Y]^T}) = a(T_1(P_{[X, Y]^T}), T_2(P_{[X, Y]^T}) T_3(P_{[X, Y]^T}) T_4(P_{[X, Y]^T}) T_5(P_{[X, Y]^T})),$$
kde
\begin{align*}
T_1(P_{[X, Y]^T}) &= \int xdP_{[X, Y]^T}(x, y),\\
T_2(P_{[X, Y]^T}) &= \int ydP_{[X, Y]^T}(x, y),\\
T_3(P_{[X, Y]^T}) &= \int xydP_{[X, Y]^T}(x, y),\\
T_4(P_{[X, Y]^T}) &= \int x^2dP_{[X, Y]^T}(x, y),\\
T_5(P_{[X, Y]^T}) &= \int y^2dP_{[X, Y]^T}(x, y)
\end{align*}
a zároveň $a(t_1, t_2, t_3, t_4, t_5) = \frac{t_3 - t_1 t_2}{\sqrt{(t_4 - t_1^2)(t_5 - t_2^2)}}$. Dosazením se snadno ověří, že tímto jsme opravdu získali vzorec pro daný funkcionál. Nahrazením distribuční funkce jejím empirickým protějškem nakonec dostáváme
$$ \hat \rho = \frac{\sum_i (X_i - \bar X_n)(Y_i - \bar Y_n)}{\sqrt{\sum_i (X_i - \bar X_n)^2 \sum_j (Y_j - \bar Y_n)^2}}.$$
Tuto veličinu nazýváme \textit{výběrovou korelací}.
\end{example}
\begin{definition}
Připomínka: pro $p \in (0, 1)$ definujeme \textit{$p$-tý kvantil} jako
$T(F) = F^{-1}(p) = \inf \{ x : F(x) > p \}$.
Nyní definujeme
$$ T(\hat F_n) = \hat F_n^{-1}(p) = \inf \{ x : \hat F_n (x) > p \} $$
a tento objekt nazýváme \textit{$p$-tý výběrový kvantil}. Obdobně definujeme \textit{výběrový medián} jako $\hat F^{-1}_n(1/2)$. Navíc mezikvartilové rozpětí $\tilde T(F) = F^{-1}(3/4) - F^{-1}(1/4)$ lze odhadnout pomocí \textit{výběrového mezikvartilového rozpětí} $\tilde T(\hat F_n) = \hat F_n^{-1}(3/4) - \hat F_n^{-1}(1/4)$.
\end{definition}