diff --git a/parametricka-inference.tex b/parametricka-inference.tex new file mode 100644 index 0000000..77c1558 --- /dev/null +++ b/parametricka-inference.tex @@ -0,0 +1,28 @@ +\section{Parametrická inference} + +V této kapitole se budeme věnovat problému odhadování parametru tak, aby získané rozdělení co nejvhodněji pasovalo na experimentální data. Hlavním objektem zkoumání bude rodina parametrických modelů +$$ \mathcal{F} := \{f(\cdot, \vec \theta): \vec \theta \in \vec \Theta \subseteq \R^d\}, $$ +kde $\vec \Theta$ je parametrický prostor a $\vec \theta = (\theta_1, \dots, \theta_d)$ je parametr. + +Je zřejmé, že ne každý model je schopen pokrýt všechna možná rozdělení vyskytující se v přírodě. Musíme proto aproximovat a umět dobře odhadnout, kdy máme ``dost dobrý" odhad. +Budeme se zajímat o odhad nějaké funkce $T(\vec \theta)$. Například pro $X_i \sim N(\mu, \sigma^2)$, pokud naším parametrem zájmu je $\mu$, stačí volit $T(\vec \theta) = \mu$ a $\sigma^2$ se potom nazývá \textit{nežádoucí/rušivý parametr}. + +\begin{example} + Připomeňme si, že náhodná veličina $X$ má rozdělení $\Gamma(a, p)$, jestliže + $$ f_X(x; a, p) = \frac{a^p}{\Gamma(p)} x^{p - 1} \exp\{-ax\}.$$ + kde $a, p > 0$ a + $$ \Gamma(p) = \int_0^\infty y^{p-1}e^{-y} dy. $$ + + Parametrem ve smyslu úvodu je tedy vektor $\vec \theta = (a, p)$. Chceme-li spočítat průměrnou délku života (což je jedna z věcí, k modelování kterých se používá Gamma rozdělení), dostáváme + $$ T(a, p) = \E_{\vec\theta} X = \int_0^\infty \frac{a^px^p}{\Gamma(p)} e^{-ax} dx = \frac{1}{a\Gamma(p)} \int_0^\infty y^p e^{-y}dy = \frac{\Gamma(p + 1)}{a\Gamma(p)} = \frac{p}{a}. $$ +\end{example} + +V dalším textu uvažujme náhodný výběr $X_1, \dots, X_n \overset{IID}\sim F \in \mathcal{F}$. + +\begin{example} + Uvažujme $\mathcal{F} = \{F(\mu): \E_{F(\mu)} = \mu \land |\mu| < \infty$ rodinu modelů s konečnou střední hodnotou. Potom $\bar X_n$ je konzistentní a nestranný odhad $\mu$ a $X_1$ je nestranný, ale ne konzistentní odhad $\mu$. + + Dále uvažujme $\mathcal{F} = \{F(\sigma^2): \Var_{F(\sigma^2)} = \sigma^2 < \infty\}$ rodinu modelů s konečným rozptylem. Potom $\hat\sigma_n^2 = n^{-1}\sum_{i=1}^n (X_i - \bar X_n)^2$ je konzistentní, ale ne nestranný odhad $\sigma^2$ a $S_n^2 = (n - 1)^{-1} \sum_{i=1}^n (X_i - \bar X_n)^2)$ je konzistentní a nestranný odhad $\sigma^2$. +\end{example} + +\hfill \textit{konec 17. přednášky (15.4.2025)} diff --git a/skripta.pdf b/skripta.pdf index fe859fb..c0276db 100644 Binary files a/skripta.pdf and b/skripta.pdf differ diff --git a/skripta.tex b/skripta.tex index 81f305d..ee40c4a 100644 --- a/skripta.tex +++ b/skripta.tex @@ -55,6 +55,7 @@ \include{stochasticke-konvergence} \include{statisticke-uceni} \include{statisticke-funkcionaly} +\include{parametricka-inference} \include{ukazkove-pisemky} \end{document} diff --git a/statisticke-funkcionaly.tex b/statisticke-funkcionaly.tex index bb2983a..ba2e91c 100644 --- a/statisticke-funkcionaly.tex +++ b/statisticke-funkcionaly.tex @@ -7,6 +7,132 @@ Nechť $X_1, \dots, X_n$ je IID náhodný výběr z $F$ s rozsahem výběru $n$. $$ \hat F_n(x) = \frac{1}{n}\sum_{i = 1}^n \chi_{\{X_i \leq x\}}. $$ \end{definition} -Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Dále budeme používat relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$. +Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Taktéž ECDF můžeme definovat jako relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$. \hfill \textit{konec 16. přednášky (14.4.2025)} + +\begin{theorem}[Bodové vlastnosti ECDF] + \label{thm-pointwise-ecdf} + Pro libovolné pevné $x \in \R$, + \begin{enumerate}[(i)] + \item $\E\left[\hat F_n(x)\right] = F(x)$; + \item $\Var\left[\hat F_n(x)\right] = \frac{F(x)(1 - F(x))}{n}$; + \item $\MSE\left(\hat F_n(x)\right) = \frac{F(x)(1 - F(x))}{n} \to 0$ pro $n \to \infty$; + \item $\hat F_n(X) \overset P \to F(x)$ pro $n \to \infty$. + \end{enumerate} +\end{theorem} + +\begin{proof} + Platí $\E\left[\hat F_n(x)\right] = \E\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n} \sum_{i=1}^n P[X_i \leq x] = F(x)$. Tím jsme dokázali první vlastnost. + + Dále platí $\Var\left[\hat F_n(x)\right] = \Var\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n^2} \sum_{i=1}^n \Var[\chi_{\{X_i \leq x\}}] = \frac{1}{n^2} \sum_{i= 1}^n \left[\E \chi^2 - (\E \chi)^2\right] = \frac{1}{n^2} \sum_{i = 1}^n (F(x) - F(x)^2) = \frac{F(x)(1 - F(x))}{n}$, čímž jsme dokázali druhou vlastnost. + + K důkazu třetí rovnosti si uvědomíme, že díky již dokázané vlastnosti (i) je $\bias(\hat F_n(x)) = 0$ a tedy $\MSE\left(\hat F_n(x)\right) = \Var\left[\hat F_n(x)\right]$. + + Nakonec, díky zákonu velkých čísel (Věta \ref{thm-weak-lln}) máme + $$ \hat F_n(x) = \frac{1}{n} \sum_{i = 1}^n \chi_{\{X_i \leq x\}} \overset P \to \E[\chi_{\{X_1 \leq x\}}] = F(x). $$ +\end{proof} + +\begin{definition} + \textit{Funkcionál} je zobrazení $T: \mathcal{F} \to \R$, kde $\mathcal{F}$ je nějaká množina funkcí. +\end{definition} + +\begin{definition} + \textit{Statistický funkcionál} je zobrazení $T$, které přiřadí rozdělení $P_X$ reálné číslo. +\end{definition} + +Můžeme také definovat vektorové funkcionály, stačí obor hodnot nahradit $\R^d$. Uvedeme si několik příkladů statistických funkcionálů. + +\begin{example} + Následující operátory jsou statistické funkcionály: + \begin{itemize} + \item střední hodnota $\mu = \E X = \int x dP_X(x)$; + \item rozptyl $\sigma^2 = \Var X = \int (x - \mu)^2 dP_X(x)$; + \item medián $F^{-1}(1/2) \equiv \inf \{x : P_X((-\infty, x]) > 1/2\}$. + \end{itemize} +\end{example} + +\begin{definition} + Pokud $T(P_X) = \int r(x) dP_X(x)$ pro nějakou měřitelnou funkci $r$, pak $T$ nazýváme \textit{lineární statistický funkcionál}. +\end{definition} + +Motivací této definice je fakt, že takto definovaný funkcionál $T$ je lineární ve svých argumentech, jinými slovy, +$$ T(aP_X + bP_Y + c) = aT(P_X) + bT(P_Y) + c $$ +pro $a, b, c \in \R$. + +Z předchozího příkladu dostaneme, že střední hodnota a rozptyl jsou lineární a medián není (neexistuje vhodná měřitelná funkce $r$). + +\begin{definition} + Nechť $X_1, \dots, X_n$ je náhodný výběr z $F$ s rozsahem výběru $n$, kde + $X_i : (\Omega, \mathcal{A}, P) \to (\R, \mathcal{B}(\R))$ pro $i = 1, \dots, n$. Pak + $$ \hat P_n(B) := \frac{1}{n} \sum_{i=1}^n \chi_{\{X_i \in B\}} \equiv \frac{1}{n} \sum_{i=1}^n \delta_{X_i} (B) $$ + pro $B \in \mathcal{B}(\R)$ se nazývá \textit{empirická pravděpodobnostní míra}. +\end{definition} + +Právě definovaný objekt je \textit{náhodná} pravděpodobnostní míra, které má diskrétní rovnoměrné pravděpodobnostní rozdělení (součet Diracových měr) na náhodných bodech $X_1, \dots, X_n$, kde každý tento bod má váhu $\frac{1}{n}$. + +\begin{definition} + \textit{Plug-in odhad} neznámého parametru $\theta = T(P_X)$ je $\hat \theta_n := T(\hat P_n)$. +\end{definition} + +Myšlenkou definice plug-in odhadu je nahrazení neznámé pravděpodobnostní míry jejím odhadem. + +\begin{example} + Platí $\hat F_n(x) = \hat P_n((-\infty, x])$ pro $x \in \R$. +\end{example} + +\begin{definition} + \textit{Empirický (plug-in) odhad} pro lineární statistický funkcionál $T(P_X) = \int r(x) dP_X(x)$ je + $$ T(\hat P_n) = \int r(x) d\hat P_n(x). $$ +\end{definition} + +\begin{theorem}[Výpočet plug-in odhadu pro lineární statistický funkcionál] + Pro empirický odhad lineárního statistického funkcionálu $T(P_X) = \int r(x) dP_X(x)$ platí + $$ T(\hat P_n) = \frac{1}{n} \sum_{i=1}^n r(X_i). $$ +\end{theorem} + +\begin{proof} + Nechť $\omega \in \Omega$ je dáno. Z definice empirického odhadu lineárního statistického funkcionálu dostáváme + $$ T(\hat P_n)(\omega) = \int_\R r(x) d\hat P_n(\omega)(x) = \int_\R r(x) d\left(\frac{1}{n}\sum_{i=1}^n \delta_{X_i(\omega)}(x)\right) = $$ + $$ \frac{1}{n}\sum_{i=1}^n \int_\R r(x) d\delta_{X_i(\omega)}(x) = \frac{1}{n} \sum_{i=1}^n r(X_i(\omega)). $$ +\end{proof} + +\begin{example} + Spočteme empirickou střední hodnotu. Máme $\mu = T(P_X) = \int x dP_X(x)$ a tedy díky předchozí větě + $$ \hat \mu_n = \int xd\hat P_n(x) = \bar X_n. $$ +\end{example} + +\begin{example} + Spočteme empirický rozptyl. Z definice rozptylu máme + $$ \Var X = \sigma^2 = T(P_X) = \int (x - \mu)^2 dP_X(x) = \int x^2 dP_X(x) - \left(\int x dP_X(x)\right)^2. $$ + Potom + $$ \hat \sigma_n^2 = \int x^2d\hat P_n(x) - \left(\int x d\hat P_n(x) \right)^2 = $$ + $$ \frac{1}{n} \sum_{i=1}^n X_i^2 - \left(\frac{1}{n}\sum_{i=1}^n X_i\right)^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar X_n)^2. $$ +\end{example} + +\begin{example} + Spočteme empirickou korelaci. Nechť tedy $Z = [X, Y]^T$ a nechť $\rho = T(P_{[X, Y]^T})$ označuje příslušnou korelaci. + Můžeme psát + $$ T(P_{[X, Y]^T}) = a(T_1(P_{[X, Y]^T}), T_2(P_{[X, Y]^T}) T_3(P_{[X, Y]^T}) T_4(P_{[X, Y]^T}) T_5(P_{[X, Y]^T})),$$ + kde + \begin{align*} + T_1(P_{[X, Y]^T}) &= \int xdP_{[X, Y]^T}(x, y),\\ + T_2(P_{[X, Y]^T}) &= \int ydP_{[X, Y]^T}(x, y),\\ + T_3(P_{[X, Y]^T}) &= \int xydP_{[X, Y]^T}(x, y),\\ + T_4(P_{[X, Y]^T}) &= \int x^2dP_{[X, Y]^T}(x, y),\\ + T_5(P_{[X, Y]^T}) &= \int y^2dP_{[X, Y]^T}(x, y) + \end{align*} + a zároveň $a(t_1, t_2, t_3, t_4, t_5) = \frac{t_3 - t_1 t_2}{\sqrt{(t_4 - t_1^2)(t_5 - t_2^2)}}$. Dosazením se snadno ověří, že tímto jsme opravdu získali vzorec pro daný funkcionál. Nahrazením distribuční funkce jejím empirickým protějškem nakonec dostáváme + $$ \hat \rho = \frac{\sum_i (X_i - \bar X_n)(Y_i - \bar Y_n)}{\sqrt{\sum_i (X_i - \bar X_n)^2 \sum_j (Y_j - \bar Y_n)^2}}.$$ + Tuto veličinu nazýváme \textit{výběrovou korelací}. +\end{example} + + +\begin{definition} + Připomínka: pro $p \in (0, 1)$ definujeme \textit{$p$-tý kvantil} jako + $T(F) = F^{-1}(p) = \inf \{ x : F(x) > p \}$. + + Nyní definujeme + $$ T(\hat F_n) = \hat F_n^{-1}(p) = \inf \{ x : \hat F_n (x) > p \} $$ + a tento objekt nazýváme \textit{$p$-tý výběrový kvantil}. Obdobně definujeme \textit{výběrový medián} jako $\hat F^{-1}_n(1/2)$. Navíc mezikvartilové rozpětí $\tilde T(F) = F^{-1}(3/4) - F^{-1}(1/4)$ lze odhadnout pomocí \textit{výběrového mezikvartilového rozpětí} $\tilde T(\hat F_n) = \hat F_n^{-1}(3/4) - \hat F_n^{-1}(1/4)$. +\end{definition}