\section{Statistické funkcionály} Nechť $X_1, \dots, X_n$ je IID náhodný výběr z $F$ s rozsahem výběru $n$. Chceme odhadnout $F$ jejím empirickým protějškem. \begin{definition}[ECDF] Pro $x \in \R$ definujeme $$ \hat F_n(x) = \frac{1}{n}\sum_{i = 1}^n \chi_{\{X_i \leq x\}}. $$ \end{definition} Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Taktéž ECDF můžeme definovat jako relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$. \hfill \textit{konec 16. přednášky (14.4.2025)} \begin{theorem}[Bodové vlastnosti ECDF] \label{thm-pointwise-ecdf} Pro libovolné pevné $x \in \R$, \begin{enumerate}[(i)] \item $\E\left[\hat F_n(x)\right] = F(x)$; \item $\Var\left[\hat F_n(x)\right] = \frac{F(x)(1 - F(x))}{n}$; \item $\MSE\left(\hat F_n(x)\right) = \frac{F(x)(1 - F(x))}{n} \to 0$ pro $n \to \infty$; \item $\hat F_n(X) \overset P \to F(x)$ pro $n \to \infty$. \end{enumerate} \end{theorem} \begin{proof} Platí $\E\left[\hat F_n(x)\right] = \E\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n} \sum_{i=1}^n P[X_i \leq x] = F(x)$. Tím jsme dokázali první vlastnost. Dále platí $\Var\left[\hat F_n(x)\right] = \Var\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n^2} \sum_{i=1}^n \Var[\chi_{\{X_i \leq x\}}] = \frac{1}{n^2} \sum_{i= 1}^n \left[\E \chi^2 - (\E \chi)^2\right] = \frac{1}{n^2} \sum_{i = 1}^n (F(x) - F(x)^2) = \frac{F(x)(1 - F(x))}{n}$, čímž jsme dokázali druhou vlastnost. K důkazu třetí rovnosti si uvědomíme, že díky již dokázané vlastnosti (i) je $\bias(\hat F_n(x)) = 0$ a tedy $\MSE\left(\hat F_n(x)\right) = \Var\left[\hat F_n(x)\right]$. Nakonec, díky zákonu velkých čísel (Věta \ref{thm-weak-lln}) máme $$ \hat F_n(x) = \frac{1}{n} \sum_{i = 1}^n \chi_{\{X_i \leq x\}} \overset P \to \E[\chi_{\{X_1 \leq x\}}] = F(x). $$ \end{proof} \begin{definition} \textit{Funkcionál} je zobrazení $T: \mathcal{F} \to \R$, kde $\mathcal{F}$ je nějaká množina funkcí. \end{definition} \begin{definition} \textit{Statistický funkcionál} je zobrazení $T$, které přiřadí rozdělení $P_X$ reálné číslo. \end{definition} Můžeme také definovat vektorové funkcionály, stačí obor hodnot nahradit $\R^d$. Uvedeme si několik příkladů statistických funkcionálů. \begin{example} Následující operátory jsou statistické funkcionály: \begin{itemize} \item střední hodnota $\mu = \E X = \int x dP_X(x)$; \item rozptyl $\sigma^2 = \Var X = \int (x - \mu)^2 dP_X(x)$; \item medián $F^{-1}(1/2) \equiv \inf \{x : P_X((-\infty, x]) > 1/2\}$. \end{itemize} \end{example} \begin{definition} Pokud $T(P_X) = \int r(x) dP_X(x)$ pro nějakou měřitelnou funkci $r$, pak $T$ nazýváme \textit{lineární statistický funkcionál}. \end{definition} Motivací této definice je fakt, že takto definovaný funkcionál $T$ je lineární ve svých argumentech, jinými slovy, $$ T(aP_X + bP_Y + c) = aT(P_X) + bT(P_Y) + c $$ pro $a, b, c \in \R$. Z předchozího příkladu dostaneme, že střední hodnota a rozptyl jsou lineární a medián není (neexistuje vhodná měřitelná funkce $r$). \begin{definition} Nechť $X_1, \dots, X_n$ je náhodný výběr z $F$ s rozsahem výběru $n$, kde $X_i : (\Omega, \mathcal{A}, P) \to (\R, \mathcal{B}(\R))$ pro $i = 1, \dots, n$. Pak $$ \hat P_n(B) := \frac{1}{n} \sum_{i=1}^n \chi_{\{X_i \in B\}} \equiv \frac{1}{n} \sum_{i=1}^n \delta_{X_i} (B) $$ pro $B \in \mathcal{B}(\R)$ se nazývá \textit{empirická pravděpodobnostní míra}. \end{definition} Právě definovaný objekt je \textit{náhodná} pravděpodobnostní míra, které má diskrétní rovnoměrné pravděpodobnostní rozdělení (součet Diracových měr) na náhodných bodech $X_1, \dots, X_n$, kde každý tento bod má váhu $\frac{1}{n}$. \begin{definition} \textit{Plug-in odhad} neznámého parametru $\theta = T(P_X)$ je $\hat \theta_n := T(\hat P_n)$. \end{definition} Myšlenkou definice plug-in odhadu je nahrazení neznámé pravděpodobnostní míry jejím odhadem. \begin{example} Platí $\hat F_n(x) = \hat P_n((-\infty, x])$ pro $x \in \R$. \end{example} \begin{definition} \textit{Empirický (plug-in) odhad} pro lineární statistický funkcionál $T(P_X) = \int r(x) dP_X(x)$ je $$ T(\hat P_n) = \int r(x) d\hat P_n(x). $$ \end{definition} \begin{theorem}[Výpočet plug-in odhadu pro lineární statistický funkcionál] Pro empirický odhad lineárního statistického funkcionálu $T(P_X) = \int r(x) dP_X(x)$ platí $$ T(\hat P_n) = \frac{1}{n} \sum_{i=1}^n r(X_i). $$ \end{theorem} \begin{proof} Nechť $\omega \in \Omega$ je dáno. Z definice empirického odhadu lineárního statistického funkcionálu dostáváme $$ T(\hat P_n)(\omega) = \int_\R r(x) d\hat P_n(\omega)(x) = \int_\R r(x) d\left(\frac{1}{n}\sum_{i=1}^n \delta_{X_i(\omega)}(x)\right) = $$ $$ \frac{1}{n}\sum_{i=1}^n \int_\R r(x) d\delta_{X_i(\omega)}(x) = \frac{1}{n} \sum_{i=1}^n r(X_i(\omega)). $$ \end{proof} \begin{example} Spočteme empirickou střední hodnotu. Máme $\mu = T(P_X) = \int x dP_X(x)$ a tedy díky předchozí větě $$ \hat \mu_n = \int xd\hat P_n(x) = \bar X_n. $$ \end{example} \begin{example} Spočteme empirický rozptyl. Z definice rozptylu máme $$ \Var X = \sigma^2 = T(P_X) = \int (x - \mu)^2 dP_X(x) = \int x^2 dP_X(x) - \left(\int x dP_X(x)\right)^2. $$ Potom $$ \hat \sigma_n^2 = \int x^2d\hat P_n(x) - \left(\int x d\hat P_n(x) \right)^2 = $$ $$ \frac{1}{n} \sum_{i=1}^n X_i^2 - \left(\frac{1}{n}\sum_{i=1}^n X_i\right)^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar X_n)^2. $$ \end{example} \begin{example} Spočteme empirickou korelaci. Nechť tedy $Z = [X, Y]^T$ a nechť $\rho = T(P_{[X, Y]^T})$ označuje příslušnou korelaci. Můžeme psát $$ T(P_{[X, Y]^T}) = a(T_1(P_{[X, Y]^T}), T_2(P_{[X, Y]^T}) T_3(P_{[X, Y]^T}) T_4(P_{[X, Y]^T}) T_5(P_{[X, Y]^T})),$$ kde \begin{align*} T_1(P_{[X, Y]^T}) &= \int xdP_{[X, Y]^T}(x, y),\\ T_2(P_{[X, Y]^T}) &= \int ydP_{[X, Y]^T}(x, y),\\ T_3(P_{[X, Y]^T}) &= \int xydP_{[X, Y]^T}(x, y),\\ T_4(P_{[X, Y]^T}) &= \int x^2dP_{[X, Y]^T}(x, y),\\ T_5(P_{[X, Y]^T}) &= \int y^2dP_{[X, Y]^T}(x, y) \end{align*} a zároveň $a(t_1, t_2, t_3, t_4, t_5) = \frac{t_3 - t_1 t_2}{\sqrt{(t_4 - t_1^2)(t_5 - t_2^2)}}$. Dosazením se snadno ověří, že tímto jsme opravdu získali vzorec pro daný funkcionál. Nahrazením distribuční funkce jejím empirickým protějškem nakonec dostáváme $$ \hat \rho = \frac{\sum_i (X_i - \bar X_n)(Y_i - \bar Y_n)}{\sqrt{\sum_i (X_i - \bar X_n)^2 \sum_j (Y_j - \bar Y_n)^2}}.$$ Tuto veličinu nazýváme \textit{výběrovou korelací}. \end{example} \begin{definition} Připomínka: pro $p \in (0, 1)$ definujeme \textit{$p$-tý kvantil} jako $T(F) = F^{-1}(p) = \inf \{ x : F(x) > p \}$. Nyní definujeme $$ T(\hat F_n) = \hat F_n^{-1}(p) = \inf \{ x : \hat F_n (x) > p \} $$ a tento objekt nazýváme \textit{$p$-tý výběrový kvantil}. Obdobně definujeme \textit{výběrový medián} jako $\hat F^{-1}_n(1/2)$. Navíc mezikvartilové rozpětí $\tilde T(F) = F^{-1}(3/4) - F^{-1}(1/4)$ lze odhadnout pomocí \textit{výběrového mezikvartilového rozpětí} $\tilde T(\hat F_n) = \hat F_n^{-1}(3/4) - \hat F_n^{-1}(1/4)$. \end{definition}