prednaska 15.4.2025
This commit is contained in:
parent
9b5c6ebe7c
commit
6659028224
4 changed files with 156 additions and 1 deletions
|
@ -7,6 +7,132 @@ Nechť $X_1, \dots, X_n$ je IID náhodný výběr z $F$ s rozsahem výběru $n$.
|
|||
$$ \hat F_n(x) = \frac{1}{n}\sum_{i = 1}^n \chi_{\{X_i \leq x\}}. $$
|
||||
\end{definition}
|
||||
|
||||
Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Dále budeme používat relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$.
|
||||
Takto definovaná empirická distribuční funkce splňuje všechny vlastnosti normální distribučních funkcí a přiřazuje váhu $\frac{1}{n}$ každému pozorování $X_i$. Taktéž ECDF můžeme definovat jako relativní četnost $X$ menších nebo rovných pevnému $x$, to znamená $\frac{1}{n} |\{X_i \leq x\}|$.
|
||||
|
||||
\hfill \textit{konec 16. přednášky (14.4.2025)}
|
||||
|
||||
\begin{theorem}[Bodové vlastnosti ECDF]
|
||||
\label{thm-pointwise-ecdf}
|
||||
Pro libovolné pevné $x \in \R$,
|
||||
\begin{enumerate}[(i)]
|
||||
\item $\E\left[\hat F_n(x)\right] = F(x)$;
|
||||
\item $\Var\left[\hat F_n(x)\right] = \frac{F(x)(1 - F(x))}{n}$;
|
||||
\item $\MSE\left(\hat F_n(x)\right) = \frac{F(x)(1 - F(x))}{n} \to 0$ pro $n \to \infty$;
|
||||
\item $\hat F_n(X) \overset P \to F(x)$ pro $n \to \infty$.
|
||||
\end{enumerate}
|
||||
\end{theorem}
|
||||
|
||||
\begin{proof}
|
||||
Platí $\E\left[\hat F_n(x)\right] = \E\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n} \sum_{i=1}^n P[X_i \leq x] = F(x)$. Tím jsme dokázali první vlastnost.
|
||||
|
||||
Dále platí $\Var\left[\hat F_n(x)\right] = \Var\left[\frac{1}{n}\sum_{i=1}^n \chi_{\{X_i \leq x\}}\right] = \frac{1}{n^2} \sum_{i=1}^n \Var[\chi_{\{X_i \leq x\}}] = \frac{1}{n^2} \sum_{i= 1}^n \left[\E \chi^2 - (\E \chi)^2\right] = \frac{1}{n^2} \sum_{i = 1}^n (F(x) - F(x)^2) = \frac{F(x)(1 - F(x))}{n}$, čímž jsme dokázali druhou vlastnost.
|
||||
|
||||
K důkazu třetí rovnosti si uvědomíme, že díky již dokázané vlastnosti (i) je $\bias(\hat F_n(x)) = 0$ a tedy $\MSE\left(\hat F_n(x)\right) = \Var\left[\hat F_n(x)\right]$.
|
||||
|
||||
Nakonec, díky zákonu velkých čísel (Věta \ref{thm-weak-lln}) máme
|
||||
$$ \hat F_n(x) = \frac{1}{n} \sum_{i = 1}^n \chi_{\{X_i \leq x\}} \overset P \to \E[\chi_{\{X_1 \leq x\}}] = F(x). $$
|
||||
\end{proof}
|
||||
|
||||
\begin{definition}
|
||||
\textit{Funkcionál} je zobrazení $T: \mathcal{F} \to \R$, kde $\mathcal{F}$ je nějaká množina funkcí.
|
||||
\end{definition}
|
||||
|
||||
\begin{definition}
|
||||
\textit{Statistický funkcionál} je zobrazení $T$, které přiřadí rozdělení $P_X$ reálné číslo.
|
||||
\end{definition}
|
||||
|
||||
Můžeme také definovat vektorové funkcionály, stačí obor hodnot nahradit $\R^d$. Uvedeme si několik příkladů statistických funkcionálů.
|
||||
|
||||
\begin{example}
|
||||
Následující operátory jsou statistické funkcionály:
|
||||
\begin{itemize}
|
||||
\item střední hodnota $\mu = \E X = \int x dP_X(x)$;
|
||||
\item rozptyl $\sigma^2 = \Var X = \int (x - \mu)^2 dP_X(x)$;
|
||||
\item medián $F^{-1}(1/2) \equiv \inf \{x : P_X((-\infty, x]) > 1/2\}$.
|
||||
\end{itemize}
|
||||
\end{example}
|
||||
|
||||
\begin{definition}
|
||||
Pokud $T(P_X) = \int r(x) dP_X(x)$ pro nějakou měřitelnou funkci $r$, pak $T$ nazýváme \textit{lineární statistický funkcionál}.
|
||||
\end{definition}
|
||||
|
||||
Motivací této definice je fakt, že takto definovaný funkcionál $T$ je lineární ve svých argumentech, jinými slovy,
|
||||
$$ T(aP_X + bP_Y + c) = aT(P_X) + bT(P_Y) + c $$
|
||||
pro $a, b, c \in \R$.
|
||||
|
||||
Z předchozího příkladu dostaneme, že střední hodnota a rozptyl jsou lineární a medián není (neexistuje vhodná měřitelná funkce $r$).
|
||||
|
||||
\begin{definition}
|
||||
Nechť $X_1, \dots, X_n$ je náhodný výběr z $F$ s rozsahem výběru $n$, kde
|
||||
$X_i : (\Omega, \mathcal{A}, P) \to (\R, \mathcal{B}(\R))$ pro $i = 1, \dots, n$. Pak
|
||||
$$ \hat P_n(B) := \frac{1}{n} \sum_{i=1}^n \chi_{\{X_i \in B\}} \equiv \frac{1}{n} \sum_{i=1}^n \delta_{X_i} (B) $$
|
||||
pro $B \in \mathcal{B}(\R)$ se nazývá \textit{empirická pravděpodobnostní míra}.
|
||||
\end{definition}
|
||||
|
||||
Právě definovaný objekt je \textit{náhodná} pravděpodobnostní míra, které má diskrétní rovnoměrné pravděpodobnostní rozdělení (součet Diracových měr) na náhodných bodech $X_1, \dots, X_n$, kde každý tento bod má váhu $\frac{1}{n}$.
|
||||
|
||||
\begin{definition}
|
||||
\textit{Plug-in odhad} neznámého parametru $\theta = T(P_X)$ je $\hat \theta_n := T(\hat P_n)$.
|
||||
\end{definition}
|
||||
|
||||
Myšlenkou definice plug-in odhadu je nahrazení neznámé pravděpodobnostní míry jejím odhadem.
|
||||
|
||||
\begin{example}
|
||||
Platí $\hat F_n(x) = \hat P_n((-\infty, x])$ pro $x \in \R$.
|
||||
\end{example}
|
||||
|
||||
\begin{definition}
|
||||
\textit{Empirický (plug-in) odhad} pro lineární statistický funkcionál $T(P_X) = \int r(x) dP_X(x)$ je
|
||||
$$ T(\hat P_n) = \int r(x) d\hat P_n(x). $$
|
||||
\end{definition}
|
||||
|
||||
\begin{theorem}[Výpočet plug-in odhadu pro lineární statistický funkcionál]
|
||||
Pro empirický odhad lineárního statistického funkcionálu $T(P_X) = \int r(x) dP_X(x)$ platí
|
||||
$$ T(\hat P_n) = \frac{1}{n} \sum_{i=1}^n r(X_i). $$
|
||||
\end{theorem}
|
||||
|
||||
\begin{proof}
|
||||
Nechť $\omega \in \Omega$ je dáno. Z definice empirického odhadu lineárního statistického funkcionálu dostáváme
|
||||
$$ T(\hat P_n)(\omega) = \int_\R r(x) d\hat P_n(\omega)(x) = \int_\R r(x) d\left(\frac{1}{n}\sum_{i=1}^n \delta_{X_i(\omega)}(x)\right) = $$
|
||||
$$ \frac{1}{n}\sum_{i=1}^n \int_\R r(x) d\delta_{X_i(\omega)}(x) = \frac{1}{n} \sum_{i=1}^n r(X_i(\omega)). $$
|
||||
\end{proof}
|
||||
|
||||
\begin{example}
|
||||
Spočteme empirickou střední hodnotu. Máme $\mu = T(P_X) = \int x dP_X(x)$ a tedy díky předchozí větě
|
||||
$$ \hat \mu_n = \int xd\hat P_n(x) = \bar X_n. $$
|
||||
\end{example}
|
||||
|
||||
\begin{example}
|
||||
Spočteme empirický rozptyl. Z definice rozptylu máme
|
||||
$$ \Var X = \sigma^2 = T(P_X) = \int (x - \mu)^2 dP_X(x) = \int x^2 dP_X(x) - \left(\int x dP_X(x)\right)^2. $$
|
||||
Potom
|
||||
$$ \hat \sigma_n^2 = \int x^2d\hat P_n(x) - \left(\int x d\hat P_n(x) \right)^2 = $$
|
||||
$$ \frac{1}{n} \sum_{i=1}^n X_i^2 - \left(\frac{1}{n}\sum_{i=1}^n X_i\right)^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar X_n)^2. $$
|
||||
\end{example}
|
||||
|
||||
\begin{example}
|
||||
Spočteme empirickou korelaci. Nechť tedy $Z = [X, Y]^T$ a nechť $\rho = T(P_{[X, Y]^T})$ označuje příslušnou korelaci.
|
||||
Můžeme psát
|
||||
$$ T(P_{[X, Y]^T}) = a(T_1(P_{[X, Y]^T}), T_2(P_{[X, Y]^T}) T_3(P_{[X, Y]^T}) T_4(P_{[X, Y]^T}) T_5(P_{[X, Y]^T})),$$
|
||||
kde
|
||||
\begin{align*}
|
||||
T_1(P_{[X, Y]^T}) &= \int xdP_{[X, Y]^T}(x, y),\\
|
||||
T_2(P_{[X, Y]^T}) &= \int ydP_{[X, Y]^T}(x, y),\\
|
||||
T_3(P_{[X, Y]^T}) &= \int xydP_{[X, Y]^T}(x, y),\\
|
||||
T_4(P_{[X, Y]^T}) &= \int x^2dP_{[X, Y]^T}(x, y),\\
|
||||
T_5(P_{[X, Y]^T}) &= \int y^2dP_{[X, Y]^T}(x, y)
|
||||
\end{align*}
|
||||
a zároveň $a(t_1, t_2, t_3, t_4, t_5) = \frac{t_3 - t_1 t_2}{\sqrt{(t_4 - t_1^2)(t_5 - t_2^2)}}$. Dosazením se snadno ověří, že tímto jsme opravdu získali vzorec pro daný funkcionál. Nahrazením distribuční funkce jejím empirickým protějškem nakonec dostáváme
|
||||
$$ \hat \rho = \frac{\sum_i (X_i - \bar X_n)(Y_i - \bar Y_n)}{\sqrt{\sum_i (X_i - \bar X_n)^2 \sum_j (Y_j - \bar Y_n)^2}}.$$
|
||||
Tuto veličinu nazýváme \textit{výběrovou korelací}.
|
||||
\end{example}
|
||||
|
||||
|
||||
\begin{definition}
|
||||
Připomínka: pro $p \in (0, 1)$ definujeme \textit{$p$-tý kvantil} jako
|
||||
$T(F) = F^{-1}(p) = \inf \{ x : F(x) > p \}$.
|
||||
|
||||
Nyní definujeme
|
||||
$$ T(\hat F_n) = \hat F_n^{-1}(p) = \inf \{ x : \hat F_n (x) > p \} $$
|
||||
a tento objekt nazýváme \textit{$p$-tý výběrový kvantil}. Obdobně definujeme \textit{výběrový medián} jako $\hat F^{-1}_n(1/2)$. Navíc mezikvartilové rozpětí $\tilde T(F) = F^{-1}(3/4) - F^{-1}(1/4)$ lze odhadnout pomocí \textit{výběrového mezikvartilového rozpětí} $\tilde T(\hat F_n) = \hat F_n^{-1}(3/4) - \hat F_n^{-1}(1/4)$.
|
||||
\end{definition}
|
||||
|
|
Loading…
Add table
Add a link
Reference in a new issue