\section{Náhodné veličiny} V této kapitole se budeme věnovat náhodným veličinám, což bude formalizovat (a zobecňovat) jakýsi intuitivní chápání toho, že nějaká proměnná nabývá různých hodnot s určitými pravděpodobnostmi. Začneme ústřední definicí celé statistiky -- náhodnou veličinou. \begin{definition} Nechť $(\Omega, \mathcal{A})$ je měřitelný prostor. \textit{Náhodná veličina} je měřitelné zobrazení, které přiřazuje každému výsledku $\omega$ reálné číslo $X(\omega)$. Jinými slovy, $\{\omega \in \Omega: X(\omega) \leq x\} \in \mathcal{A} \forall x\in\mathbb{R}$. \end{definition} \hfill \textit{konec 2. přednášky (18.2.2025)} \begin{convention} Zavedeme značení $[X \in B] = \{\omega: X(\omega) \in B\}, [X \leq a] = \{\omega, X(\omega) \leq a\}$. Platí tedy $[X \in B], [X \leq a] \in \mathcal{A}$ pro všechna $B \in \mathcal{B}, a \in \mathbb{R}$. Jde o náhodné jevy a jsou tedy dobře definované jejich pravděpodobnosti $P[X \in B], P[X \leq a]$. \end{convention} \begin{example} Házíme mincí desetkrát. Nechť $X(\omega)$ je počet orlů v posloupnosti $\omega$. Jestliže $\omega = OOPOOPOOPP$ (kde $O$ je orel a $P$ je panna), platí $X(\omega) = 6$. \end{example} V předchozí kapitole jsme mluvili o pravděpodobnostním rozdělení, je na čase tento pojem formálně zadefinovat. \begin{definition} \textit{Rozdělením náhodné veličiny} $X: (\Omega, \mathcal{A}) \rightarrow (\mathbb{R}, \mathcal{B}(\mathbb{R}))$ nazýváme indukovanou pravděpodobnostní míru $P_X$ na $(\mathbb{R},\mathcal{B}(\mathbb{R}))$ definovanou jako $$ P_X(B) := P[\{\omega\in\Omega: X(\omega)\in B\}],B\in \mathcal{B}(\mathbb{R}).$$ \end{definition} Máme tedy jakýsi obraz míry $P$ v zobrazení $P_X$ čímž se $(\Omega, \mathcal{A}, P)$ zobrazí na pravděpodobnostní prostor $(\mathbb{R},\mathcal{B}(\mathbb{R}),P_X)$. V opačném směru můžeme použít takzvané kanonické vnoření do prostoru $(\mathbb{R}, \mathcal{B}, P_X)$, kde naší zvolenou měřitelnou funkcí bude identita, tedy není potřeba se bát, že by příslušný prostor nemusel existovat. Následující věta říká, že nezáleží ve kterém z těchto dvou prostorů integrujeme libovolnou funkci. \begin{theorem}{\textbf{(O přenosu integrace)}} Buď $g$ měřitelná funkce na měřitelném prostoru $(\mathbb{M}, \mathcal{M})$ a $X: (\Omega, \mathcal{A}, P) \rightarrow (\mathbb{M}, \mathcal{M})$. Nechť $P_X$ je míra na $\mathcal{M}$ indukovaná zobrazením $X$, tedy $P_X(M) = P[X^{-1}(M)]$ pro $M \in \mathcal{M}$. Potom, je-li aspoň jedna strana definována, platí $$\int_\Omega g[X(\omega)] dP(\omega) = \int_\mathbb{M} g(x) dP_X(x).$$ \begin{proof} Důkaz této věty je poměrně technický, hlavní ideou je ``klasický" postup z teorie míry postupným důkazem nejdříve pro charakteristickou funkci, poté pro jednoduchou měřitelnou (nabývající jen konečně mnoha hodnot), pak pro nezápornou měřitelnou a na závěr pro obecnou měřitelnou funkci. Nechť $g = \chi_B, B \in \mathcal{M}$. Tedy $g(X(\omega)) = 1$ pro $X(\omega) \in B$ (a všude jinde nulová), tedy pro $\omega \in X^{-1}(B)$. Potom máme $$ \int_\Omega g(X(\omega) dP(\omega) = \int_{X^{-1}(B)} dP(\omega) = P[X^{-1}(B)]. $$ Pro pravou stranu máme $$ \int_\mathbb{M} g(x) dP_X(x) = \int_B dP_X(x) = P_X(B) = P[X^{-1}(B)].$$ Dále nechť $g$ je jednoduchá měřitelná, tedy $g(\cdot) = \sum_{k = 1}^{n} c_k \chi_{B_k}(\cdot)$ pro $n \in \mathbb{N}$, $c_k \in \mathbb{R}$ a $B_k \in \mathcal{M}$ pro všechna $k$. Z linearity integrálu plyne (vytkneme sumu) $ \int_\Omega g(X(\omega) dP(\omega) = \int_{X^{-1}(B)} dP(\omega) = P[X^{-1}(B)]$. Je-li $g$ nezáporná měřitelná, potom existuje posloupnost $g_n$ jednoduchých měřitelných funkcí takových, že $g_n \nearrow g$. Potom dle Léviho věty o monotonní konvergenci máme $$\int_\Omega g[X(\omega)] dP(\omega) = \lim_{n\rightarrow\infty} \int_\Omega g_n[X(\omega)] dP(\omega) $$ $$ = \lim_{n\rightarrow\infty} \int_\mathbb{M} g_n(x) dP_X(x) = \int_\mathbb{M} g(x) dP_X(x),$$ kde třetí rovnost plyne z již dokázané části pro jednoduché měřitelné funkce. Nakonec, pro $g$ měřitelnou existuje rozklad $g = g^+ - g^-$ takový, že $g^+, g^-$ jsou nezáporné měřitelné, tedy požadované tvrzení plyne z části pro nezáporné měřitelné funkce. \end{proof} \end{theorem} Na závěr poznamenejme, že se nám budou obzvlášť hodit volby $(\mathbb{M}, \mathcal{M}) = (\mathbb{R}^n, \mathcal{B}(\mathbb{R}^n))$ pro $n \geq 1$. Připomeňme si, že jsou-li $\mu, \nu$ dvě $\sigma$-konečné míry na $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$ a je-li $\nu << \mu$ (tedy $\mu(B) = 0$ implikuje $\nu(B) = 0$), potom z Radonovy-Nikodymovy věty plyne existence nezáporné měřitelné funkce $f$ takové, že $\nu(B) = \int_\mathbb{R} fd\mu$ pro všechna $B \in \mathcal{B}$. Této funkci $f$ říkáme Radonova-Nikodymova derivace a píšeme $f = \frac{d\nu}{d\mu}$. Taková funkce $f$ je navíc určena jednoznačně až na množinu $\mu$-míry $0$. Využijeme těchto poznatků tak, že zvolíme vhodnou referenční míru na $\mathbb{R}$ a rozdělení $P_X$ pak bude popsáno právě zavedenou Radonovou-Nikodymovou derivací. Vhodné referenční míry jsou např. \begin{itemize} \item Lebesgueova míra $\lambda$, \item Čítací míra na spočetné podmnožině $\mathbb{R}$, platí $\mu_S(B) = |B \cap S|$ kde $S$ je nejvýše spočetná podmnožina $\mathbb{R}$. \end{itemize} \begin{definition} Buď $X$ náhodná veličina a $P_X$ její rozdělení. Nechť $P_X$ je absolutně spojité vůči $\mu$, kde $\mu$ je $\sigma$-konečná míra na $\mathbb{R}$. Pak funkci $f_X$ splňující $P_X(B) = \int_B f_X d\mu$ pro všechny $B \in \mathbb{B}$ nazveme \textit{hustotou} rozdělení náhodné veličiny $X$ vůči míře $\mu$. \end{definition} Je třeba si dát pozor na to, aby zvolená referenční míra opravdu byla absolutně spojitá, například při hodu kostkou má výsledek $1$ nenulovou pravděpodobnost, ale $\lambda(\{1\}) = 0$. \begin{theorem} Buď $X$ náhodná veličina a $P_X$ její rozdělení. Je-li $f_X$ hustota (rozdělení) vůči $\sigma$-konečné míře $\mu$, pak $$P[X\in B] = \int_B f_X d\mu.$$ \begin{proof} Přímý důsledek Radonovy-Nikodymovy věty a vztahu mezi $P_X$ a $P$. \end{proof} \end{theorem} Další funkcí, která plně charakterizuje rozdělení náhodné veličiny je tzv. distribuční funkce. \begin{definition} Buď $X$ náhodná veličina na $(\Omega, \mathcal{A}, P)$ a $P_X$ její rozdělení. \textit{Distribuční funkce} $F_x$ náhodné veličiny $X$ je definována $F_X(a) = P((-\infty, a]) = P[X \leq a]$. \end{definition} Uvedeme si několik užitečných vlastností distribučních funkcí: \begin{corollary}{\textbf{(Základní vlastnosti distribučních funkcí)}} \begin{enumerate}[(i)] \item Distribuční funkce jednoznačně určuje rozdělení (jinými slovy, $F_X = F_Y$ implikuje $P_X = P_Y$). \item Různé náhodné veličiny mohou mít stejné distribuční funkce, tedy stejné rozdělení. \end{enumerate} \end{corollary} \hfill \textit{konec 3. přednášky (24.2.2025)} \begin{example} Hodíme dvěma kostkami, označme $Y$ počet sudých čísel na těchto dvou kostkách. Potom $Y \in \{ 0, 1, 2 \}$. Z definice $F_Y(a) = P[Y \leq a]$, tedy $$ F_Y(a) = \begin{cases} 0, a < 0,\\ \frac{1}{4}, 0 \leq a < 1,\\ \frac{3}{4}, 1 \leq a < 2,\\ 1, a \geq 2. \end{cases} $$ Dále, z toho, že $P_Y({0}) = \frac{1}{4} > 0$, plyne, že míra $P_Y$ není absolutně spojitá vůči Lebesgueově míře $\lambda$, tedy musíme uvažovat čítací míru $\mu_\mathbb{Z}$ na množině celých čísel. Potom hustota $f_Y$ má následující tvar: $$ f_Y(a) = \begin{cases} \frac{1}{4}, a = 0,\\ \frac{1}{2}, a = 1,\\ \frac{1}{4}, a = 2,\\ 0, \text{jinak}. \end{cases} $$ \end{example} Vidíme, že hustota odpovídá skokům distribuční funkce v daném bodě. V následující větě uvedeme charakterizaci distribučních funkcí. \begin{theorem}{\textbf{(Charakterizace distribučních funkcí)}} Buď $X$ náhodná veličina a $F_X$ její distribuční funkce. Pak \begin{enumerate}[(i)] \item $F_X$ je neklesající; \item $\lim_{a\rightarrow -\infty} F_X(a) = 0$, $\lim_{a\rightarrow +\infty} F_X(a) = 1$; \item $F_X$ je zprava spojitá. \end{enumerate} Navíc, každá funkce $F$ splňující body (i)-(iii) z této věty je distribuční funkcí nějaké náhodné veličiny. \begin{proof} Dokážeme pouze implikaci o vlastnostech distribuční funkce, opačná implikace (existuje rozdělení) vyžaduje pokročilý matematický aparát z analýzy a teorie míry, který prozatím postrádáme. \begin{enumerate}[(i)] \item $F_X(a)= P[X \leq a]$. Bez újmy na obecnosti nechť $b > a$. Potom $F_X(b) = P[X \leq b] = P([X \leq a] \cup [a < X \leq b]) = P[X \leq a] + P[a < X \leq b]$ z aditivity míry, druhý sčítanec je nezáporný, tedy dostáváme požadované tvrzení. \item Platí $\lim_{a\rightarrow -\infty} = \lim_{n\rightarrow\infty} F_X(-n) = \lim_{n\rightarrow\infty} P[X \in (-\infty, -n]] =: $\\$\lim_{n\rightarrow\infty} P[X \in A_n] = 0$. Poslední rovnost platí ze spojitosti míry (v prázdné množině), neboť platí $A_n \swarrow \emptyset$. Obdobně se ukáže tvrzení pro $a \rightarrow + \infty$ (cvičení). \item Stačí uvažovat postoupnost $a_n = a + \frac{1}{n}$ pro $n \in \mathbb{N}$. Požadované tvrzení opět plyne z věty o spojitosti míry. \end{enumerate} \end{proof} \end{theorem} Pro každou funkci $F$ splňující vlastnosti z předchozí věty existuje míra $\mu_F$ na $(\mathbb{R}, \mathcal{B})$ určená vztahem $\mu_F((-\infty, a]) = F(a)$ pro všechna $a$. Tato míra je konečná a platí $\mu_F((a, b]) = F(b) - F(b)$. \begin{definition}{\textbf{(Rozklad pravděpodobnostního rozdělení)}} Každou pravděpodobnostní míru $P_X$ můžeme rozdělit na tři složky $P_X = P_{X_{as}} + P_{X_{ds}} + P_{X_{sg}}$, kde $P_{X_{as}}$ je absolutně spojitá vůči Lebesgueově míře $\lambda$, $P_{X_{ds}}$ (diskrétní spojitá) je absolutně spojitá vůči čítací míře $\mu$ na nějaké spočetné podmnožině $\mathbb{R}$ a nakonec $P_{X_{sg}}$ (singulární) není absolutně spojitá vůči $\lambda$ ani ji nelze napsat jako spočetnou kombinaci Diracových měr $\delta_x$. \end{definition} Příkladem singulární distribuční funkce je například integrál takzvaného Cantorova diskontinua. Obecně taková rozdělení nemají ``hezké" vlastnosti, proto s nimi již nebudeme pracovat. \begin{definition} Náhodnou veličinu $X$ nazveme \textit{diskrétní}, jestliže existují $\emptyset \neq I \subset \mathbb{N}$, $\{x_i\}_{i \in I}$ a $\{p_i \in (0,1]\}_{i \in I}$ takové že $P[X \in B] = \sum_{i, x_i \in B} p_i$ pro všechny borelovské $B$. \end{definition} Platí $P[X = x_i] = p_i$ a $\sum_{i \in I} p_i = 1$. Rozdělením takové veličiny je funkce $P_X = \sum_{i \in I} p_i \delta_{x_i}$, kde $\delta_u$ je Diracova míra v bodě $u$. Toto rozdělení je absolutně spojité vůči čítací míře na $S = \{x_i\}_{i \in I} \subset \mathbb{R}$. Potom funkce $f_X(u) := \begin{cases} p_i, u = x_i,\\ 0, \text{jinak} \end{cases}$ je hustotou (občas také pravděpodobnostní funkcí) zkoumaného rozdělení. \begin{definition} Náhodná veličina $X$ se nazývá \textit{(absolutně) spojitá}, pokud její rozdělení $P_X$ je absolutně spojité vůči Lebesgueově míře $\lambda$. \end{definition} Pro spojitou náhodnou veličinu $X$ vždy existuje hustota $f_X$ (nezáporná a jednoznačná až na množinu $\lambda$-míry $0$) splňující $P[X\in B] = \int_B f_X(t) dt$ a speciálně $F_X(a) = \int_{-\infty}^a f_X(t) dt$ pro všechna $a \in \mathbb{R}$. Taková $F_X$ má derivaci ve skoro všech bodech a platí $F'_X(a) = f_X(a)$ pro s.v. $a$. Analogicky pro diskrétní náhodnou veličinu $Y$ je hustota funkcí, která nabývá v bodě $a$ hodnoty distribuční funkce v daném bodě. Ne každá veličina, se kterou se běžně setkáme je ryze spojitá nebo ryze diskrétní. Příkladem veličiny, která má obě složky nenulové, je například úhrn denních srážek, s nenulovou pravděpodobností nenaprší vůbec, ale když už začne pršet, úhrn srážek je spojitá náhodná veličina. \begin{lemma} Nechť $F_X$ je distribuční funkce náhodné veličiny $X$. Pak pro $a < b$ platí \begin{enumerate}[(i)] \item $P[a < X \leq b] = P[X \in (a, b]) = F_X(b) - F_X(a)$, \item $P[X > a] = 1 - F_X(a)$, \item $P[X = a] = F_X(a) - F_X(a^-)$, kde $F_X(a^-)$ je limita zleva $\lim_{h\rightarrow 0^+} F_X(a - h)$ a odtud $P[a \leq X \leq b] = F_X(b) - F_X(a^-)$. \item pro spojitou náhodnou veličinu platí $P[a\leq X \leq b] = P[a \leq X < b] = F_X(b) - F_X(a)$. \end{enumerate} \begin{proof} Důkaz je jednoduchý, plyne z příslušných definic. Uvedeme např. důkaz pro bod (iii). $P[X = a] = \lim_{h\rightarrow 0^+} P[a - h < X \leq a] = F_X(a) - \lim_{h\rightarrow 0^+} F_X(a - h)$. \end{proof} \end{lemma} \hfill \textit{konec 4. přednášky (25.2.2025)}