nmsa202/nahodne-jevy.tex

211 lines
15 KiB
TeX

\section{Náhodné jevy}
Začneme nejdříve základními definicemi, bez nichž vůbec nemůžeme mluvit o pravděpodobnosti.
\begin{definition}
\textit{Výběrovým prostorem} rozumíme množinu $\Omega$ všech možných výsledků nějakého experimentu. Prvky $\omega \in \Omega$ této množiny nazýváme \textit{elementárními jevy}. Podmnožině $A \subset \Omega$ říkáme \textit{(náhodný) jev}.
\end{definition}
Pro ilustraci uvedeme následující motivační příklad, kde podrobně popíšeme souvislosti s právě zadefinovanými pojmy.
\begin{example}
Házíme dvakrát férovou mincí. Naším výběrovým prostorem bude množina $\Omega = \{PP, PO, OP, OO\}$. Událost, že první hod je panna, je tedy $A = \{PP, PO\}$. V tomto zápise písmeno $P$ odpovídá tomu, že padla panna, kdežto písmeno $O$ odpovídá orlu.
Dále uvažujme jevy $H_1$ -- při prvním hodu padne panna, a $H_2$ -- při druhém hodu padne panna. Nechť jsou všechny výsledky stejně pravděpodobné (jinými slovy, mince je férová), potom pravděpodobnost, že padne alespoň jedna panna (tj. nastane jev $H_1 \cup H_2$) je $\frac{3}{4}$.
\end{example}
\begin{proof}
Zřejmě z předchozího máme $H_1 = \{PP, PO\}$ a $H_2 = \{OP, PP\}$. Pravděpodobnost spočteme jako podíl velikosti $|H_1 \cup H_2| = 3$ a velikosti celého prostoru $|\Omega| = 4$.
\end{proof}
Tato jednoduchá intuice však selže v případě nekonečné (nespočetné) množiny $\Omega$, neboť jak již čtenář jistě ví z přednášky základů teorie míry, na nespočetné množině neexistuje ``rozumný" způsob, jak měřit množiny. Musíme proto pracovat pouze s jistou třídou podmnožin $\Omega$, které budeme říkat $\sigma$-algebra.
\begin{definition}
Nechť $\Omega \neq \emptyset$ je množina a $\mathcal{A} \subset 2^\Omega$ soubor jejích podmnožin. Této množině $\mathcal{A}$ říkáme $\sigma$-algebra, jestliže jsou splněny následující podmínky:
\begin{enumerate}[(i)]
\item $\emptyset \in \mathcal{A}$,
\item Pokud $A \in \mathcal{A}$, pak $A^C := \Omega \setminus A \in \mathcal{A}$,
\item Pokud $A_1, A_2, \dots \in \mathcal{A}$, pak $\bigcup_{i=1}^{\infty} A_i \in \mathcal{A}$.
\end{enumerate}
Dvojici $(\Omega, \mathcal{A})$ nazýváme \textit{měřitelný prostor}.
\end{definition}
Každé události $A \in \mathcal{A}$ přiřadíme číslo $\mathbb{P}(A)$, které nazýváme \textit{pravděpodobnost} jevu $A$. Jelikož chceme, aby se zachovala intuice z předchozího příkladu, musíme tuto představu náležitým způsobem formalizovat.
\begin{definition}
Nechť $(\Omega, \mathcal{A})$ je měřitelný prostor. Zobrazení $P: \mathcal{A} \rightarrow [0, 1]$ nazýváme \textit{pravděpodobnostní mírou (pravděpodobností)}, jestliže:
\begin{enumerate}[(i)]
\item $P(\Omega) = 1$,
\item Pro libovolné po dvou disjunktní měřitelné množiny $A_i \in \mathcal{A}$, $i \in \N $ platí
$P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty} P(A_i)$.
\end{enumerate}
Trojici $(\Omega, \mathcal{A}, P)$ nazýváme \textit{pravděpodobnostní prostor}.
\end{definition}
Přímo z této definice již můžeme odvodit pár základních vlastností pravděpodobnosti, se kterými dále budeme pracovat. Ve všech následujících tvrzeních pracujeme s pravděpodobnostním prostorem $(\Omega, \mathcal{A}, P)$.
\begin{observation}[Základní vlastnosti pravděpodobnostní míry]
Pro výše jmenovaný pravděpodobnostní prostor platí následující tvrzení:
\begin{enumerate}
\item $P(\emptyset) = 0$,
\item Pro $A, B \in \mathcal{A}$ disjunktní platí $P(A\cup B) = P(A) + P(B)$.
\item Pro $A \in \mathcal{A}$ platí $P(A^C) = 1 - P(A)$,
\item Pro $A, B \in \mathcal{A}, A \subset B$ platí $P(A) \leq P(B)$.
\end{enumerate}
\end{observation}
\begin{proof}
\begin{enumerate}
\item Uvažujme posloupnost $A_1 = \Omega, A_2 = A_3 = \dots = \emptyset$. Potom z vlastnosti (ii) z definice máme, že $P(\Omega) = P(\Omega \cup \emptyset \cup \emptyset \dots) = P(\Omega) + \sum_{n=2}^\infty P(\emptyset)$. Tedy $\sum_{n=2}^\infty P(\emptyset) = 0$, což může nastat pouze v případě $P(\emptyset) = 0$ (jde o součet nekonečně mnoha nezáporných čísel).
\item Nechť $A_1 = A, A_2 = B, A_i = \emptyset$ pro $i > 2$. Tvrzení plyne přímo z vlastnosti (ii) z definice pravděpodobnostní míry a již dokázané vlastnosti 1.
\item $1 = P(\Omega) = P(A \cup A^C) = P(A) + P(A^C)$. Tato rovnost platí, neboť množina je vždy disjunktní se svým komplementem.
\item $P(B) = P(A \cup B\setminus A) = P(A) + P(B\setminus A)$. Jelikož funkce $P$ je nezáporná, snadno vidíme, že $P(B) \geq P(A)$.
\end{enumerate}
\end{proof}
\begin{lemma}[Pravděpodobnost sjednocení]
Pro libovolné $A, B \in \mathcal{A}$ platí $P(A \cup B) = P(A) + P(B) - P(A\cap B)$.
\end{lemma}
\begin{proof}
Rozepíšeme $A \cup B = (A \cap B^C) \cup (A \cap B) \cup (A^C \cap B)$. Tyto tři množiny jsou zřejmě po dvou disjunktní. Dále díky aditivitě pravděpodobnosti máme $P(A \cup B) = P(A\cap B^C) + P(A \cap B) + P(A^C\cap B) + P(A \cap B) - P(A \cap B) = P(A) + P(B) - P(A \cap B)$.
\end{proof}
\begin{theorem}[Spojitost pravděpodobnosti]
\label{thm-continuity}
Buď $A_n \uparrow A$ nebo $A_n \downarrow A$ pro $A_n, A \in \mathcal{A}$. Potom platí $P(A_n) \rightarrow P(A)$.
\end{theorem}
\begin{proof}
Nechť $A_n \uparrow A$. Potom z definice $A_1 \subset A_2 \dots$ a platí $A = \bigcup_{i=1}^\infty A_i$.
Definujme posloupnost $B_n$: $B_1 = A_1, B_n = A_n\setminus A_{n-1}$. Potom $B_i$ jsou po dvou disjunktní a platí $A_n = \bigcup_{i=1}^{n}B_i$. Zřejmě také platí $A \equiv \bigcup_{n=1}^\infty A_n = \bigcup_{n=1}^\infty B_n$. Pak $P(A_n) = P(\bigcup_{i=1}^n B_i) = \sum_{i=1}^n P(B_i)$. Z toho již můžeme odvodit $\lim_{n\rightarrow\infty} P(A_n) = \lim_{n\rightarrow\infty} \sum_{i=1}^n P(B_i) = \sum_{i=1}^\infty P(B_i) = P(\bigcup_{i=1}^{\infty} B_i) = P(A)$.
Případ klesající $A_n$ se dokáže analogicky, stačí uvažovat $C_n = A_n^C$.
\end{proof}
\hfill \textit{konec 1. přednášky (17.2.2025)} \newpage
Uvedeme si ještě jeden příklad ilustrující intuitivní chápání pravděpodobnosti a zavedeme první takzvané pravděpodobnostní rozdělení. Uvažujme případ, že prostor $\Omega$ je konečný. Nechť všechny výsledky jsou stejně pravděpodobné, pak platí
$$ P(A) = \frac{|A|}{|\Omega|}. $$
V tomto případě mluvíme o \textit{rovnoměrném rozdělení pravděpodobnosti}.
\begin{example}[Hod dvěma kostkami]
Výběrový prostor $\Omega = \{(i, j): i, j \in \{1\dots 6\}\}$$36$ prvků. Jestliže všechny výsledky jsou stejně pravděpodobné, pak platí $P(A) = \frac{|A|}{36}$. Například, pravděpodobnost toho, že součet na kostkách je přesně $11$, je $2/36$, protože pouze dva výsledky $(5, 6)$ a $(6, 5)$ odpovídají této události.
\end{example}
V praxi často chceme odlišit, zda pravděpodobnost výskytu jedné události nějakým způsobem závisí na výskytu jiné události. K tomu nám poslouží pojem nezávislosti jevů.
\begin{definition}
Dvě události $A, B \in \mathcal{A}$ jsou \textit{nezávislé}, jestliže platí $P(A\cap B) = P(A)P(B)$. Obdobně, množina událostí $\{A_i: i \in I\}$ (kde indexová množina $I$ je nejvýše spočetná) je nezávislá, jestliže platí
$$P\left(\bigcap_{j \in J} A_j\right) = \prod_{j\in J} P(A_j)$$ pro každou konečnou podmnožinu $J \subset I$.
\end{definition}
Je důležité si uvědomit, že disjunktní události s kladnou pravděpodobností nejsou nezávislé (neboť součin jejich pravděpodobností není roven $0$ -- pravděpodobnost výskytu jejich prázdného průniku). Obecně se pracuje se dvěma typy nezávislosti -- předpokládanou (plyne z podstaty zkoumané úlohy) a odvozenou (dokázaná pomocí jiných vlastností úlohy). Následující příklad ilustruje praktické použití právě zavedeného pojmu.
\begin{example}
Házíme férovou mincí 10krát. Nechť $A$ je událost ``padla aspoň jedna panna". Pak platí $P(A) = 1 - (1/2)^{10}$.
\end{example}
\begin{proof}
Nechť $T_j$ je událost, že při $j$-tém hodu padne orel. Můžeme psát $P(A) = 1 - P(A^C) = 1 - P(\text{samé orly}) = 1 - P(T_1 \cap \dots \cap T_{10})$. Dále díky nezávislosti (v tomto případě jde o nezávislost předpokládanou) jevů $T_j$ máme $1 - P(T_1 \cap \dots \cap T_{10}) = 1 - P(T_1)\cdots P(T_{10}) = 1 - (1/2)^{10} \approx 0.999$.
\end{proof}
Dalším silným nástrojem v teorii pravděpodobnosti je podmíněná pravděpodobnost, která nám poskytuje odpověď na otázku ``Pokud vím, že nastala událost $B$, jaká je pravděpodobnost události $A$?".
\begin{definition}
Mějme jevy $A, B \in \mathcal{A}$. Pokud $P(B) > 0$, pak \textit{podmíněná pravděpodobnost} $A$ za podmínky $B$ je definována vztahem $$P(A|B) = \frac{P(A\cap B)}{P(B)}.$$
\end{definition}
Poznamenejme si několik základních vlastností podmíněné pravděpodobnosti, jejichž důkaz snadno plyne z příslušných definic.
\begin{observation}[Vlastnosti podmíněné pravděpodobnosti]
\hfill
\begin{enumerate}[(i)]
\item Pro pevné $B \in \mathcal{A}, P(B) > 0$ je $P(\cdot|B)$ pravděpodobnostní míra.
\item Obecně platí $P(A|B) \neq P(B|A)$, platí totiž $P(A|B) = P(B|A) \frac{P(A)}{P(B)}$ (pokud obě strany rovnosti dávají smysl).
\item Události $A$ a $B$ jsou nezávislé právě tehdy, když $P(A|B) = P(A)$ (předpokládáme nenulovost $P(B)$).
\item $P(A\cap B) = P(A|B)P(B) = P(B|A)P(A)$ v případě, že $P(A)P(B) > 0$.
\end{enumerate}
\end{observation}
\begin{proof}
Vlastnosti (iii) a (iv) plynou přímo z definice vynásobením vhodnou konstantou.
Vlastnost (ii) se dokáže následujícím protipříkladem, uvažujme hod dvěma férovými mincemi. Nechť $H_1$ je událost ``padla aspoň jedna panna" a $H_2$ událost ``padly dvě panny". Potom $P(H_1|H_2) = 1$ ale $P(H_2|H_1) = \frac{1}{3}$. Důkaz obecného vztahu je ponechán čtenáři jako snadné (ale užitečné) cvičení.
Nakonec, vlastnost (i) je důsledkem toho, že pro libovolnou množinu $A \in \mathcal{A}$ je $A \cap B$ měřitelná, a navíc pro libovolný systém po dvou disjunktních množin $A_i, i \in \N $ platí $P(\bigcup_{i=1}^\infty A_i | B) = \frac{1}{P(B)} P\left(\left(\bigcup_{i=1}^\infty A_i\right) \cap B\right) = $\\
$\frac{1}{P(B)} P\left(\bigcup_{i=1}^\infty (A_i \cap B)\right) = \frac{1}{P(B)} \sum_{i=1}^\infty P(A_i \cap B) = \sum_{i=1}^\infty P(A_i|B)$.
\end{proof}
Použití podmíněné pravděpodobnosti v praxi však někdy může vést k neintuitivním výsledkům, které ilustruje následující příklad.
\begin{example}
Uvažujme nemoc $D$ a test, který má dva možné výsledky. Pravděpodobnosti výsledků tohoto testu jsou uvedeny v následující tabulce. Zde sloupce odpovídají přítomnosti/absenci nemoci a řádky výsledkům testu.
\begin{center}
\begin{tabular}{c|cc}
& $D$ & $D^C$ \\
\hline
$+$ & $0.009$ & $0.099$ \\
$-$ & $0.001$ & $0.891$ \\
\end{tabular}
\end{center}
Z definice spočteme následující podmíněné pravděpodobnosti:
$$P(+|D) = \frac{P(+ \cap D)}{P(D)} = \frac{0.009}{0.009 + 0.001} = 0.9.$$
$$P(-|D^C) = \frac{P(- \cap D^C)}{P(D^C)} = \frac{0.891}{0.891 + 0.099} \approx 0.9.$$
Vychází nám, že test je docela přesný, neboť nemocní lidé mají test v $90 \%$ případů pozitivní, stejně tak zdraví lidé jsou v $90\%$ případů negativní.
Dále předpokládejme, že pacient šel na test a získal pozitivní výsledek. Spočteme, s jakou pravděpodobností je opravdu nakažený.
$$P(D|+) = \frac{P(D \cap +)}{P(+)} = \frac{0.009}{0.009+0.099} \approx 0.08.$$
\end{example}
Vyšlo nám, že na první pohled zdánlivě precizní test ve skutečnosti má méně než $10\%$ úspěšnost. Jedním z důvodů této diskrepance může být například velký nepoměr zdravých lidí vůči nakaženým (pouze jedno procento) ve zdrojových datech, což je jev který se obecně vyskytuje u většiny nemocí. V praxi se proto často pracuje s domněnkami -- například testujeme jen pacienty, kteří vykazují nějaké symptomy apod.
Na závěr uvedeme dvě velmi užitečné věty, které se často používají v nejrůznějších úlohách a týkají se podmíněné pravděpodobnosti. Zformulujeme je pro spočetné rozklady, ale obdobná tvrzení platí i pro konečné rozklady s velmi podobným důkazem.
\begin{theorem}[Zákon úplné pravděpodobnosti]
\label{thm-complete-probability}
Nechť $A_1, A_2, \dots$ je spočetný disjunktní rozklad $\Omega$ takový, že $P(A_i) > 0$ pro každé $i \in \N $. Potom pro libovolnou událost $B \in \mathcal{A}$ platí:
$$P(B) = \sum_{i=1}^\infty P(B|A_i) P(A_i).$$
\end{theorem}
\begin{proof}
Definujme posloupnost množin $C_i = B \cap A_i$ pro $i\in \N $. Zjevně $\{C_i, i \in \N \}$ je disjunktní pokrytí $B$. Potom $P(B) = \sum_{i=1}^\infty P(C_i) = \sum_{i=1}^\infty P(B \cap A_i) = \sum_{i=1}^\infty P(B|A_i)P(A_i)$.
\end{proof}
\begin{theorem}[Bayes]
\label{thm-bayes}
Nechť $A_1, A_2, \dots$ je spočetný disjunktní rozklad $\Omega$ takový, že $P(A_i) > 0$ pro každé $i \in \N $. Mějme událost $B \in \mathcal{A}$ s nenulovou pravděpodobností. Potom platí:
$$P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{j=1}^\infty P(B|A_j)P(A_j)}.$$
\end{theorem}
\begin{proof}
Přímým výpočtem dostáváme
$$P(A_i|B) = \frac{P(A_i \cap B)}{P(B)} = \frac{P(B|A_i)P(A_i)}{P(B)} = \frac{P(B|A_i)P(A_i)}{\sum_{j=1}^\infty P(B|A_j) P(A_j)},$$
kde poslední rovnost získáme aplikací \textit{Věty \ref{thm-complete-probability}}.
\end{proof}
Použití Bayesovy věty si ukážeme na následujícím příkladu.
\begin{example}
Uvažujme e-mailovou schránku. Máme tři kategorie e-mailů: $A_1$ -- spam, $A_2$ -- nízká priorita, $A_3$ -- vysoká priorita. Na základě předchozích zkušeností víme, že $P(A_1) = 0.7$, $P(A_2) = 0.2$, $P(A_3) = 0.1$. Nechť $B$ je událost, že daný e-mail obsahuje slovo ``zdarma". Platí $P(B|A_1) = 0.9, P(B|A_2) = 0.01, P(B|A_3) = 0.01$\footnote{Tyto hodnoty se nutně nemusí sečíst na $1$}. Jaká je pravděpodobnost, že příchozí e-mail obsahující slovo ``zdarma" je spam?
Přímým výpočtem z Bayesovy věty získáme
$$P(A_1|B) = \frac{0.9 \cdot 0.7}{0.9 \cdot 0.7 + 0.01 \cdot 0.2 + 0.01 \cdot 0.1} = 0.995. $$
Tedy pravděpodobnost, že tento e-mail je spam je přes $99\%$!
\end{example}
\begin{theorem}[O postupném podmiňování]
Nechť $\{A_i\}_{i=1}^n$ jsou náhodné jevy takové, že $P(\bigcap_{i=1}^n) > 0$. Pak platí
$$ P(\bigcap_{i=1}^n A_i ) = P(A_n | \bigcap_{i=1}^{n-1}) \cdot P(A_2|A_1) \cdot P(A_1). $$
\end{theorem}
\begin{proof}
Dokazujeme indukcí podle počtu náhodných jevů. Z definice podmíněné pravděpodobnosti víme, že $P(A_2 \cap A_1) = P(A_2 | A_1) P(A_1)$. Dále
$$P\left(\bigcap_{i=1}^n\right) = P\left(A_n \cap \left(\bigcap_{i=1}^{n-1} A_i\right)\right) = P\left(A_n | \bigcap_{i=1}^{n-1} A_i\right) P\left(\bigcap_{i=1}^{n-1}\right),$$
čímž je důkaz ukončen.
\end{proof}