Xác suất cơ bản -- A quick tutorial on probability

Trong bài này mình sẽ giới thiệu những kiến thức cơ bản về xác suất. Do xác suất là một lĩnh vực rất rộng, rất khó để viết toàn bộ những kiến thức cở bản trong một bài viết. Do đó, mình chỉ chọn ra những phần nhất định để trình bày. Những phần này sẽ được áp dụng trong những bài viết sau về phân tích thuật toán ngẫu nhiên.

Sự kiện và xác suất

Trước hết chúng ta định nghĩa những khái niệm cơ bản nhất về không gian xác suất:

Definition 1: Một không gian xác suất bao gồm 3 thành phần:

  1. Một không gian mẫu $\Omega$: là một tập các kết quả có thể của một quá trình ngẫu nhiên được mô hình hóa bởi không gian xác đó.
  2. Sự kiện: mỗi sự kiện có thể được coi là một tập con của $\Omega$. Tập các sự kiện được kí hiệu là $\mathcal{F}$.
  3. Một hàm xác suất: $\mathrm{Pr}: \mathcal{F} \rightarrow \mathbb{R}$ thỏa mã những điều kiện sau:
    1. Với mỗi sự kiện $E$, $0 \leq \mathrm{Pr}[E] \leq 1$;
    2. $\mathrm{Pr}[\Omega] = 1$;
    3. Với mỗi tập hữu hạn hoặc đếm được các sự kiện $E_1,E_2,\ldots,$ đôi một không giao nhau

      $\mathrm{Pr}[\cup_{i\geq 1}E_i] = \sum_{i \geq 1}\mathrm{Pr}[E_i]$

 

Dựa vào định nghĩa 1, ta có bổ đề sau:

Lemma 1: Cho hai sự kiện $E_1,E_2$ bất kì:

$\mathrm{Pr}[E_1\cup E_2] = \mathrm{Pr}[E_1] + \mathrm{Pr}[E_2] - \mathrm{Pr}[E_1 \cap E_2]$

 
Chứng minh: dựa vào định nghĩa của hàm xác suất $\mathrm{Pr}$, ta có:

$\begin{array} {lcl}\mathrm{Pr}[E_1] & = & \mathrm{Pr}[E_1 - (E_1 \cap E_2)] + \mathrm{Pr}[E_1\cap E_2] \\ \mathrm{Pr}[E_2] & = & \mathrm{Pr}[E_2 - (E_1 \cap E_2)] + \mathrm{Pr}[E_1\cap E_2] \\ \mathrm{Pr}[E_1 \cup E_2] & = & \mathrm{Pr}[E_1 - (E_1 \cap E_2)] + \mathrm{Pr}[E_2 - (E_1 \cap E_2)] + \mathrm{Pr}[E_1\cap E_2]\end{array}$

Từ đó, suy ra định lý 1.


Từ định lý 1, ta dễ dàng chứng minh được định lý sau bằng quy nạp.

Lemma 2: Cho một tập hữu hạn hoặc đếm được các sự kiện $E_1,E_2,\ldots,$ bất kì:

$\mathrm{Pr}[\cup_{i\geq 1}E_i] \leq \sum_{i\geq 1} \mathrm{Pr}[E_i] $

 

Định lý 1 còn được mở rộng ra trong trường hợp hữu hạn các sự kiện $E_1, E_2,\ldots, E_n$ gọi là nguyên lý bù trừ (inclusion-exclusion principle)

Lemma 3: Cho một tập $n$ sự kiện $E_1,E_2,\ldots,E_n$ bất kì:

$\begin{array} {lcl} \mathrm{Pr}[\cup_{i\geq 1}E_i] & = & \sum_{i\geq 1} \mathrm{Pr}[E_i] - \sum_{i < j}\mathrm{Pr}[E_i \cap E_j] \\ & + & \sum_{i < j < k}\mathrm{Pr}[E_1 \cap E_j \cap E_k] \\ & - & \ldots + (-1)^{\ell+1}\sum_{i_1 < i_2 < \ldots < i_\ell} \mathrm{Pr}[\cap_{r=1}^\ell E_{i_r}]\end{array}$

 

Definition 2: Hai sự kiện $E_1, E_2$ được gọi là độc lập nếu:

$\mathrm{Pr}[E_1 \cap E_2] = \mathrm{Pr}[E_1]\cdot \mathrm{Pr}[E_2]$

Tương tự như vậy, các sự kiện $E_1,E_2,\ldots, E_n$ được gọi là độc lập nếu:

$\mathrm{Pr}[\cap_{i=1}^nE_i] = \Pi_{i=1}^n\mathrm{Pr}[E_i]$

 

Definition 3: Xác xuất có điều kiện của một sự kiện $E$ khi biết sự kiện $F$ xảy ra là:

$\mathrm{Pr}[E | F] = \frac{\mathrm{Pr}[E \cap F]}{\mathrm{Pr}[F]}$

 
Một luật rất quan trọng để tính xác suất là luật tổng xác suất.:

Theorem 1 (Law of total probability): Gọi $E_1,E_2, \ldots, E_n$ là các sự kiện đôi một không giao nhau trong một không gian mẫu $\Omega$ thỏa mãn $\cup_{i=1}^n E_i = \Omega$, ta có:

$\mathrm{Pr}[B] = \sum_{i=1}^n \mathrm{Pr}[B\cap E_i]=\sum_{i=1}^n \mathrm{Pr}[B | E_i]\mathrm{Pr}[E_i]$

 
Chứng minh: Do các sự kiện $B \cap E_i, 1 \leq i \leq n$ là đôi một không giao nhau, áp dụng tính chất của hàm xác suất ta có:

$\mathrm{Pr}[B] = \sum_{i=1}^n \mathrm{Pr}[B\cap E_i]$

Đẳng thức sau được rút ra từ định nghĩa của xác suất có điều kiện.


Định lý cuối cùng vô cùng quan trọng mình muốn nói đến đó là công thức Bayes:

Theorem 2 (Bayes'Law): Gọi $E_1,E_2, \ldots, E_n$ là các sự kiện đôi một không giao nhau trong một không gian mẫu $\Omega$ thỏa mãn $\cup_{i=1}^n E_i = \Omega$, ta có:

$\mathrm{Pr}[E_j | B] = \frac{\mathrm{Pr}[E_j \cap B]}{\mathrm{Pr}[B]} = \frac{\mathrm{Pr}[B | E_j]\cdot \mathrm{Pr}[E_j]}{\sum_{i=1}^n \mathrm{Pr}[B | E_i]\mathrm{Pr}[E_i]}$

 
Ta có thể dễ dàng chứng minh công thức Bayes dựa vào luật tổng xác suất.

Ví dụ: Bài toán Monty Hall là một bài toán nối tiếng minh họa việc áp dụng công thức Bayes. Bài toán như sau:

Giả sử trong một trò chơi có 3 cánh cửa, đằng sau một trong 3 cánh của đó là một chiệc xe ô tô và đằng sau hai cánh cửa còn lại là hai con dê. Bạn chỉ được phép mở cánh cửa một lần và phần thưởng cuả bạn là thứ đằng sau cánh cửa đó (tất nhiên là bạn muốn ô tô). Giả sử bạn đã chọn một cánh cửa (nhưng chưa mở), giả sử cánh cửa 1, ban tổ chức trò chơi đó sẽ mở một cánh cửa có con dê, giả sử cánh cửa 2, trong hai cánh cửa còn lại. Bây giờ trước khi bạn quyết định mở, ban tổ chức cho phép bạn đổi cánh cửa 1 và 3. Câu hỏi là bạn có đổi hay không, giả sử xác suất mỗi cánh cửa có ô tô là như nhau và bằng $1/3$?

Phần lớn mọi người khi lần đầu tiên gặp bài toán này sẽ cho rằng đổi hay không cũng không quan trọng vì xác xuất ô tô ở trong cánh cửa 1 và 3 đều bằng nhau và bằng $1/2$ khi bạn đã biết cánh cửa 2 không có ô tô. Ngay cả nhà toán học nổi tiếng Paul Erdős lúc đầu cũng không tin là bạn nên đổi; ông chỉ tin bạn nên đổi sau khi ông đã thử nghiệm giả lập với máy tính.

Vậy tại sao bạn nên đổi. Về mặt trực quan, lý do như sau: ban đầu bạn chọn cánh cửa 1, xác suất ô tô nằm trong cánh cửa 1 là $1/3$. Suy ra nếu bạn không đổi thì xác suất bạn có được ô tô là $1/3$. Còn nếu bạn đổi, xác suất bạn có được ô tô sẽ là $1 - 1/3 = 2/3$. Rõ ràng là bạn nên đổi. Bây giờ chúng ta áp dụng công thức Bayes vào bài toán này:

Gọi $A_1,A_2,A_3$ là xác suất ô tô ở sau cánh cửa $1,2,3$. Gọi $X_1$ là sự kiện người chơi chọn cánh cửa 1 và $H_2$ là sự kiện ban tổ chức mở cánh cửa 2. Như vậy sự kiện ô tô ở cánh cửa thứ 3 là $A_3 | H_2, X_1$. Do đó xác suất ô tô ở trong cánh cửa thứ 3 là $\mathrm{Pr}[A_3 | H_2, X_1]$. Ta có:

$\begin{array} {lcl} \mathrm{P}[H_2 | A_1,X_1] & = & 1/2 \\ \mathrm{P}[H_2 | A_2,X_1] & = & 0 \\ \mathrm{P}[H_2 | A_3,X_1] & = & 1 \end{array}$

Chú ý $A_i$ độc lập với $X_1$ với mọi $i = 1,2,3$, do đó $\mathrm{P}[A_i | X_1] = \mathrm{P}[A_i] = 1/3$. Áp dụng công thức Bayes ta có:

$\begin{array} {lcl} \mathrm{P}[A_3 | H_2,X_1] & = & \frac{\mathrm{P}[H_2 | A_3,X_1]\cdot \mathrm{P}[A_3 | X_1]}{\sum_{i=1}^3 \mathrm{P}[H_2 | A_i,X_1]\cdot \mathrm{P}[A_i |X_1]} = \frac{1\cdot 1/3}{1\cdot 1/3+ 1/2 \cdot 1/3 + 0 \cdot 1/3} = \frac{2}{3}\end{array}$

Biến ngẫu nhiên rời rạc

Trong ứng dụng của xác suất trong phân tích thuật toán ngẫu nhiên, chúng ta chủ yếu (nhưng không phải tất cả) bắt gặp biến ngẫu nhiên rời rạc.

Definition 4: Một biến ngẫu nhiên $X$ trên một không gian mẫu $\Omega$ là một hàm thực trên $\Omega$; $X : \Omega \rightarrow \mathbb{R}$. Biến ngẫu nhiên $X$ được goị là rời rạc nếu biến đó chỉ nhận một số hữu hạn hoặc đếm được các giá trị.

 

Cụ thể trong định nghĩa trên, với một biến ngẫu nhiên $X$ và một giá trị $a \in \mathbb{R}$, sự kiện "$X = a$" là tập hợp $\{s \in \Omega | X(s) = a\}$, và xác suất của sự kiện này được kí hiệu là $\mathrm{Pr}[X = a]$ và bằng:

$\mathrm{Pr}[X = a] = \sum_{s \in \Omega: X(s) = a} \mathrm{Pr}[s]$

Ví dụ: Gọi $X$ là biến ngẫu nhiên biểu diễn tổng của hai con xúc xắc 6 mặt. Ở đây $\Omega = \{(a,b) | 1\leq a \leq 6, 1 \leq b \leq 6\}$ và:

$\begin{array} {lcl} X: \Omega & \rightarrow & \mathbb{R} \\ (a,b) & \mapsto & a+b \end{array}$

Như vậy, sự kiện $X = 3$ sẽ tương đương với tập hợp $\{(1,2), (2,1)\}$ và có xác suất là:

$\mathrm{Pr}[X = 4] = \frac{2}{36} = \frac{1}{18}$

Tương tự như các sự kiện, ở đây chúng ta cũng có khái niệm các biến ngẫu nhiên độc lập.

Definition 5: Hai biến ngẫu nhiên được gọi là độc lập khi và chỉ khi

$\mathrm{Pr}[(X = x) \cap (Y = y)] = \mathrm{Pr}[X=x]\cdot \mathrm{Pr}[Y = y]$

Tương tự như vậy, các biến ngẫu nhiên $X_1,X_2,\ldots, X_k$ được gọi là độc lập với nhau khi và chỉ khi với mọi tập con $I \subseteq [1,k]$ và mọi giá trị $x_i, i \in I$, ta có:

$\mathrm{Pr}[\cap_{i \in I}X_i = x_i] = \Pi_{i\in I}\mathrm{Pr}[X_i = x_i]$

 

Definition 6: Kì vọng của một biến ngẫu nhiên $X$, kí hiệu là $E[X]$ được định nghĩa như sau:

$E[X] = \sum_{i}i\cdot \mathrm{Pr}[X = i]$

 
Với ví dụ biến ngẫu nhiên $X$ là tổng của hai con xúc xắc 6 mặt được định nghĩa trong ví dụ trên, kì vọng của $X$:

$E[X] = 2\cdot \frac{1}{36} + 3\cdot \frac{2}{36} + 4\cdot \frac{3}{36} + \ldots + 12\cdot \frac{1}{36} = 7$

Một tính chất vô cùng quan trong đó là tính tuyến tính của kì vọng. Tính chất này chúng ta sẽ sử dụng trong gần như tất cả các phân tích xác suất.

Theorem 3 (Linearity of Expectation): Gọi $X_1,X_2, \ldots, X_n$ là một tập hữu hạn các biến ngẫu nhiên rời rạc với kì vọng hữu hạn, ta có:

$E[\sum_{i=1}^n X_i] = \sum_{i=1}^n E[X_i]$

 
Chứng minh: Ta chỉ cần chứng minh trong trường hợp hai biến ngẫu nhiên và sau đó quy nạp để chứng minh định lý. Gọi hai biến ngẫu nhiên là $X$ và $Y$ với kì vọng tương ứng $E[X], E[Y]$. Theo định nghĩa, ta có:

$\begin{array} {lcl} E[X + Y] & =& \sum_{i}\sum_{j}(i+i)\mathrm{Pr}[(X = i) \cap (Y = j)] \\ & = & \sum_i \sum_j i\cdot \mathrm{Pr}[(X = i) \cap (Y = j)] + \sum_i \sum_j j\cdot \mathrm{Pr}[(X = i) \cap (Y = j)] \\ & = & \sum_i i \sum_j \mathrm{Pr}[(X = i) \cap (Y = j)] + \sum_j j \sum_i \mathrm{Pr}[(X = i) \cap (Y = j)] \\ & = & \sum_i i \mathrm{Pr}[X = i] + \sum_j j \mathrm{Pr}[Y = j] \\ & = & E[X] + E[y] \end{array}$


Điểm mạnh của định lý 3 chính là đẳng thức đúng trong cả trường hợp các biến ngẫu nhiên $X_1,X_2,\ldots, X_n$ phụ thuộc. Tương tự như định lý 3, ta có thể chứng minh:

Lemma 4: Với mọi hằng số $c \in \mathbb{R}$ và biến ngẫu nhiên $X$, ta có:

$E[cX] = cE[X]$

 

Tương tự như xác suất có điều kiện, ta có thể định nghĩa kì vọng có điều kiện.

Definition 7: Kì vọng có điều của biến ngẫu nhiên $Y$ khi biết giá trị của biến ngẫu nhiên $Z = z$ được định nghĩa như sau:

$E[Y | Z = z] = \sum_y y\cdot\mathrm{Pr}[Y = y | Z = z]$

 
Dựa vào định nghĩa ta cũng có thể chứng minh được tính tuyến tính của kì vọng:

Lemma 5 (Linearity of Expectation): Gọi $X_1,X_2, \ldots, X_n$ là một tập hữu hạn các biến ngẫu nhiên rời rạc với kì vọng hữu hạn và một biến ngẫu nhiên $Y$, ta có:

$E[\sum_{i=1}^n X_i | Y = y] = \sum_{i=1}^n E[X_i | Y = y]$

 
Với mỗi $Z = z$, kì vọng $E[Y | Z = z]$ phụ thuộc vào $z$. Do đó ta có thể coi kì vọng $E[Y | Z = z]$ như là một biến ngẫu nhiên $f(Z)$, $f(Z = z) = E[Y | Z = z]$. Do đó ta có thể định nghĩa kì vọng cho biến ngẫu nhiên đó. Định lý sau có thể được chứng minh trực tiếp dựa vào định nghĩa:

Theorem 4:

$E[E[Y|Z]] = E[Y]$

 

Một hàm $f: \mathbb{R} \rightarrow \mathbb{R}$ được gọi là lồi nếu với mọi $x_1,x_2$ và $0 \leq \lambda \leq 1$, ta có:

$f(\lambda x_1 + (1 - \lambda)x_2) \leq \lambda f(x_1) + (1-\lambda) f(x_2)$

Định nghĩa này rộng hơn định nghĩa trong giải tích mà chúng ta đã biết: nếu một hàm $f(x)$ có đạo hàm cấp 2 $f''(x) \geq 0$ với mọi $x$ thì $f(x)$ là hàm lồi. Ta có bất đẳng thức Jensen cho hàm lồi:

Theorem 5 (Jensen's Inequality): Nếu $f$ là một hàm lồi, ta có:

$E[f(X)] \geq f(E[X])$

 
Trong trường hợp $f(x)$ có đạo hàm cấp 2, bất đẳng thức này có thể được chứng minh bằng khai triển Taylor và áp dụng tính tuyến tính của kì vọng. Mình bỏ qua chứng minh (bạn đọc có thể xem trong [1]).

Một hệ qủa của định lý trên đó là:

Lemma 6:

$E[X^2] \geq (E[X])^2$

 

Phương sai (covariance) của một biến ngẫu nhiên là một đại lượng đặc trưng cho sự dao động của biến ngẫu nhiên xung quanh giá trị kì vọng và được định nghĩa như sau:

Definition 8: Phương sai của một biến ngẫu nhiên $X$ với kì vọng $E[X]$

$\mathrm{Var}[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2$

 

Từ bổ đề 6 có thể thấy $\mathrm{Var}[X] \geq 0$ với mọi biến ngẫu nhiên $X$.

Ứng dụng: bài toán người thu thập coupon

Ta xét một ứng dụng của phân tích xác suất trong bài toán người sưu tập Coupon (Coupon Collector Problem). Bài toán này cũng được giới thiệu ở đây với cái tên Bài toán Mai Siêu Phong.

Problem 1: Giả sử mỗi hộp bánh có một coupon trong số $n$ loại coupon khác nhau. Nếu bạn thu thập được tất cả $n$ coupon thì bạn sẽ được trúng một giải thưởng rất lớn. Giả sử các coupon được cho vào mỗi hộp kẹo một cách ngẫu nhiên và đồng nhất, và bạn không được phép hợp tác cùng với người khác để thu thập coupon. Bạn cần mua bao nhiêu hộp kẹo (theo nghĩa kì vọng) để có thể thu thập được mỗi loại ít nhất một coupon.

 

Gọi $X$ là số lượng coupon cần mua để thu được ít nhất một coupon trong mỗi loại và gọi $X_i$ là số lượng coupon cần phải mua khi bạn đã thu thập được $i-1$ loại coupon khác nhau. Theo tính tuyến tính của kì vọng, ta có:

$E[X] = \sum_{i=1}^n X_i$

Bây giờ ta sẽ tính kì vọng của $X_i$ với mỗi $i$. Do bạn đã thu tập được $i-1$ loại khác nhau, xác suất khi bạn mua một hộp kẹo có coupon loại mới là

$p_i = 1 - \frac{i-1}{n}$

Ở đây ta cần phải hiểu rõ ý nghĩa của $X_i$. Nếu $X_i = k$ có nghĩa là $k-1$ hộp kẹo đầu tiên bạn mua không có coupon nào mới cả và hộp kẹo thứ $k$ có môt coupon loại mới. Do đó,

$\mathrm{Pr}[X_i = k] = (1-p_i)^{k-1}p_i$

Do đó $X_i$ tuân theo phân phối hình học với tham số $p = p_i$. Ta có:

$E[X_i] = \frac{1}{p_i} = \frac{n}{n-i+1}$

Do đó, ta có:

$E[X] = \sum_{i=1}^n \frac{n}{n-i+1} = n \sum_{i=1}^n \frac{1}{n-i+1} = n \sum_{i=1}^n \frac{1}{i} = nH(n) $

Trong đó $H(n) = \sum_{i=1}^n \frac{1}{n}$ là số đồng điều thứ $n$. Về mặt tiệm cận $H(n) = \theta(\log n)$, hay chính xác hơn, $\ln n \leq H(n) \leq \ln(n)+1$.

Biến ngẫu nhiên 0/1

Trong phân tích thuật toán, biến ngẫu nhiên 0/1 (indicator random variable) rất hay được sự dụng như một phương pháp để chuyển đổi giữa kì vọng và xác suất. Như cái tên của nó, biến ngẫu nhiên 0/1 chỉ nhận hai giá trị 0 và 1.

Definition 9: Một biến ngẫu nhiên 0/1 $X_A$ của một sự kiện $A$ được định nghĩa như sau:

$X_A = \begin{cases} 1, & \mbox{if }A \mbox{ occurs} \\ 0, & \mbox{if } A\mbox{ does not occur} \end{cases}$

 
Dựa vào định nghĩa, ta dễ dàng chứng minh định lý sau:

Lemma 7: Gọi $X_A$ là biến ngẫu nhiên 0/1 của sự kiện $A$ với $\mathrm{Pr}[X_A = 1] = 1$, ta có:

$E[X_A] = p \qquad \mathrm{Var[X]} = p(1-p)$

 

Một tính chất quan trọng của biến ngẫu nhiên 0/1 mà ta thường hay sử dụng trong các phân tích xác suất là:

Lemma 8: Gọi $X$ là biến ngẫu nhiên 0/1, ta có:

$E[X^2] = E[X]$

 
Chứng minh: $E[X^2] = 1^2 p + 0^2(1-p) = p = E[X]$, trong đó $p$ là xác suất $X = 1$.

Tham khảo

[1] Mitzenmacher, Michael, and Eli Upfal. Probability and computing: Randomized algorithms and probabilistic analysis. Cambridge University Press, 2005.
[2] Cormen, Thomas H.; Leiserson, Charles E., Rivest, Ronald L., Stein, Clifford. Introduction to Algorithms (2nd ed.). MIT Press and McGraw-Hill (2001). ISBN 0-262-03293-7.

Facebook Comments

Tags: , ,

  1. Tuan Nguyen’s avatar

    Bài toán Monty Hall thật thú vị nhưng em vẫn không tin kết quả :))). Nhưng theo kết quả của bài toán này em nghĩ có chiến thuật tốt hơn nếu người chơi chương trình "Ai là triệu phú" khi sử dụng quyền trợ giúp 50-50 như sau:
    - Người chơi chọn trước trong đầu 1 đáp án, chẳng hạn A
    - Sau đó sử dụng quyền trợ giúp 50-50 nếu đáp án A bị loại, thì xác suất người chơi chọn đúng là 1/2 (như cách chơi bình thường). Còn nếu A không bị loại, người chơi chọn đáp án còn lại thì xác suất người chơi trả lời đúng là 3/4.
    Xác suất A bị loại là 1/2, vậy thì với chiến thuật này người chơi có thể trả lời đúng chi sử dụng quyền trợ giúp 50-50 là: 1/2 * 1/2 + 1/2 * 3/4 = 0.625 > 0.5 (cách chơi bình thường)

    Reply

    1. Tuan Nguyen’s avatar

      Oh, ý tưởng của em sai rồi, sau khi simulation thì hóa ra với chiến thuật như vậy thì xác suất đúng cũng chỉ là 50%.

      Reply

Reply

Your email address will not be published. Required fields are marked *