Tóm tắt lý thuyết Giả sử ta chưa biết phân phối xác suất của một đại lượng ngẫu nhiên X, cần kiểm định giả thiết: H0: X có phân phối xác suất nào đó đã cho; (Chú ý: Bảng phân phối xác suất của đại lượng ngẫu nhiên rời rạc cũng là phân phối xác suất của đại lượng ngẫu nhiên) H1: X không có phân phối xác suất như giả thiết H0; Ký hiệu: Pi = P(X = Xi) hoặc \({P_i} = P({x_i} \le X \le {x_{i + 1}})\,\,\,(i = \overline {1,k} )\) Thực hiện n phép thử độc lập đối với đại lượng ngẫu nhiên X. Tần số lý thuyết của biến cố (X = xi) sẽ là n.Pi, tần số thực tế là ni. Hiệu (ni - nPi)2 có thể dùng làm cơ sở để xét xem phân phối của X có phải như giả thiết H0 đã nêu ra hay không. K. Pearson đã chọn thống kê: \({\chi ^2} = \sum\limits_{i = 1}^k {\frac{{{{\left( {{n_i} - n{P_i}} \right)}^2}}}{{n{P_i}}}} \) làm tiêu chuẩn kiểm định. Với n khá lớn có thể coi \({\chi ^2}\) có phân phối “Chi bình phương” với (k- r -1) bậc tự do. Trong đó r là số cắc tham số chưa biết đối với phân phối xác suất của X theo H0. (các tham số này phải được ước lượng bằng phương pháp hợp lý cực đại). Miền bác bỏ giả thiết H0 với mức ý nghĩa \(\alpha\) là: \({{\rm{W}}_\alpha } = \left\{ {{\chi ^2}:{\chi ^2} > \chi _\alpha ^2} \right\}\) Trong đó \({\chi _\alpha ^2}\) là giá trị của đại lượng ngẫu nhiên \({{\chi ^2}}\) với (k- r -1) bậc tự do thoả mãn điều kiện: \(P\left( {{\chi ^2} > \chi _\alpha ^2} \right) = \alpha \) Ta có thể minh họa miền bác bỏ wa như sau: Từ đó ta có qui tắc kiểm định sau: Qui tắc quyết định: Lấy mẫu kích thước n, từ mẫu này ta có được các giá trị quan sát Xi (i =1, 2,..., k) hoặc các khoảng số (xi; xi+1). Theo giả thiết H0, ta tính \(P_i=P(X=x_i)\) hoặc \(P_i=P(x_i. Từ đó ta tính: \({\chi ^2} = \sum\limits_{i = 1}^k {\frac{{{{({n_i} - n{P_i})}^2}}}{{n{P_i}}}} \) [ni là tần số thực tế của Xi hoặc của khoảng (Xi; Xi+1)] Với mức ý nghĩa \(\alpha\), tra bảng phân phối “chi -bình phương” (bậc tự do k-r -1) để tìm giá trị \(\chi _\alpha ^2\) (r là số các tham số chưa biết của phân phối xác suất theo giả thiết H0) Nếu \({\chi ^2} > \chi _\alpha ^2\) thì bác bỏ H0, thừa nhận H1 Nếu \({\chi ^2} \le \chi _\alpha ^2\) thì có thể chấp nhận H0. Từ việc chấp nhận (hay bác bỏ H0) ta suy ra kết luận cuối cùng mà bài toán thực tế đòi hỏi. Thí dụ: Đo chiều cao của một loại cây trồng có cùng độ tuổi ta thu được bảng số liệu sau: Chiều cao (cm) xi - xi+1Số cây có chiều cao tương ứng (ni)0-3 3-6 6-9 9-12 12-15 15-18 18-21 21-24 24-27 27-301 3 4 6 11 10 7 5 2 1 Với mức ý nghĩa \(\alpha=0,05\), có thể coi chiều cao của loại cây này là đại lượng ngẫu nhiên có phân phối chuẩn hay không ? Giải: Gọi X là chiều cao của loại cây này. Đặt giả thiết: H0 : X có phân phối chuẩn H1: X không có phân phối chuẩn. Ước lượng hợp lý cực đại của E(X) là \(\overline X \); Ước lượng hợp lý cực đại của Var(X)là: \(\widehat {{S^2}} = \frac{1}{2}{\sum\limits_{i = 1}^n {\left( {{X_i} - \overline X } \right)} ^2}\) Từ số liệu đã cho ở bảng trên ta tính được: \(\overline x = 15;\,\,\widehat {{s^2}} = \frac{1}{n}\left[ {\sum\limits_{i = 1}^k {{n_i}x_i^2 - n{{\left( {\overline x } \right)}^2}} } \right] = 34,65\) Nếu H0 đúng thì ta có thể áp dụng công thức tính xác suất đối với đại lượng ngẫu nhiên có phân phối chuẩn với: E(X) được ước lượng bằng \(\overline x = 15\) \(\sigma (X)\) được ước lượng bằng: \({\mkern 1mu} \widehat s = \sqrt {\frac{1}{n}\left[ {\sum\limits_{i = 1}^k {{n_i}x_i^2 - n{{\left( {\bar x} \right)}^2}} } \right]} = \sqrt {34,65} = 5,8864 \approx 5,9\) Vậy: \({P_i} = {\rm{ }}P\left( {{x_i} < X < {x_{i + 1}}} \right) = NORMDIST\left( {{x_i} + 1,15,5.9,1} \right) - NORMDIST\left( {{x_i},15,5.9,1} \right)\) Chú ý: Đối với khoảng thứ nhất (X1, X2) ta mở rộng thành \(\left( { - \infty ;{x_2}} \right)\) và khoảng cuối (Xk, Xk+i) mở rộng thành \(\left( {{x_k}; + \infty } \right)\) để cho hợp của k khoảng này lấp kín trục số thực. Cụ thể là: khoảng thứ nhất (0; 3) được mở rộng thành \(\left( { - \infty ;3} \right)\). Vì thế khi tính xác suất để X nhận giá trị trong khoảng này ta tính như sau: \({P_1} = P\left( { - \infty \le X \le 3} \right) = NORMDIST\left( {3,15,5.9,1} \right){\rm{ }} = {\rm{ }}0,020981\) \({P_2} = P\left( {3 \le X \le 6} \right) = NORMDIST(6,15,5.9,1) - NORMDIST(3,15,5.9,1){\rm{ }} = {\rm{ }}0,042596\) .... \({P_9} = P\left( {24 \le X \le 27} \right) = NORMDIST\left( {27,15,5.9,1} \right) - NORMDIST\left( {24,15,5.9,1} \right){\rm{ }} = {\rm{ }}0,042596\) \({P_{10}} = P\left( {27 < X < \infty } \right) = 1 - NORMDIST\left( {27,15,5.9,1} \right) = 0,020981\) Các kết quả tính toán có thể trĩnh bày dưới dạng bảng như sau: xi - xi+1niPinPi(ni - nPi)2/nPi\( - \infty \) - 3 3 - 6 6 - 9 9 - 12 12-15 15-18 18-21 21-24 24-27 27- \(+ \infty \)1 3 4 6 11 10 7 5 2 10,020981 0,042596 0,091012 0,150971 0,19444 0,19444 0,150971 0,091012 0,042596 0,0209811,049043 2,129794 4,550604 7,548572 9,721986 9,721986 7,548572 4,550604 2,129794 1,0490430,002293 0,355555 0,066621 0,317686 0,168003 0,00795 0,039866 0,04438 0,00791 0,002293Tổngn = 501,012556 Với mức ý nghĩa \(\alpha=0,05\) , tra bảng \({\chi ^2}\) với bậc tự do: \(k-r-1 = 10-2-1 = 7\), ta được: \(\chi _{0,05}^2 = 14,06713\) Ta thấy \({\chi ^2} = 1,012556 < 14,06713\) nên ta chấp nhận giả thiết H0, tức có thể coi X là đại lượng ngẫu nhiên có phân phối chuẩn.