Bài 4. Các số đặc trưng đo mức độ phân tán của mẫu số liệu

Chương 6. Thống kê

1. Khoảng biến thiên và khoảng tứ phân vị

Sắp xếp mẫu số liệu thêm thứ tự không giảm, ta được:

x1 ≤ x2 ≤ … ≤ xn.

• Khoảng biến thiên của một mẫu số liệu. kí hiệu là R, là hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó:

R = xn - x1.

• Khoảng tứ phân vị, kí hiệu là Q, là hiệu giữa Q3 và Q1:

Q = Q3 - Q1.

Ý nghĩa:

• Khoảng biến thiên đặc trưng cho độ phân tán của toàn bộ mẫu số liệu.

• Khoảng tứ phân vị đặc trưng cho độ phân tán của một nửa các số số liệu, có giá trị thuộc đoạn từ Q1 đến Q3 trong mẫu.

Khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị rất lớn hoặc rất bé trong mẫu.

Giá trị ngoại lệ

Khoảng tứ phân vị được dùng để xác định các giá trị ngoại lệ trong mẫu, đó là các giá trị quá nhỏ hay quá lớn so với đa số các giá trị của mẫu. Cụ thể, phần tử x trong mẫu là giá trị ngoại lệ nếu:

x > Q3 + 1,5∆Q hoặc x < Q1 - 1,5∆Q.

• Sự xuất hiện của các giá trị ngoại lệ làm cho số trung bìnhphạm vi của mẫu (khoảng biến thiên) thay đổi lớn. Do đó, khi mẫu có giá trị ngoại lệ, người ta thường sử dụng trung vịkhoảng tứ phân vị để đo mức độ tập trungmức độ phân tán của đa số các phần tử trong mẫu số liệu.

Ví dụ

1) Hãy tìm khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu: 10; 13; 15; 2; 10; 19; 2; 5; 7.

Giải

Sắp xếp mẫu số liệu theo thứ tự không giảm, ta được:

2; 2; 5; 7; 10; 10; 13; 15; 19.

• Khoảng biến thiên của mẫu số liệu là: R = 19 – 2 = 17.

• Cỡ mẫu n = 9 (số lẻ) nên Qlà số liệu thứ 5 của dãy, Q= Me = 10.

+ Q1 là trung vị của mẫu: 2; 2; 5; 7. Do đó Q1 = $\frac{1}{2}$.(2 + 5) = 3,5.

+ Q3 là trung vị của mẫu: 10; 13; 15; 19. Do đó Q3 = $\frac{1}{2}$.(13 + 15) = 14.

Vậy khoảng tứ phân vị của mẫu là: ∆Q = 14 – 3,5 = 10,5.

 

2) Hãy tìm giá trị ngoại lệ của mẫu số liệu: 37; 12; 3; 9; 10; 9; 12; 3; 10.

Giải

Sắp xếp các số liệu theo thứ tự không giảm, ta được:

3; 3; 9; 9; 10; 10; 12; 12; 37.

Cỡ mẫu n = 9 (số lẻ) nên:

Q1 là trung vị của mẫu: 3; 3; 9; 9. Do đó Q1 = $\frac{1}{2}$.(3 + 9) = 6.

Q3 là trung vị của mẫu: 10; 12; 12; 37. Do đó Q3 = $\frac{1}{2}$.(12 + 12) = 12.

Do đó, khoảng tứ phân vị của mẫu là: ∆Q = 12 – 6 = 6.

Ta có: Q3 + 1,5∆Q = 12 + 1,5.6 = 21 và Q1 – 1,5∆Q = 6 – 1,5.6 = -3.

Quan sát mẫu, ta thấy số liệu 37 > 21 nên mẫu có một giá trị ngoại lệ là 37.

2. Phương sai và độ lệch chuẩn

♦ Giả sử ta có một mẫu số liệu là x1, x2, … , xn.

• Phương sai của mẫu số liệu này, kí hiệu là S2 , được tính bởi công thức:

$S^2=\frac{1}{n}\left[(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\right]$

trong đó $\overline{x}$ là số trung bình của mẫu số liệu.

Chú ý: Có thể biến đổi công thức tính phương sai ở trên thành:

$S^2=\frac{1}{n}\left(x_1^2+x_2^2+…+x_n^2\right)-\overline{x}^2$.

Căn bậc hai của phương sai được gọi là độ lệch chuẩn, kí hiệu là S.

• Trong thống kê, người ta cũng quan tâm đến phương sai hiệu chỉnh, kí hiệu là ${\color{Blue}\widehat{s}^2}$, được tính bởi công thức:

$\widehat{s}^2=\frac{1}{n-1}\left[(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\right]$.

♦ Giả sử mẫu số liệu được cho dưới dạng bảng tần số:

Giá trị x1 x2 xk
Tần số n1 n2 nk

Khi đó, công thức tính phương sai trở thành:

$S^2=\frac{1}{n}\left[n_1(x_1-\overline{x})^2+n_2(x_2-\overline{x})^2+…+n_k(x_k-\overline{x})^2\right]$

trong đó n = n1 + n2 + … + nk.

Có thể biến đổi công thức tính phương sai trên thành:

$S^2=\frac{1}{n}\left(n_1x_1^2+n_2x_2^2+…+n_kx_k^2\right)-\overline{x}^2$.

Ý nghĩa

• Phương sai là trung bình cộng của các bình phương độ lệch từ mỗi giá trị của mẫu số liệu đến số trung bình.

• Phương saiđộ lệch chuẩn được dùng để đo mức độ phân tán của các số liệu trong mẫu quanh số trung bình. Phương sai và độ lệch chuẩn càng lớn thì các giá trị của mẫu càng cách xa nhau (có độ phân tán lớn).

Ví dụ

Bảng dưới đây thống kê tổng số giờ nắng trong năm 2019 theo từng tháng được đo bởi hai trạm quan sát khí tượng đặt ở Tuyên Quang và Cà Mau.

Tháng 1 2 3 4 5 6 7 8 9 10 11 12
Tuyên Quang 25 89 72 117 106 177 156 203 227 146 117 145
Cà Mau 180 223 257 245 191 111 141 134 130 122 157 173

(Nguồn: Tổng cục Thống kê)

a) Hãy tính phương sai và độ lệch chuẩn của dữ liệu từng tỉnh.

b) Nêu nhận xét về sự thay đổi tổng số giờ nắng theo từng tháng ở mỗi tỉnh.

Giải

a) • Tỉnh Tuyên Quang:

Số trung bình của mẫu số liệu là:

$\overline{x}=\frac{1}{12}$. (25+89+72+117+106+177+156+203+227+146+117+145) ≈ 131,67.

Phương sai của mẫu số liệu là:

S2 = $\frac{1}{12}$. (252 + 892 + 722 + 1172 + 1062 + 1772 + 1562 + 2032 + 2272 + 1462 + 1172 + 1452) − 131,672 ≈ 2920,34.

Độ lệch chuẩn của mẫu số liệu là: S = $\sqrt{S^2}≈\sqrt{2920,34}$ ≈ 54,04.

• Tỉnh Cà Mau:

Số trung bình của mẫu số liệu là:

$\overline{x}=\frac{1}{12}$. (180+223+257+245+191+111+141+134+130+122+157+173) = 172.

Phương sai của mẫu số liệu là:

S2 = $\frac{1}{12}$. (1802 + 2232 + 2572 + 2452 + 1912 + 1112 + 1412 + 1342 + 1302 + 1222 + 1572 + 1732) – 1722 = 2183.

Độ lệch chuẩn của mẫu số liệu là: S = $\sqrt{S^2}≈\sqrt{2183}$ ≈ 46,72.

b) Nhận xét: Phương sai và độ lệch chuẩn của mẫu số liệu ở tỉnh Tuyên Quang cao hơn tỉnh Cà Mau nên sự thay đổi tổng số giờ nắng theo từng tháng ở tỉnh Cà Mau ổn định hơn (ít thay đổi) so với tỉnh Tuyên Quang.


Xem thêm các bài học khác :

Chương 6. Thống kê

Bài 1. Số gần đúng và sai số
Bài 2. Mô tả và biểu diễn dữ liệu trên các bảng và biểu đồ
Bài 3. Các số đặc trưng đo xu thế trung tâm của mẫu số liệu
Bài 4. Các số đặc trưng đo mức độ phân tán của mẫu số liệu
Ôn tập chương 6. Thống kê