1) Hãy tìm khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu: 10; 13; 15; 2; 10; 19; 2; 5; 7.
Giải
Sắp xếp mẫu số liệu theo thứ tự không giảm, ta được:
2; 2; 5; 7; 10; 10; 13; 15; 19.
• Khoảng biến thiên của mẫu số liệu là: R = 19 – 2 = 17.
• Cỡ mẫu n = 9 (số lẻ) nên Q2 là số liệu thứ 5 của dãy, Q2 = Me = 10.
+ Q1 là trung vị của mẫu: 2; 2; 5; 7. Do đó Q1 = $\frac{1}{2}$.(2 + 5) = 3,5.
+ Q3 là trung vị của mẫu: 10; 13; 15; 19. Do đó Q3 = $\frac{1}{2}$.(13 + 15) = 14.
Vậy khoảng tứ phân vị của mẫu là: ∆Q = 14 – 3,5 = 10,5.
2) Hãy tìm giá trị ngoại lệ của mẫu số liệu: 37; 12; 3; 9; 10; 9; 12; 3; 10.
Giải
Sắp xếp các số liệu theo thứ tự không giảm, ta được:
3; 3; 9; 9; 10; 10; 12; 12; 37.
Cỡ mẫu n = 9 (số lẻ) nên:
Q1 là trung vị của mẫu: 3; 3; 9; 9. Do đó Q1 = $\frac{1}{2}$.(3 + 9) = 6.
Q3 là trung vị của mẫu: 10; 12; 12; 37. Do đó Q3 = $\frac{1}{2}$.(12 + 12) = 12.
Do đó, khoảng tứ phân vị của mẫu là: ∆Q = 12 – 6 = 6.
Ta có: Q3 + 1,5∆Q = 12 + 1,5.6 = 21 và Q1 – 1,5∆Q = 6 – 1,5.6 = -3.
Quan sát mẫu, ta thấy số liệu 37 > 21 nên mẫu có một giá trị ngoại lệ là 37.
♦ Giả sử ta có một mẫu số liệu là x1, x2, … , xn.
• Phương sai
của mẫu số liệu này, kí hiệu là S2
, được tính bởi công thức:
$S^2=\frac{1}{n}\left[(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\right]$
trong đó $\overline{x}$ là số trung bình của mẫu số liệu.
Chú ý: Có thể biến đổi công thức tính phương sai ở trên thành:
$S^2=\frac{1}{n}\left(x_1^2+x_2^2+…+x_n^2\right)-\overline{x}^2$.
• Căn bậc hai của phương sai được gọi là độ lệch chuẩn
, kí hiệu là S
.
• Trong thống kê, người ta cũng quan tâm đến phương sai hiệu chỉnh
, kí hiệu là ${\color{Blue}\widehat{s}^2}$, được tính bởi công thức:
$\widehat{s}^2=\frac{1}{n-1}\left[(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\right]$.
♦ Giả sử mẫu số liệu được cho dưới dạng bảng tần số:
Giá trị | x1 | x2 | … | xk |
---|---|---|---|---|
Tần số | n1 | n2 | … | nk |
Khi đó, công thức tính phương sai trở thành:
$S^2=\frac{1}{n}\left[n_1(x_1-\overline{x})^2+n_2(x_2-\overline{x})^2+…+n_k(x_k-\overline{x})^2\right]$
trong đó n = n1 + n2 + … + nk.
Có thể biến đổi công thức tính phương sai trên thành:
$S^2=\frac{1}{n}\left(n_1x_1^2+n_2x_2^2+…+n_kx_k^2\right)-\overline{x}^2$.
• Phương sai là trung bình cộng của các bình phương độ lệch từ mỗi giá trị của mẫu số liệu đến số trung bình.
• Phương sai và độ lệch chuẩn được dùng để đo mức độ phân tán của các số liệu trong mẫu quanh số trung bình. Phương sai và độ lệch chuẩn càng lớn thì các giá trị của mẫu càng cách xa nhau (có độ phân tán lớn).
Bảng dưới đây thống kê tổng số giờ nắng trong năm 2019 theo từng tháng được đo bởi hai trạm quan sát khí tượng đặt ở Tuyên Quang và Cà Mau.
Tháng
1
2
3
4
5
6
7
8
9
10
11
12
Tuyên Quang
25
89
72
117
106
177
156
203
227
146
117
145
Cà Mau
180
223
257
245
191
111
141
134
130
122
157
173
(Nguồn: Tổng cục Thống kê)
a) Hãy tính phương sai và độ lệch chuẩn của dữ liệu từng tỉnh.
b) Nêu nhận xét về sự thay đổi tổng số giờ nắng theo từng tháng ở mỗi tỉnh.
Giải
a) • Tỉnh Tuyên Quang:
Số trung bình của mẫu số liệu là:
$\overline{x}=\frac{1}{12}$. (25+89+72+117+106+177+156+203+227+146+117+145) ≈ 131,67.
Phương sai của mẫu số liệu là:
S2 = $\frac{1}{12}$. (252 + 892 + 722 + 1172 + 1062 + 1772 + 1562 + 2032 + 2272 + 1462 + 1172 + 1452) − 131,672 ≈ 2920,34.
Độ lệch chuẩn của mẫu số liệu là: S = $\sqrt{S^2}≈\sqrt{2920,34}$ ≈ 54,04.
• Tỉnh Cà Mau:
Số trung bình của mẫu số liệu là:
$\overline{x}=\frac{1}{12}$. (180+223+257+245+191+111+141+134+130+122+157+173) = 172.
Phương sai của mẫu số liệu là:
S2 = $\frac{1}{12}$. (1802 + 2232 + 2572 + 2452 + 1912 + 1112 + 1412 + 1342 + 1302 + 1222 + 1572 + 1732) – 1722 = 2183.
Độ lệch chuẩn của mẫu số liệu là: S = $\sqrt{S^2}≈\sqrt{2183}$ ≈ 46,72.
b) Nhận xét: Phương sai và độ lệch chuẩn của mẫu số liệu ở tỉnh Tuyên Quang cao hơn tỉnh Cà Mau nên sự thay đổi tổng số giờ nắng theo từng tháng ở tỉnh Cà Mau ổn định hơn (ít thay đổi) so với tỉnh Tuyên Quang.
Xem thêm các bài học khác :