• Trong một mẫu số liệu, khoảng biến thiên
là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó.
Ta có thể tính khoảng biến thiên R của mẫu số liệu theo công thức sau:
R = xmax - xmin
trong đó xmax là giá trị lớn nhất, xmin là giá trị nhỏ nhất của mẫu số liệu đó.
• Giả sử Q1, Q2, Q3 là tứ phân vị của mẫu số liệu. Ta gọi hiệu ∆Q = Q3 - Q1 là khoảng tứ phân vị
của mẫu số liệu đó.
Chú ý: Khoảng tứ phân vị của mẫu số liệu còn gọi là khoảng trải giữa (tiếng Anh là InterQuartile Range - IQR) của mẫu số liệu đó.
♦ Ý nghĩa:
• Khoảng biến thiên của mẫu số liệu phản ánh sự "dao động", "sự dàn trải" của các số liệu trong mẫu đó.
Khoảng biến thiên là đại lượng dễ hiểu, dễ tính toán và tương đối tốt đối với các mẫu số liệu nhỏ.
• Khoảng tứ phân vị là một đại lượng cho biết mức độ phân tán của 50% số liệu chính giữa của mẫu số liệu đã sắp xếp và có thể giúp xác định các giá trị bất thường của mẫu số liệu đó.
Khoảng tứ phân vị thường được sử dụng thay cho bảng biến thiên vì nó loại trừ hầu hết giá trị bất thường của mẫu số liệu.
Mẫu số liệu thống kê chiều cao (đơn vị: mét) của 15 cây bạch đàn là:
6,3 6,6 7,5 8,2 8,3 7,8 7,9 9,0 8,9 7,2 7,5 8,7 7,7 8,8 7,6 (2)
Tìm khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu (2).
Giải
• Trong mẫu số liệu (2), số lớn nhất là 9,0 và số bé nhất là 6,3. Vậy khoảng biến thiên của mẫu số liệu (2) là: R = 9,0 - 6,3 = 2,7 (m).
• Sắp xếp các số liệu mẫu (2) theo thứ tự không giảm, ta được:
6,3 6,6 7,2 7,5 7,5 7,6 7,7 7,8 7,9 8,2 8,3 8,7 8,8 8,9 9,0
Do đó Q1 = 7,5 (m); Q2 = 7,8 (m); Q3 = 8,7 (m).
Vậy khoảng tứ phân vị của mẫu số liệu (2) là: ∆Q = Q3 - Q1 = 8,7 - 7,5 = 1,2 (m).
• Gọi xi là số liệu thứ i và $\overline{x}$ là số trung bình cộng của mẫu số liệu. Ta có ${\color{Blue}(x_i-\overline{x})}$ là độ lệch
của xi đối với $\overline{x}$.
• Cho mẫu số liệu thống kê có n giá trị $x_1,x_2,…,x_n$ và số trung bình cộng là $\overline{x}$. Ta có:
$s^2=\frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2}{n}$
Ta gọi số s2
là phương sai
của mẫu số liệu trên.
Nhận xét:
• Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số là:
Giá trị | x1 | x2 | … | xk |
---|---|---|---|---|
Tần số | n1 | n2 | … | nk |
$s^2=\frac{n_1(x_1-\overline{x})^2+n_2(x_2-\overline{x})^2+…+n_k(x_k-\overline{x})^2}{n}$.
trong đó n = n1 + n2 + … + nk; $\overline{x}$ là số trung bình cộng của các số liệu đã cho.
• Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số tương đối là:
Giá trị | x1 | x2 | … | xk |
---|---|---|---|---|
Tần số tương đối |
f1 | f2 | … | fk |
$s^2=f_1(x_1-\overline{x})^2+f_2(x_2-\overline{x})^2+…+f_k(x_k-\overline{x})^2$,
trong đó $\overline{x}$ là số trung bình cộng của các số liệu đã cho.
♦ Ý nghĩa: Phương sai là số đặc trưng đo mức độ phân tán của mẫu số liệu. Mẫu số liệu nào có phương sai nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn.
Mẫu số liệu về thời gian (đơn vị: giây) chạy cự li 500 m của 5 người là:
55,2 58,8 62,4 54 59,4 (5)
Mẫu số liệu về thời gian (đơn vị: giây) chạy cự li 1500 m của 5 người đó là:
271,2 261 276 282 270 (6)
Tính phương sai của mẫu (5) và mẫu (6). Từ đó cho biết cự li chạy nào có kết quả đồng đều hơn.
Giải
Số trung bình cộng của mẫu (5) là: $\overline{x_{(5)}}$ = (55,2 + 58,8 + 62,4 + 54 + 59,4) : 5 = 57,96.
Phương sai của mẫu (5) là: $s_{(5)}^2$ = [ (55,2-57,96)2 + (58,8-57,96)2 + (62,4-57,96)2 + (54-57,96)2 + (59,4-57,96)2 ] : 5 = 9,1584.
Số trung bình cộng của mẫu (6) là: $\overline{x_{(6)}}$ = (271,2 + 261 + 276 + 282 + 270) : 5 = 272,04.
Phương sai của mẫu (6) là: $s_{(6)}^2$ = [ (271,2-272,04)2 + (261-272,04)2 + (276-272,04)2 + (282-272,04)2 + (270-272,04)2 ] : 5 = 48,3264.
Vì 9,1584 < 48,3264 nên $s_{(5)}^2<s_{(6)}^2$.
Vậy cự li chạy 500 m có kết quả đồng đều hơn cự li chạy 1500 m.
Căn bậc hai số học của phương sai gọi là độ lệch chuẩn
của mẫu số liệu thống kê.
Nhận xét: Vì độ lệch chuẩn có cùng đơn vị đo với số liệu thống kê nên khi cần chú ý đến đơn vị đo thì ta sử dụng độ lệch chuẩn mà không sử dụng phương sai.
♦ Ý nghĩa: Cũng như phương sai, khi hai mẫu số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau (hoặc xấp xỉ nhau), mẫu số liệu nào có độ lệch chuẩn nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn. Độ lệch chuẩn là số đặc trưng đo mức độ phân tán của mẫu số liệu thống kê có cùng đơn vị đo.
Mẫu số liệu về số lượng áo bán ra lần lượt từ tháng 1 đến tháng 12 của một doanh nghiệp là:
430 560 450 550 760 430 525 410 635 450 800 900
Tính độ lệch chuẩn của mẫu số liệu đó.
Giải
Số trung bình cộng của mẫu số liệu là: $\overline{x}$ = (430+560+450+550+760+430+525+410+635+450+800+900) : 12 = 575.
Phương sai của mẫu số liệu là:
s2 = [(430-575)2 + (560-575)2 + (450-575)2 + (550-575)2 + (760-575)2 + (430-575)2 + (525-575)2 + (410-575)2 + (635-575)2 + (450-575)2 + (800-575)2 + (900-575)2 ] : 12 ≈ 24829,17.
Vậy độ lệch chuẩn của mẫu số liệu đó là: s = $\sqrt{24829,17}$ ≈ 157,57 (áo).
Ta có thế sử dụng các số đặc trưng để xác định số liệu bất thường của mẫu số liệu:
• Ta sử dụng khoảng tứ phân vị như sau: Giả sử Q1, Q2, Q3 là tứ phân vị của số liệu và hiệu ∆Q = Q3 - Q1 là khoảng tứ phân vị của mẫu số liệu đó. Giá trị xi trong mẫu số liệu được coi là một giá trị bất thường nếu xi < Q1 - $\frac{3}{2}$∆Q hoặc xi > Q3 + $\frac{3}{2}$∆Q.
• Ta sử dụng số trung bình cộng và độ lệch chuẩn như sau: Giả sử $\overline{x}$ là số trung bình cộng và s là độ lệch chuẩn của mẫu số liệu. Giá trị xi trong mẫu số liệu được coi là một giá trị bất thường nếu xi < $\overline{x}$ - 3s hoặc xi > $\overline{x}$ + 3s.
Xem thêm các bài học khác :