Bài 3. Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm

Chương VI. Một số yếu tố thống kê và xác suất

1. Khoảng biến thiên. Khoảng tứ phân vị

• Trong một mẫu số liệu, khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó.

Ta có thể tính khoảng biến thiên R của mẫu số liệu theo công thức sau:

R = x_max - x_min

trong đó x_max là giá trị lớn nhất, x_min là giá trị nhỏ nhất của mẫu số liệu đó.

• Giả sử Q₁, Q₂, Q₃ là tứ phân vị của mẫu số liệu. Ta gọi hiệu ∆_Q = Q₃ - Q₁ là khoảng tứ phân vị của mẫu số liệu đó.

Chú ý: Khoảng tứ phân vị của mẫu số liệu còn gọi là khoảng trải giữa (tiếng Anh là InterQuartile Range - IQR) của mẫu số liệu đó.

♦ Ý nghĩa:

• Khoảng biến thiên của mẫu số liệu phản ánh sự "dao động", "sự dàn trải" của các số liệu trong mẫu đó.

Khoảng biến thiên là đại lượng dễ hiểu, dễ tính toán và tương đối tốt đối với các mẫu số liệu nhỏ.

• Khoảng tứ phân vị là một đại lượng cho biết mức độ phân tán của 50% số liệu chính giữa của mẫu số liệu đã sắp xếp và có thể giúp xác định các giá trị bất thường của mẫu số liệu đó.

Khoảng tứ phân vị thường được sử dụng thay cho bảng biến thiên vì nó loại trừ hầu hết giá trị bất thường của mẫu số liệu.

Ví dụ

Mẫu số liệu thống kê chiều cao (đơn vị: mét) của 15 cây bạch đàn là:

6,3 6,6 7,5 8,2 8,3 7,8 7,9 9,0 8,9 7,2 7,5 8,7 7,7 8,8 7,6 (2)

Tìm khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu (2).

Giải

• Trong mẫu số liệu (2), số lớn nhất là 9,0 và số bé nhất là 6,3. Vậy khoảng biến thiên của mẫu số liệu (2) là: R = 9,0 - 6,3 = 2,7 (m).

• Sắp xếp các số liệu mẫu (2) theo thứ tự không giảm, ta được:

6,3 6,6 7,2 7,5 7,5 7,6 7,7 7,8 7,9 8,2 8,3 8,7 8,8 8,9 9,0

Do đó Q₁ = 7,5 (m); Q₂ = 7,8 (m); Q₃ = 8,7 (m).

Vậy khoảng tứ phân vị của mẫu số liệu (2) là: ∆_Q = Q₃ - Q₁ = 8,7 - 7,5 = 1,2 (m).

2. Phương sai

• Gọi x_i là số liệu thứ i và $\overline{x}$ là số trung bình cộng của mẫu số liệu. Ta có ${\color{Blue}(x_i-\overline{x})}$ là độ lệch của x_i đối với $\overline{x}$.

• Cho mẫu số liệu thống kê có n giá trị $x_1,x_2,…,x_n$ và số trung bình cộng là $\overline{x}$. Ta có:

$s^2=\frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2}{n}$

Ta gọi số s² là phương sai của mẫu số liệu trên.

Nhận xét:

• Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số là:

Giá trị	x₁	x₂	…	x_k
Tần số	n₁	n₂	…	n_k

$s^2=\frac{n_1(x_1-\overline{x})^2+n_2(x_2-\overline{x})^2+…+n_k(x_k-\overline{x})^2}{n}$.

trong đó n = n₁ + n₂ + … + n_k; $\overline{x}$ là số trung bình cộng của các số liệu đã cho.

• Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số tương đối là:

Giá trị	x₁	x₂	…	x_k
Tần số tương đối	f₁	f₂	…	f_k

$s^2=f_1(x_1-\overline{x})^2+f_2(x_2-\overline{x})^2+…+f_k(x_k-\overline{x})^2$,

trong đó $\overline{x}$ là số trung bình cộng của các số liệu đã cho.

♦ Ý nghĩa: Phương sai là số đặc trưng đo mức độ phân tán của mẫu số liệu. Mẫu số liệu nào có phương sai nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn.

Ví dụ

Mẫu số liệu về thời gian (đơn vị: giây) chạy cự li 500 m của 5 người là:

55,2 58,8 62,4 54 59,4 (5)

Mẫu số liệu về thời gian (đơn vị: giây) chạy cự li 1500 m của 5 người đó là:

271,2 261 276 282 270 (6)

Tính phương sai của mẫu (5) và mẫu (6). Từ đó cho biết cự li chạy nào có kết quả đồng đều hơn.

Giải

Số trung bình cộng của mẫu (5) là: $\overline{x_{(5)}}$ = (55,2 + 58,8 + 62,4 + 54 + 59,4) : 5 = 57,96.

Phương sai của mẫu (5) là: $s_{(5)}^2$ = [ (55,2-57,96)² + (58,8-57,96)² + (62,4-57,96)² + (54-57,96)² + (59,4-57,96)² ] : 5 = 9,1584.

Số trung bình cộng của mẫu (6) là: $\overline{x_{(6)}}$ = (271,2 + 261 + 276 + 282 + 270) : 5 = 272,04.

Phương sai của mẫu (6) là: $s_{(6)}^2$ = [ (271,2-272,04)² + (261-272,04)² + (276-272,04)² + (282-272,04)² + (270-272,04)² ] : 5 = 48,3264.

Vì 9,1584 < 48,3264 nên $s_{(5)}^2<s_{(6)}^2$.

Vậy cự li chạy 500 m có kết quả đồng đều hơn cự li chạy 1500 m.

3. Độ lệch chuẩn

Căn bậc hai số học của phương sai gọi là độ lệch chuẩn của mẫu số liệu thống kê.

Nhận xét: Vì độ lệch chuẩn có cùng đơn vị đo với số liệu thống kê nên khi cần chú ý đến đơn vị đo thì ta sử dụng độ lệch chuẩn mà không sử dụng phương sai.

♦ Ý nghĩa: Cũng như phương sai, khi hai mẫu số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau (hoặc xấp xỉ nhau), mẫu số liệu nào có độ lệch chuẩn nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn. Độ lệch chuẩn là số đặc trưng đo mức độ phân tán của mẫu số liệu thống kê có cùng đơn vị đo.

Ví dụ

Mẫu số liệu về số lượng áo bán ra lần lượt từ tháng 1 đến tháng 12 của một doanh nghiệp là:

430 560 450 550 760 430 525 410 635 450 800 900

Tính độ lệch chuẩn của mẫu số liệu đó.

Giải

Số trung bình cộng của mẫu số liệu là: $\overline{x}$ = (430+560+450+550+760+430+525+410+635+450+800+900) : 12 = 575.

Phương sai của mẫu số liệu là:

s² = [(430-575)² + (560-575)² + (450-575)² + (550-575)² + (760-575)² + (430-575)² + (525-575)² + (410-575)² + (635-575)² + (450-575)² + (800-575)² + (900-575)² ] : 12 ≈ 24829,17.

Vậy độ lệch chuẩn của mẫu số liệu đó là: s = $\sqrt{24829,17}$ ≈ 157,57 (áo).

4. Tính hợp lí của số liệu thống kê

Ta có thế sử dụng các số đặc trưng để xác định số liệu bất thường của mẫu số liệu:

• Ta sử dụng khoảng tứ phân vị như sau: Giả sử Q₁, Q₂, Q₃ là tứ phân vị của số liệu và hiệu ∆_Q = Q₃ - Q₁ là khoảng tứ phân vị của mẫu số liệu đó. Giá trị x_i trong mẫu số liệu được coi là một giá trị bất thường nếu x_i < Q₁ - $\frac{3}{2}$∆_Q hoặc x_i > Q₃ + $\frac{3}{2}$∆_Q.

• Ta sử dụng số trung bình cộng và độ lệch chuẩn như sau: Giả sử $\overline{x}$ là số trung bình cộng và s là độ lệch chuẩn của mẫu số liệu. Giá trị x_i trong mẫu số liệu được coi là một giá trị bất thường nếu x_i < $\overline{x}$ - 3s hoặc x_i > $\overline{x}$ + 3s.

Xem thêm các bài học khác :

Bài 3. Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm

Chương VI. Một số yếu tố thống kê và xác suất

1. Khoảng biến thiên. Khoảng tứ phân vị

Ví dụ

2. Phương sai

Ví dụ

3. Độ lệch chuẩn

Ví dụ

4. Tính hợp lí của số liệu thống kê

Chương VI. Một số yếu tố thống kê và xác suất

Bài 1. Số gần đúng. Sai số

Bài 2. Các số đặc trưng đo xu thế trung tâm cho mẫu số liệu không ghép nhóm

Bài 3. Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm

Bài 4. Xác suất của biến cố trong một số trò chơi đơn giản

Bài 5. Xác suất của biến cố

Ôn tập chương VI. Một số yếu tố thống kê và xác suất