Bài 3. Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm

Chương VI. Một số yếu tố thống kê và xác suất

1. Khoảng biến thiên. Khoảng tứ phân vị

• Trong một mẫu số liệu, khoảng biến thiênhiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó.

Ta có thể tính khoảng biến thiên R của mẫu số liệu theo công thức sau:

R = xmax - xmin

trong đó xmax là giá trị lớn nhất, xmin là giá trị nhỏ nhất của mẫu số liệu đó.

• Giả sử Q1, Q2, Q3 là tứ phân vị của mẫu số liệu. Ta gọi hiệu Q = Q3 - Q1 là khoảng tứ phân vị của mẫu số liệu đó.

Chú ýKhoảng tứ phân vị của mẫu số liệu còn gọi là khoảng trải giữa (tiếng Anh là InterQuartile Range - IQR) của mẫu số liệu đó.

Ý nghĩa:

• Khoảng biến thiên của mẫu số liệu phản ánh sự "dao động", "sự dàn trải" của các số liệu trong mẫu đó.

Khoảng biến thiên là đại lượng dễ hiểu, dễ tính toán và tương đối tốt đối với các mẫu số liệu nhỏ.

• Khoảng tứ phân vị là một đại lượng cho biết mức độ phân tán của 50% số liệu chính giữa của mẫu số liệu đã sắp xếp và có thể giúp xác định các giá trị bất thường của mẫu số liệu đó.

Khoảng tứ phân vị thường được sử dụng thay cho bảng biến thiên vì nó loại trừ hầu hết giá trị bất thường của mẫu số liệu.

Ví dụ

Mẫu số liệu thống kê chiều cao (đơn vị: mét) của 15 cây bạch đàn là:

6,3   6,6   7,5   8,2   8,3   7,8   7,9   9,0   8,9   7,2   7,5   8,7   7,7   8,8   7,6     (2)

Tìm khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu  (2).

Giải

• Trong mẫu số liệu (2), số lớn nhất là 9,0 và số bé nhất là 6,3. Vậy khoảng biến thiên của mẫu số liệu (2) là: R = 9,0 - 6,3 = 2,7 (m).

• Sắp xếp các số liệu mẫu (2) theo thứ tự không giảm, ta được:

6,3   6,6   7,2   7,5   7,5   7,6   7,7   7,8   7,9   8,2   8,3   8,7   8,8   8,9   9,0

Do đó Q1 = 7,5 (m); Q2 = 7,8 (m); Q3 = 8,7 (m).

Vậy khoảng tứ phân vị của mẫu số liệu  (2) là: ∆Q = Q3 - Q1 = 8,7 - 7,5 = 1,2 (m).

2. Phương sai

• Gọi xi là số liệu thứ i và $\overline{x}$ là số trung bình cộng của mẫu số liệu. Ta có ${\color{Blue}(x_i-\overline{x})}$ là độ lệch của xi đối với $\overline{x}$.

• Cho mẫu số liệu thống kê có n giá trị $x_1,x_2,…,x_n$ và số trung bình cộng là $\overline{x}$. Ta có:

$s^2=\frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2}{n}$

Ta gọi số s2 là phương sai của mẫu số liệu trên.

Nhận xét:

• Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số là:

Giá trị x1 x2 xk
Tần số n1 n2 nk

$s^2=\frac{n_1(x_1-\overline{x})^2+n_2(x_2-\overline{x})^2+…+n_k(x_k-\overline{x})^2}{n}$.

trong đó n = n1 + n2 + …  + nk; $\overline{x}$ là số trung bình cộng của các số liệu đã cho.

• Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số tương đối là:

Giá trị x1 x2 xk
Tần số
tương đối
f1 f2 fk

$s^2=f_1(x_1-\overline{x})^2+f_2(x_2-\overline{x})^2+…+f_k(x_k-\overline{x})^2$,

trong đó $\overline{x}$ là số trung bình cộng của các số liệu đã cho.

Ý nghĩa: Phương sai là số đặc trưng đo mức độ phân tán của mẫu số liệu. Mẫu số liệu nào có phương sai nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn.

Ví dụ

Mẫu số liệu về thời gian (đơn vị: giây) chạy cự li 500 m của 5 người là:

55,2   58,8   62,4   54   59,4     (5)

Mẫu số liệu về thời gian (đơn vị: giây) chạy cự li 1500 m của 5 người đó là:

271,2   261   276   282   270     (6)

Tính phương sai của mẫu (5) và mẫu (6). Từ đó cho biết cự li chạy nào có kết quả đồng đều hơn.

Giải

Số trung bình cộng của mẫu (5) là: $\overline{x_{(5)}}$ = (55,2 + 58,8 + 62,4 + 54 + 59,4) : 5 = 57,96.

Phương sai của mẫu (5) là: $s_{(5)}^2$ = [ (55,2-57,96)2 + (58,8-57,96)2 + (62,4-57,96)2 + (54-57,96)2 + (59,4-57,96)2 ] : 5 = 9,1584.

Số trung bình cộng của mẫu (6) là: $\overline{x_{(6)}}$ = (271,2 + 261 + 276 + 282 + 270) : 5 = 272,04.

Phương sai của mẫu (6) là: $s_{(6)}^2$ = [ (271,2-272,04)2 + (261-272,04)2 + (276-272,04)2 + (282-272,04)2 + (270-272,04)2 ] : 5 = 48,3264.

Vì 9,1584 < 48,3264 nên $s_{(5)}^2<s_{(6)}^2$.

Vậy cự li chạy 500 m có kết quả đồng đều hơn cự li chạy 1500 m.

3. Độ lệch chuẩn

Căn bậc hai số học của phương sai gọi là độ lệch chuẩn của mẫu số liệu thống kê.

Nhận xét: Vì độ lệch chuẩn có cùng đơn vị đo với số liệu thống kê nên khi cần chú ý đến đơn vị đo thì ta sử dụng độ lệch chuẩn mà không sử dụng phương sai.

Ý nghĩa: Cũng như phương sai, khi hai mẫu số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau (hoặc xấp xỉ nhau), mẫu số liệu nào có độ lệch chuẩn nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn. Độ lệch chuẩn là số đặc trưng đo mức độ phân tán của mẫu số liệu thống kê có cùng đơn vị đo.

Ví dụ

Mẫu số liệu về số lượng áo bán ra lần lượt từ tháng 1 đến tháng 12 của một doanh nghiệp là:

430   560   450   550   760   430   525   410   635   450   800   900

Tính độ lệch chuẩn của mẫu số liệu đó.

Giải

Số trung bình cộng của mẫu số liệu là: $\overline{x}$ = (430+560+450+550+760+430+525+410+635+450+800+900) : 12 = 575.

Phương sai của mẫu số liệu là:

s2 = [(430-575)2 + (560-575)2 + (450-575)2 + (550-575)2 + (760-575)2 + (430-575)2 + (525-575)2 + (410-575)2 + (635-575)2 + (450-575)2 + (800-575)2 + (900-575)2 ] : 12 ≈ 24829,17.

Vậy độ lệch chuẩn của mẫu số liệu đó là: s = $\sqrt{24829,17}$ ≈ 157,57 (áo).

4. Tính hợp lí của số liệu thống kê

Ta có thế sử dụng các số đặc trưng để xác định số liệu bất thường của mẫu số liệu:

• Ta sử dụng khoảng tứ phân vị như sau: Giả sử Q1, Q2, Q3 là tứ phân vị của số liệu và hiệu ∆Q = Q3 - Q1 là khoảng tứ phân vị của mẫu số liệu đó. Giá trị xi trong mẫu số liệu được coi là một giá trị bất thường nếu xi < Q1 - $\frac{3}{2}$∆Q hoặc xi > Q3 + $\frac{3}{2}$∆Q.

• Ta sử dụng số trung bình cộng và độ lệch chuẩn như sau: Giả sử $\overline{x}$ là số trung bình cộng và s là độ lệch chuẩn của mẫu số liệu. Giá trị xi trong mẫu số liệu được coi là một giá trị bất thường nếu xi < $\overline{x}$ - 3s hoặc xi > $\overline{x}$ + 3s.


Xem thêm các bài học khác :

Chương VI. Một số yếu tố thống kê và xác suất

Bài 1. Số gần đúng. Sai số
Bài 2. Các số đặc trưng đo xu thế trung tâm cho mẫu số liệu không ghép nhóm
Bài 3. Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm
Bài 4. Xác suất của biến cố trong một số trò chơi đơn giản
Bài 5. Xác suất của biến cố
Ôn tập chương VI. Một số yếu tố thống kê và xác suất