Bài 1. Khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu ghép nhóm

Chương III. CÁC SỐ ĐẶC TRƯNG ĐO MỨC ĐỘ PHÂN TÁN CHO MẪU SỐ LIỆU GHÉP NHÓM

1. Khoảng biến thiên

Khoảng biến thiên, kí hiệu R, của mẫu số liệu ghép nhóm là hiệu số giữa đầu mút phải của nhóm cuối cùng và đầu mút trái của nhóm đầu tiên có chứa dữ liệu của mẫu số liệu.

Xét mẫu số liệu ghép nhóm được cho ở bảng sau:

Nhóm [u1; u2) [u2; u3) ... [uk; uk+1)
Tần số n1 n2 ... nk

Nếu n1 và nk cùng khác 0 thì

R = uk+1 - u1.

Khoảng biến thiên của mẫu số liệu ghép nhóm luôn lớn hơn hoặc bằng khoảng biến thiên của mẫu số liệu gốc.

Ý nghĩa của khoảng biến thiên của mẫu số liệu ghép nhóm

• Khoảng biến thiên của mẫu số liệu ghép nhóm là giá trị xấp xỉ khoảng biến thiên của mẫu số liệu gốc và có thể dùng để do mức độ phân tán của mẫu số liệu.

• Khoảng biến thiên R = uk+1 - u1 chưa phản ánh được đầy đủ mức độ phân tán của phần lớn các số liệu. Hơn nữa, giá trị của R thường tăng vọt khi xuất hiện giá trị ngoại lệ trong mẫu số liệu. Do đó, để phản ánh mức độ phân tán của số liệu, người ta còn dùng các số đặc trưng khác.

Ví dụ

Bạn Trang thống kê lại chiều cao (đơn vị: cm) của các bạn học sinh nữ lớp 12C và lớp 12D ở bảng sau.

Chiều cao (cm) [155; 160) [160; 165) [165; 170) [170; 175) [175; 180) [180; 185)
Số học sinh nữ lớp 12C 2 7 12 3 0 1
Số học sinh nữ lớp 12D 5 9 8 2 1 0

Sử dụng khoảng biến thiên, hãy cho biết chiều cao của học sinh nữ lớp nào có độ phân tán lớn hơn.

Giải

• Khoảng biến thiên của mẫu số liệu ghép nhóm về chiều cao của học sinh nữ lớp 12C là 185 - 155 = 30 (cm).

• Khoảng biến thiên của mẫu số liệu ghép nhóm về chiều cao của học sinh nữ lớp 12D là 180 - 155 = 25 (cm).

Vậy theo khoảng biến thiên thì chiều cao của học sinh nữ lớp 12C có độ phân tán lớn hơn lớp 12D.

2. Khoảng tứ phân vị

Tứ phân vị thứ i, kí hiệu là Qi , với i = 1, 2, 3 của mẫu số liệu ghép nhóm (Bảng 1) được xác định như sau:

Bảng 1

Nhóm [u1; u2) [u2; u3) ... [uk; uk+1)
Tần số n1 n2 ... nk

  

$Q_i=u_m+\frac{\frac{in}{4}-C}{n_m}(u_{m+1}-u_m)$

trong đó:

• n = n1 + n2 + ... + nk là cỡ mẫu;

• [um ; um+1) là nhóm chứa tứ phân vị thứ i;

• nm là tần số của nhóm chứa tứ phân vị thứ i;

• C = n1 + n2 + ... + nm-1.

Khoảng tứ phân vị của mẫu số liệu ghép nhóm, kí hiệu Q , là hiệu số giữa tứ phân vị thứ ba Q3 và tứ phân vị thứ nhất Q1 của mẫu số liệu ghép nhóm đó, tức là

Q = Q3 - Q1.

Ý nghĩa của khoảng tứ phân vị của mẫu số liệu ghép nhóm

Q là giá trị xấp xỉ cho khoảng tứ phân vị của mẫu số liệu gốc và có thể dùng để do mức độ phân tán của nửa giữa của mẫu số liệu (tập hợp gồm 50% số liệu nằm chính giữa mẫu số liệu).

Q càng nhỏ thì dữ liệu càng tập trung xung quanh trung vị.

Q được dùng để xác định giá trị ngoại lệ trong mẫu số liệu. Giá trị x trong mẫu số liệu là giá trị ngoại lệ nếu

x > Q3 + 1,5∆Q hoặc x < Q1 - 1,5∆Q.

• Q không bị ảnh hưởng nhiều bởi các giá trị ngoại lệ trong mẫu số liệu.

Ví dụ

Giả sử kết quả khảo sát khu vực A về độ tuổi kết hôn của một số phụ nữ vừa lập gia đình được cho ở bảng sau:

Tuổi kết hôn [19; 22) [22; 25) [25; 28) [28; 31) [31; 34)
Số phụ nữ khu vực A 10 27 31 25 7

Hãy tìm khoảng tứ phân vị của mẫu số liệu ghép nhóm trên.

Giải 

Cỡ mẫu n = 10 + 27 + 31 + 25 + 7 = 100. Gọi x1; x2; …; x100 là mẫu số liệu gốc gồm tuổi kết hôn của 100 phụ nữ. Ta có:

x1; x2; …; x10 ∈ [19; 22),

x11; x12; …; x37 ∈ [22; 25),

x38; x39; …; x68 ∈ [25; 28),

x69; x70; …; x93 ∈ [28; 31),

x94; x95;…; x100 ∈ [31; 34).

Tứ phân vị thứ nhất của mẫu số liệu gốc là $\frac{1}{2}$(x25 + x26) ∈ [22; 25). Do đó, tứ phân thứ nhất của mẫu số liệu ghép nhóm là:

$Q_1=22+\frac{\frac{100}{4}-10}{27}(25-22)=\frac{71}{3}$.

Tứ phân vị thứ ba của mẫu số liệu gốc là $\frac{1}{2}$(x75 + x76) ∈ [28; 31). Do đó, tứ phân thứ ba của mẫu số liệu ghép nhóm là:

$Q_3=28+\frac{\frac{3.100}{4}-(10+27+31)}{25}(31-28)=\frac{721}{25}$.

Vậy khoảng tứ phân vị của mẫu số liệu ghép nhóm về độ tuổi kết hôn của 100 phụ nữ ở khu vực A là:

Q = Q3 – Q1 = $\frac{721}{25}-\frac{71}{3}=\frac{388}{75}$ ≈ 5,17.


Xem thêm các bài học khác :

Chương III. CÁC SỐ ĐẶC TRƯNG ĐO MỨC ĐỘ PHÂN TÁN CHO MẪU SỐ LIỆU GHÉP NHÓM

Bài 1. Khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu ghép nhóm
Bài 2. Phương sai và độ lệch chuẩn của mẫu số liệu ghép nhóm