• Số trung bình cộng
của một mẫu n số liệu thống kê bằng tổng các số liệu chia cho n. Số trung bình cộng ${\color{Blue}\overline{x}}$ của mẫu n số liệu x1, x2, … , xn là:
$\overline{x}=\frac{x_1+x_2+…+x_n}{n}$.
• Số trung bình cộng ${\color{Blue}\overline{x}}$ của mẫu số liệu thống kê trong bảng phân bố tần số là:
Giá trị | x1 | x2 | … | xk |
---|---|---|---|---|
Tần số | n1 | n2 | … | nk |
$\overline{x}=\frac{x_1+x_2+…+x_n}{n}$.
• Số trung bình cộng ${\color{Blue}\overline{x}}$ của mẫu số liệu thống kê trong bảng phân bố tần số tương đối là:
Giá trị | x1 | x2 | … | xk |
---|---|---|---|---|
Tần số tương đối |
f1 | f2 | … | fk |
$\overline{x}=f_1x_1+f_2x_2+…+f_kx_k$,
trong đó $f_1=\frac{n_1}{n},f_2=\frac{n_2}{n},…,f_k=\frac{n_k}{n}$, với n = n1 + n2 + … + nk.
♦ Ý nghĩa: Khi các số liệu trong mẫu ít sai lệch với số trung bình cộng $\overline{x}$, ta có thể lấy $\overline{x}$ làm đại diện cho mẫu số liệu.
Bảng kết quả thi đấu bóng đá của đội tuyển bóng đá nam U22 Việt Nam tại SEA Games 30, như sau:
Việt Nam
6 - 0
Brunei
Việt Nam
6 - 1
Lào
Việt Nam
2 - 1
Indonesia
Singapore
0 - 1
Việt Nam
Việt Nam
2 - 2
Thái Lan
Việt Nam
4 - 0
Campuchia
Indonesia
0 - 3
Việt Nam
Ta có số bàn thắng trung bình của đội tuyển bóng đá nam trong mỗi trận đấu là:
$\frac{6+6+2+1+2+4+3}{7}=\frac{24}{7}$ ≈ 3,43 (bàn thắng/trận).
Sắp thứ tự mẫu n số liệu thành một dãy không giảm (hoặc không tăng).
• Nếu n là số lẻ thì số liệu đứng ở vị trí thứ ${\color{Blue}\frac{n+1}{2}}$ (số đứng chính giữa) gọi là trung vị
.
• Nếu n là số chẵn thì số trung bình cộng của hai số liệu đứng ở vị trí thứ ${\color{Blue}\frac{n}{2}}$ và ${\color{Blue}\frac{n}{2}+1}$ gọi là trung vị
.
Trung vị kí hiệu là Me
.
Nhận xét:
• Trung vị không nhất thiết là một số trong mẫu số liệu và dễ tính toán.
• Khi các số liệu trong mẫu không có sự chêch lệch lớn thì số trung bình cộng và trung vị xấp xỉ nhau.
♦ Ý nghĩa: Nếu những số liệu trong mẫu có sự chêch lệch lớn thì ta nên chọn thêm trung vị làm đại diện cho mẫu số liệu đó, nhằm điều chỉnh một số hạn chế khi sử dụng số trung bình cộng. Những kết luận về đối tượng thống kê rút ra khi đó sẽ tin cậy hơn.
Nhiệt độ buổi tối ở Hà Nội ngày 21/11/2021 lúc 20 giờ, 21 giờ, 22 giờ, 23 giờ lần lượt là 26, 25, 23, 23 (đơn vị: °C). (Nguồn: https://accuweather.com)
Tìm trung vị của mẫu số liệu trên.
Giải
Sắp xếp các số liệu của mẫu trên theo thứ tự không giảm là: 23 23 25 26.
Mẫu số liệu trên có 4 số liệu là số chẵn, có số thứ hai và số thứ ba lần lượt là 23 và 25.
Vậy trung vị của mẫu số liệu trên là Me = $\frac{23+25}{2}$ = 24 (°C).
Sắp thứ tự mẫu n số liệu thành một dãy (theo hàng ngang) không giảm.
Tứ phân vị
của mẫu số liệu trên là một bộ ba giá trị gồm tứ phân vị thứ nhất Q1
, tứ phân vị thứ hai Q2
và tứ phân vị thứ ba Q3
; ba giá trị này chia mẫu số liệu thành bốn phần có số lượng phần tử bằng nhau.
• Q2
bằng trung vị.
• Nếu n là số chẵn thì Q1
bằng trung vị của nửa dãy phía dưới (nằm bên trái) và Q3
bằng trung vị của nửa dãy phía trên (nằm bên phải).
• Nếu n là số lẻ thì Q1
bằng trung vị của nửa dãy phía dưới (nằm bên trái) không bao gồm Q2 và Q3
bằng trung vị của nửa dãy phía trên (nằm bên phải) không bao gồm Q2.
Ta minh họa tứ phân vị của một mẫu 11 số liệu trên trục số như sau:
♦ Ý nghĩa: Bộ ba giá trị Q1, Q2, Q3 trong tứ phân vị phản ánh độ phân tán của mẫu số liệu. Nhưng mỗi giá trị Q1, Q2, Q3 lại đo xu thế trung tâm của phần số liệu tương ứng của mẫu đó.
Tìm tứ phân vị của mẫu số liệu: 11 48 62 81 93 99 127. Biểu diễn tứ phân vị trên trục số.
Giải
Mẫu 7 số liệu được sắp xếp theo thứ tự không giảm: 11 48 62 81 93 99 127.
• Trung vị của dãy số liệu là Q2 = 81 (là số liệu thứ 4).
• Trung vị của nửa dãy số liệu phía dưới (không bao gồm Q2): 11 48 62 là Q1 = 48.
• Trung vị của nửa dãy số liệu phía trên (không bao gồm Q2): 93 99 127 là Q3 = 99.
Biểu diễn tứ phân vị đó trên trục số như sau:
Kết quả thi thử môn Toán của lớp 10A như sau:
5
6
7
5
6
9
10
8
5
5
4
5
4
5
7
4
5
8
9
10
5
4
5
6
5
7
5
8
4
9
5
6
5
6
8
8
7
9
7
9
a) Mốt của mẫu số liệu trên là bao nhiêu?
b) Tính tỉ lệ số học sinh lớp 10A đạt điểm từ 8 trở lên. Tỉ lệ đó phản ánh điều gì?
Giải
Từ mẫu số liệu trên ta có bảng tần số sau:
Điểm
4
5
6
7
8
9
10
Tần số
5
13
5
5
5
5
2
n = 40
a) Từ bảng tần số trên ta thấy điểm 5 có tần số lớn nhất (là 13) nên mốt của mẫu số liệu trên là Mo = 5.
b) Tỉ lệ số học sinh lớp 10A đạt điểm từ 8 trở lên là: $\frac{5+5+2}{40}$ = 0,3 = 30%.
Tỉ lệ trên phản ánh số học sinh đạt điểm giỏi (từ 8 trở lên) chiếm 30% số học sinh của lớp 10A.
Sau khi thu thập, tổ chức, phân loại và biểu diễn số liệu bằng bảng hoặc biểu đồ, ta cần phân tích và xử lí các số liệu đó để xem xét tính hợp lí của số liệu thống kê, đặc biệt chỉ ra được những số liệu bất thường (hay còn gọi là dị biệt, trong tiếng Anh là Outliers). Ta có thể sử dụng các số đặc trưng đo xu thế trung tâm cho mẫu số liệu không ghép nhóm để thực hiện điều đó.
• Chú ý: Trong thực tiễn, những số liệu bất thường của mẫu số liệu được xác định bằng những công cụ toán học sâu sắc hơn.
Xem thêm các bài học khác :