Thống kê mô tả
Khái niệm
Thống kê mô tả trong tiếng Anh là Descriptive Statistics.
Thống kê mô tả là các hệ số mô tả ngắn gọn hay tóm tắt một tập dữ liệu nhất định, có thể là đại diện cho toàn bộ hoặc một mẫu của một tổng thể.
Thống kê mô tả được chia thành đo lường xu hướng tập trung và đo lường biến động. Đo lường xu hướng tập trung có giá trị trung bình, trung vị và yếu vị, trong khi các đo lường biến động gồm độ lệch chuẩn, phương sai, giá trị nhỏ nhất và giá trị lớn nhất, độ nhọn và độ lệch.
Đặc điểm của số liệu thống kê mô tả
Thống kê mô tả giúp mô tả và hiểu được các tính chất của một bộ dữ liệu cụ thể bằng cách đưa ra các tóm tắt ngắn về mẫu và các thông số của dữ liệu. Loại thống kê mô tả phổ biến nhất là các thông số xu hướng tập trung gồm: giá trị trung bình, trung vị và yếu vị, các thông số này được sử dụng ở hầu hết các cấp độ toán học và thống kê.
Giá trị trung bình được tính bằng cách cộng tất cả các số liệu trong tập dữ liệu sau đó chia cho số lượng dữ liệu trong tập. Ví dụ: tổng của tập dữ liệu sau là 20: (2, 3, 4, 5, 6). Giá trị trung bình là 4 (bằng 20/5). Yếu vị của tập dữ liệu là giá trị xuất hiện thường xuyên nhất và trung vị là số nằm ở giữa tập dữ liệu. Ngoài ra, có những thông số thống kê mô tả ít phổ biến hơn nhưng vẫn rất quan trọng.
Thống kê mô tả được sử dụng để cung cấp những thông tin định lượng phức tạp của một bộ dữ liệu lớn thành các mô tả đơn giản.
Ví dụ, điểm trung bình của học sinh (GPA) là một dạng thông tin có được từ ứng dụng thống kê mô tả trong thực tiễn. GPA là trung bình của dữ liệu từ một loạt các bài kiểm tra, lớp học và điểm số với nhau để xem xét khả năng học tập chung của học sinh. Điểm trung bình cá nhân của học sinh phản ánh kết quả học tập trung bình của học sinh đó.
Các thông số trong thống kê mô tả
Tất cả các số liệu thống kê mô tả hoặc là các thông số đo lường xu hướng tập trung hoặc là các thông số đo lường biến động, hay còn được gọi là các thông số đo lường sự phân tán của dữ liệu. Các thông số đo lường xu hướng tập trung xác định giá trị trung bình hoặc giá trị nằm ở giữa của các tập dữ liệu.
Trong khi đó, các thông số đo lường biến động tập trung vào sự phân tán dữ liệu. Cả hai loại thông số này đều có thể sử dụng biểu đồ, bảng hay thảo luận tổng quan để giúp hiểu được tính chất của dữ liệu đang được phân tích.
Các thông số đo lường xu hướng tập trung mô tả vị trí trung tâm của phân phối tập dữ liệu. Để phân tích tần số của từng điểm dữ liệu trong phân phối và mô tả nó nhà phân tích sử dụng giá trị trung bình, trung vị hoặc yếu vị để đo các giá trị xuất hiện nhiều nhất của tập dữ liệu được phân tích.
Các thông số đo lường biến động, hay các biện pháp đo lường sự phân tán, hỗ trợ việc phân tích mức độ lan truyền trong phân phối của một tập dữ liệu. Ví dụ, trong khi các thông số đo lường xu hướng tập trung có thể cung cấp mức trung bình của tập dữ liệu, nó lại không mô tả cách dữ liệu được phân phối như thế nào trong tập hợp đó.
Vì vậy, mặc dù bình quân của dữ liệu có thể là 65 trong 100, vẫn có thể có các điểm dữ liệu ở điểm 1 và 100 trong tập dữ liệu. Các thông số đo lường biến động giúp xác định điều này bằng cách mô tả hình dạng và mức độ phân tán của tập dữ liệu.
Khoảng biến thiên, tứ phân vị, độ lệch tuyệt đối và phương sai là ví dụ điển hình về các thông số đo lường biến động.
Xem xét tập dữ liệu sau: 5, 19, 24, 62, 91, 100. Khoảng biến thiên của tập dữ liệu đó là 95, được tính bằng cách trừ giá trị cao nhất (100) cho giá trị thấp nhất (5).
Các ý chính
– Thống kê mô tả tóm tắt hoặc mô tả các đặc điểm của một tập dữ liệu.
– Thống kê mô tả bao gồm hai loại thông số đo lường cơ bản: đo lường xu hướng tập trung và đo lường sự biến đổi hoặc độ phân tán.
– Đo lường xu hướng tập trung mô tả trung tâm của một tập dữ liệu.
– Đo lường sự biến động hoặc phân tán mô tả sự phân tán dữ liệu trong tập dữ liệu.
(Theo Investopedia)