Các dữ liệu có ý nghĩa quan trọng đối với mọi lĩnh vực xã hội. Vì thế mà các hệ số được sử dụng nhằm mục đích để có thể mô tả ngắn gọn hay tóm tắt một tập dữ liệu nhất định có ý nghĩa rất to lớn trong thực tiễn. Người ta gọi đây là thống kê mô tả. Chắc hẳn hiện nay vẫn còn nhiều người chưa hiểu rõ về cơ quan này.
1. Thống kê mô tả là gì?
Thống kê mô tả được hiểu là các hệ số mô tả ngắn gọn hay tóm tắt một tập dữ liệu nhất định, cũng có thể là đại diện cho toàn bộ hoặc một mẫu của một tổng thể.
Thống kê mô tả được chia thành đo lường xu hướng tập trung và đo lường biến động. Đo lường xu hướng tập trung có giá trị trung bình, trung vị và yếu vị, trong khi các đo lường biến động gồm độ lệch chuẩn, phương sai, giá trị nhỏ nhất và giá trị lớn nhất, độ nhọn và độ lệch.
Thống kê mô tả trong tiếng Anh là Descriptive Statistics.
2. Đặc điểm của số liệu thống kê mô tả:
Thống kê mô tả ra đời đã giúp mô tả và hiểu được các tính chất của một bộ dữ liệu cụ thể bằng cách đưa ra các tóm tắt ngắn về mẫu và các thông số của dữ liệu. Loại thống kê mô tả phổ biến nhất là các thông số xu hướng tập trung gồm: giá trị trung bình, trung vị và yếu vị, các thông số này được sử dụng ở hầu hết các cấp độ toán học và thống kê.
Giá trị trung bình được tính bằng cách cộng tất cả các số liệu trong tập dữ liệu sau đó chia cho số lượng dữ liệu trong tập.
Ví dụ cụ thể như: tổng của tập dữ liệu sau là 20: (2, 3, 4, 5, 6). Giá trị trung bình là 4 (bằng 20/5). Yếu vị của tập dữ liệu là giá trị xuất hiện thường xuyên nhất và trung vị là số nằm ở giữa tập dữ liệu. Ngoài ra, có những thông số thống kê mô tả ít phổ biến hơn nhưng vẫn rất quan trọng.
Thống kê mô tả được sử dụng để nhằm mục đích có thể cung cấp những thông tin định lượng phức tạp của một bộ dữ liệu lớn thành các mô tả đơn giản.
Ví dụ cụ thể điểm trung bình của học sinh được hiểu là một dạng thông tin có được từ ứng dụng thống kê mô tả trong thực tiễn. GPA là trung bình của dữ liệu từ một loạt các bài kiểm tra, lớp học và điểm số với nhau để xem xét khả năng học tập chung của học sinh. Điểm trung bình cá nhân của học sinh phản ánh kết quả học tập trung bình của học sinh đó.
Các thông số trong thống kê mô tả:
Tất cả các số liệu thống kê mô tả hoặc là các thông số đo lường xu hướng tập trung hoặc là các thông số đo lường biến động, hay còn được gọi là các thông số đo lường sự phân tán của dữ liệu. Các thông số đo lường xu hướng tập trung xác định giá trị trung bình hoặc giá trị nằm ở giữa của các tập dữ liệu.
Trong khi đó, các thông số đo lường biến động tập trung vào sự phân tán dữ liệu. Cả hai loại thông số này đều có thể sử dụng biểu đồ, bảng hay thảo luận tổng quan để giúp hiểu được tính chất của dữ liệu đang được phân tích.
Các thông số đo lường xu hướng tập trung mô tả vị trí trung tâm của phân phối tập dữ liệu. Để phân tích tần số của từng điểm dữ liệu trong phân phối và mô tả nó nhà phân tích sử dụng giá trị trung bình, trung vị hoặc yếu vị để đo các giá trị xuất hiện nhiều nhất của tập dữ liệu được phân tích.
Các thông số đo lường biến động, hay các biện pháp đo lường sự phân tán, hỗ trợ việc phân tích mức độ lan truyền trong phân phối của một tập dữ liệu. Ví dụ, trong khi các thông số đo lường xu hướng tập trung có thể cung cấp mức trung bình của tập dữ liệu, nó lại không mô tả cách dữ liệu được phân phối như thế nào trong tập hợp đó.
Vì vậy cụ thể mặc dù bình quân của dữ liệu có thể là 65 trong 100, vẫn có thể có các điểm dữ liệu ở điểm 1 và 100 trong tập dữ liệu. Các thông số đo lường biến động giúp xác định điều này bằng cách mô tả hình dạng và mức độ phân tán của tập dữ liệu.
Khoảng biến thiên, tứ phân vị, độ lệch tuyệt đối và phương sai là ví dụ điển hình về các thông số đo lường biến động.
Xem xét tập dữ liệu sau: 5, 19, 24, 62, 91, 100. Khoảng biến thiên của tập dữ liệu đó là 95, được tính bằng cách trừ giá trị cao nhất (100) cho giá trị thấp nhất (5).
Các ý chính của thống kê mô tả:
– Thống kê mô tả tóm tắt hoặc mô tả các đặc điểm của một tập dữ liệu.
– Thống kê mô tả bao gồm hai loại thông số đo lường cơ bản: đo lường xu hướng tập trung và đo lường sự biến đổi hoặc độ phân tán.
– Đo lường xu hướng tập trung mô tả trung tâm của một tập dữ liệu.
– Đo lường sự biến động hoặc phân tán mô tả sự phân tán dữ liệu trong tập dữ liệu.
3. Các thuật ngữ liên quan:
Giá trị trung bình:
Giá trị trung bình trong tiếng Anh là Mean.
Giá trị trung bình được hiểu là bình quân toán học đơn giản của một tập hợp gồm hai hoặc nhiều số. Giá trị trung bình của một tập hợp số đã cho có thể được tính theo nhiều cách, gồm có phương pháp trung bình số học sử dụng tổng các số trong chuỗi và phương pháp trung bình hình học. Tuy nhiên, tất cả các phương pháp chính để tính trung bình đơn giản của một chuỗi số bình thường đều tạo ra kết quả xấp xỉ bằng nhau.
Giá trị trung bình chính là một chỉ số thống kê có thể được sử dụng để đánh giá hiệu suất của giá cổ phiếu một công ty trong đơn vị thời gian ngày, tháng hoặc năm; hay hiệu quả hoạt động một công ty thông qua thu nhập của nó trong một số năm hoặc bằng cách đánh giá các con số chính yếu như tỉ lệ P/E, FCF, nợ phải trả trên bảng cân đối kế toán,… và một danh mục đầu tư bằng cách ước tính lợi nhuận trung bình của nó trong một khoảng thời gian nhất định..
Trung vị:
Trung vị trong tiếng Anh là Median.
Trung vị được hiểu là số nằm giữa trong một tập dữ liệu có các số được sắp xếp. Để nhằm mục đích có thể xác định giá trị trung vị trong một chuỗi số, trước tiên các số phải được sắp xếp theo thứ tự giá trị từ thấp nhất đến cao nhất hoặc cao nhất đến thấp nhất. Trung vị có thể được sử dụng để nhằm xác định giá trị trung bình gần đúng hoặc giá trị trung bình, tuy nhiên không được nhầm lẫn trung vị với giá trị trung bình thực tế.
Nếu tập dữ liệu có số lượng điểm dữ liệu là lẻ, trung vị là số nằm ở giữa có cùng một số lượng điểm dữ liệu ở bên dưới và bên trên.
Nếu tập dữ liệu có số lượng điểm dữ liệu là chẵn, để tìm giá trị trung vị cần xác định cặp điểm dữ liệu ở giữa sau đó cộng 2 số này lại và chia cho hai.
Trung vị được sử dụng thay cho giá trị trung bình khi có các điểm ngoại lai trong chuỗi dữ liệu, các điểm ngoại lai có thể làm lệch giá trị trung bình của các giá trị. Trung vị của một chuỗi ít bị ảnh hưởng bởi các điểm ngoại lai hơn giá trị trung bình.
Yếu vị:
Yếu vị trong tiếng Anh là Mode.
Một tập hợp các số có thể có một hoặc nhiều hơn một yếu vị hoặc không có yếu vị nào cả. Các khái niệm thống kê phổ biến khác theo xu hướng đo lường trung tâm gồm có giá trị trung bình hay bình quân của một tập dữ liệu và trung vị, giá trị nằm ở giữa trong một tập dữ liệu.
Yếu vị có thể có cùng giá trị với giá trị trung bình và trung vị, nhưng không phải lúc nào cũng đúng như vậy.
Độ lệch chuẩn:
Độ lệch chuẩn trong tiếng Anh là Standard Deviation.
Độ lệch chuẩn được hiểu là một phép đo lường trong thống kê và trong tài chính được áp dụng cho tỉ lệ hoàn vốn hàng năm của một khoản đầu tư, để làm sáng tỏ những sự biến động trong lịch sử khoản đầu tư đó.
Độ lệch chuẩn của một cổ phiếu càng lớn, hay phương sai giữa giá cổ phiếu và giá trị trung bình càng lớn, cho thấy phạm vi giá giao động càng rộng. Ví dụ, một cổ phiếu bất ổn có độ lệch chuẩn cao, trong khi độ lệch chuẩn của một cổ phiếu blue-chip ổn định thường khá thấp.
Độ lệch chuẩn cũng được tính là căn bậc hai của phương sai, được tính bằng cách xác định sự chênh lệch giữa mỗi điểm dữ liệu so với giá trị trung bình. Nếu một điểm dữ liệu nằm xa giá trị trung bình, điểm đó có độ lệch cao trong tập dữ liệu, dữ liệu càng có độ dàn trải rộng thì độ lệch chuẩn càng cao.
Phương sai:
Phương sai trong tiếng Anh là Variance. Được kí hiệu là σ2 trong thống kê.
Trong đầu tư tài chính, phương sai lợi nhuận của các tài sản trong một danh mục đầu tư được sử dụng như một phương tiện để nhằm mục đích có thể phân bổ tài sản một cách tốt nhất. Phương trình phương sai, trong đầu tư tài chính là công thức để so sánh hiệu quả của các thành phần trong danh mục đầu tư với nhau và so với giá trị hiệu quả trung bình.