Dữ liệu bảng Panel Data là gì

Nhóm Hỗ Trợ Stata giúp các bạn hiểu rõ khái niệm dữ liệu bảng bằng cách đưa ra hình trên. Dữ liệu bảng là sự kết hợp của dữ liệu chéo và chuỗi thời gian. Chuỗi thời gian ở đây là 4 năm 2014 2015 2016 2017. Dữ liệu chéo ở đây là tên 3 quốc gia : VietNam ThaiLand Malaysia. Như vậy bảng này có 3×4=12 dòng quan sát. Đây là định nghĩa đơn giản ngắn gọn dễ hiểu nhất về dữ liệu bảng panel data. ( lưu ý số liệu GDP, Population chỉ là minh họa cho dữ liệu bảng, chưa chính xác). Nói ngắn gọn, dữ liệu bảng có qui mô về thời gian lẫn không gian.

Dữ liệu bảng còn được gọi bằng các tên khác, như là dữ liệu gộp chung (gộp chung các quan sát chéo và chuỗi thời gian), là sự kết hợp của dữ liệu chéo và chuỗi thời gian, dữ liệu bảng vi mô (micropanel data), dữ liệu dọc (longitudinal data) (đó là một nghiên cứu nào đó theo thời gian về một biến hay một nhóm đối tượng), phân tích lịch sử sự kiện (thí dụ, nghiên cứu sự thay đổi theo thời gian của những đối tượng qua các tình trạng hay các điều kiện được tiếp diễn theo thời gian), phân tích theo tổ (cohort analysis). Mặc dù có những sự thay đổi tinh tế, nhưng tất cả các tên gọi này thực chất muốn nói đến sự thay đổi theo thời gian của các đơn vị chéo. Vì thế, chúng ta sẽ sử dụng thuật ngữ dữ liệu bảng theo nghĩa chung để bao gồm một hay nhiều hơn các thuật ngữ nói trên. Và chúng ta sẽ gọi các mô hình hồi quy dựa trên dữ liệu như thế là các mô hình hồi quy dữ liệu bảng.

Những ưu điểm của dữ liệu bảng so với dữ liệu chéo hay dữ liệu chuỗi thời gian 1. Bởi vì dữ liệu bảng liên hệ đến các cá nhân, các doanh nghiệp, các tiểu bang, các quốc gia v.v theo thời gian, nên chắc chắn có tính không đồng nhất trong các đơn vị này. Các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất đó một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo cá nhân, như chúng tôi sắp cho thấy. Chúng tôi sử dụng thuật ngữ cá nhân ở đây theo nghĩa chung nhất để bao gồm các đơn vị vi mô như các cá nhân, doanh nghiệp, tiểu bang và quốc gia. 2. Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho chúng ta “dữ liệu chứa nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.” 3. Bằng cách nghiên cứu quan sát lập đi lập lại của các đơn vị chéo, dữ liệu bảng phù hợp hơn cho việc nghiên cứu sự động thái thay đổi theo thời gian của các đơn vị chéo này. Những tác động của thất nghiệp, tốc độ quay vòng việc làm, tính dịch chuyển của lao động được nghiên cứu tốt hơn khi có dữ liệu bảng. 4. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà người ta không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy. Thí dụ, tác động của các luật về mức lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta bao gồm các đợt gia tăng mức lương tối thiểu liên tiếp trong các mức lương tối thiểu của liên bang và/hoặc tiểu bang. 5. Dữ liệu bảng làm cho chúng ta có thể nghiên cứu các mô hình hành vi phức tạp hơn. Thí dụ, chúng ta có thể xử lý tốt hơn bằng dữ liệu bảng các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi công nghệ so với dữ liệu chéo hay dữ liệu chuỗi thời gian. 6. Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu chúng ta gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao. Nói tóm lại, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chúng ta chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.

Hai kỹ thuật nổi bật để xử lý dữ liệu bảng là mô hình các tác động cố định (FEM) và mô hình các tác động ngẫu nhiên (REM) hay mô hình các thành phần sai số (ECM).

Trong FEM, tung độ gốc trong mô hình hồi quy được phép khác nhau giữa các cá nhân do công nhận sự thực là mỗi đơn vị chéo hay cá nhân có thể có một số đặc điểm đặc biệt riêng của nó. Ðể tính đến các tung độ gốc khác nhau, người ta có thể sử dụng các biến giả. FEM sử dụng các biến giả được gọi là mô hình biến giả bình phương nhỏ nhất (Least Square Dummy Variables – LSDV). FEM thích hợp trong những tình huống mà tung độ gốc chuyên biệt theo cá nhân có thể tương quan với một hay nhiều hơn một biến hồi quy độc lập. Một bất lợi điểm của LSDV là nó dùng hết nhiều bậc tự do khi số đơn chéo, N, rất lớn. Trong trường hợp này chúng ta sẽ phải đưa vào N biến giả (nhưng kìm hãm số hạng tung độ gốc chung). Một mô hình thay thế cho FEM là REM. Trong REM, người ta giả định rằng tung độ gốc của một đơn vị cá nhân được lấy ra ngẫu nhiên từ một tổng thể lớn hơn nhiều, với giá trị trung bình không đổi. Sau đó, tung độ gốc của cá nhân được thể hiện như một sự lệch khỏi giá trị trung bình không đổi này. Một ưu điểm của REM so với FEM là nó tiết kiệm được bậc tự do, bởi vì chúng ta không phải ước lượng N tung độ gốc chéo. Chúng ta chỉ cần ước lượng giá trị trung bình của tung độ gốc và phương sai của nó. REM thích hợp trong các tình huống mà tung độ gốc (ngẫu nhiên) của mỗi đơn vị chéo không tương quan với các biến hồi quy độc lập.Lựa chọn mô hình

Để lựa chọn giữa OLS và FEM, chạy F test. F test kiểm tra có phải fixed effects =0 hay không. Nếu p-value<5%, bác bỏ giả thiết H0( H0: fixed effects =0 ), sau đó mới dùng kiểm định Hausman so sánh để chọn FEM và REM.

Trên đây đã giới thiệu căn bản về data panel các bạn cần hỗ trợ giải đáp thắc mắc cứ liên hệ nhóm tại đây nhé. https://phantichstata.com/lien-he-gioi-thieu

File hướng dẫn chương trình kinh tế FullBright: MPP03-521-R22V-2012-02-10-10300799.pdf

Hỏi Đáp

Dữ liệu bảng Panel Data là gì – Phân Tích Stata