Hello các bạn, có phải bạn đang gặp khó khăn vì không biết dữ liệu bảng – panel data là gì? hay không biết cách nhận biết đâu là dữ liệu bảng – panel data ra làm sao. Hãy để Mosl.vn giúp các bạn hiểu và nhận biết bộ dữ liệu dạng bảng này trong vòng 5s nhé.
1. Dữ liệu bảng – Panel Data là gì?
Khái niệm dữ liệu bảng panel data là gì? sẽ được giải thích ngắn gọn trong 3 chấm đầu dòng sau:
- Trong thống kê và kinh tế lượng, dữ liệu bảng panel data hay dữ liệu đọc (longitudinal data) là loại dữ liệu đa chiều liên quan đến các phép đo theo thời gian. Dữ liệu bảng panel data là tập hợp con của dữ liệu theo chiều dọc.
- Chú ý rằng bảng dữ liệu và dữ liệu bảng là hoàn toàn khác nhau nhé các bạn.
- Dữ liệu chuỗi thời gian và dữ liệu chéo (cross-sectional) có thể được coi là các trường hợp đặc biệt của dữ liệu bảng chỉ ở một thứ nguyên (một thành viên hoặc cá nhân của nhóm cho cái trước, một mốc thời gian cho cái sau).
Ngắn gọn hơn thì dữ liệu bảng chính là tập hợp của hai loại dữ liệu chuỗi thời gian (time – series) và dữ liệu chéo (Cross-setional).
Tham khảo 2 bài viết: Dữ liệu chéo Cross-sectional là gì? và Dữ liệu chuỗi thời gian là gì
Làm thế nào để thu thập được Dữ liệu bảng panel data cho nghiên cứu?
- Để thu thập dữ liệu bảng (panel data), các bạn phải thu thập được khoảng không gian (tức là các đối tượng ví dụ như công ty; quốc gia; …) và khoảng thời gian (tức khoảng thời gian mà bạn cần phải thu thập nằm trong giai đoạn quý, tháng hay nămg…) .
Ví dụ đơn giản bạn có thể thu thập các dữ liệu của cùng các cá nhân, công ty, tập đoàn, trường học, thành phố, quốc gia… trong giai đoạn từ năm 2000 đến 2020 là có được một bộ dữ liệu bảng (panel data) thật đơn giản rồi nhé!
1.1. Ưu nhược điểm của “Dữ liệu bảng – Panel data”
Dữ liệu bảng (Panel data) có một số ưu điểm như sau:
- Dữ liệu bảng có thể mô hình hóa cả hành vi chung và hành vi cá nhân của các nhóm.
- Dữ liệu bảng chứa nhiều thông tin hơn so với dữ liệu chuỗi thời gian và dữ liệu chéo.
- Dữ liệu bảng cho phép chúng ta kiểm soát các yếu tố không quan sát được. Điều này có thể rất cần thiết để giảm sự thiên chệch trong ước lượng.
- Thông thường có nhiều sự biến động trong dữ liệu bảng hơn dữ liệu chéo hoặc dữ liệu thời gian.
- Sự biến động trong dữ liệu bảng là nhiều nên làm độ chính xác của các ước lượng càng cao.
Nắm được Ưu điểm của Panel data là gì rồi nhưng còn nhược điểm không biết ở đâu phải hông?
- Thật ra nhược điểm của panel data nằm ở tính chất của nó và làm nó không thể thực hiện được với dữ liệu thời gian (như cách mà dữ liệu chuỗi thời gian đã làm) điều đó là hiển nhiên rồi.
- Nhược điểm tiếp là dữ liệu bảng chỉ phục vụ cho dữ liệu tách biệt từng cá thể tức không lặp lại trong 1 cá thể nào trong mẫu dữ liệu, nếu không là bị lỗi nha.
- Dữ liệu bảng có nhược điểm là luôn dính các khuyết tật và nổi bật nhất là 2 khuyết tật hiện tượng phương sai sai số thay đổi và hiện tượng tự tương quan, xa hơn thì là nội sinh trong mô hình…
Hết rồi đó còn nữa bạn tham khảo thêm tài liệu nước ngoài nhé, nếu chưa biết hiện tượng phương sai sai số thay đổi hay tự tương quan là gì tham khảo 2 bài viết 1 để link trong từng khuyết tật rồi đó nha.
1.2. Ví dụ về “Dữ liệu bảng – Panel Data”
1.3. Mô hình “Balanced Panel Data” và “Unbalanced Panel Data”
Dữ liệu bảng (panel data) cũng có thể được mô tả là dữ liệu bảng không cân bằng (Unbalanced Panel Data) hoặc dữ liệu bảng cân bằng (Balanced Panel Data):
Hiểu được Balanced Panel Data và Unbalanced Panel Data:
- Tập dữ liệu bảng cân bằng (Balanced Panel Data): có cùng số lượng quan sát đầy đủ cho tất cả các nhóm.
- Tập dữ liệu bảng không cân bằng (Unbalanced Panel Data): có các giá trị bị thiếu tại một số thời điểm quan sát đối với một số nhóm.
Một số lưu ý khi sử dụng dữ liệu bảng:
- Hãy cố gắng thu thập đủ đối tượng (N) với số lượng thời gian (T) sao cho N > T.
- Một số kiểm định sẽ bị lỗi khi dữ liệu bảng (panel data) là Unbalanced Data.
2. Mẹo nhận biết “Dữ liệu bảng – Panel data” trong 5s
Như đã hứa ở đầu bài MOSL sẽ giúp bạn nhận biết dữ liệu bảng chỉ trong 5 giây với:
- Mục bôi đỏ thể hiện cho không gian tức thể hiện cho 2 quốc gia đó là Cambodia và Indonesia;
- Mục bôi vàng thể hiện cho khoảng thời gian từ năm 2000 đến năm 2006 của mỗi quốc gia.
Vậy đấy nhận biết dữ liệu bảng panel data rất đơn giản phải không các bạn?
Nếu để ý kĩ hơn bạn sẽ thấy sự kết hợp giữa dữ liệu chéo (cross-sectional) và dữ liệu chuỗi thời gian trong mô hình. Cụ thể dữ liệu chéo ở đây chính là hai quốc gia Cambodia và Indonesia và dữ liệu thời gian ở đây chính là thời gian chúng ta thêm vào.
Ví dụ nếu bỏ đi quốc gia Indonesia thì trong bảng dữ liệu chỉ còn Cambodia cùng với thời gian từ 2000 đến 2006 – vậy đây là dữ liệu thời gian; ngược lại nếu bỏ thời gian hết đi chỉ giữ lại Country gồm 2 quốc gia trên thì bảng dữ liệu sẽ là dữ liệu chéo. Cực kỳ đơn giản phải không ạ!
Giải quyết xong các câu hỏi panel data là gì và cách nhận biết panel data là gì và như thế nào rồi ta tiến hành đi vào cách sử dụng dữ liệu bảng panel data là gì trong phần mềm Stata ở phần tiếp nào.
Xem thêm: Cách đọc bảng kết quả Stata nếu chưa biết nè
2.1. Cách tạo dữ liệu bảng panel data trong phần mềm Stata
Xem hướng dẫn nhập dữ liệu vào phần mềm Stata này nếu chưa biết để làm phần bôi đen bên dưới nha.
Sau khi import dữ liệu vào phần mềm Stata thì hãy thực hiện 2 bước sau:
- Trước tiên, bạn cần phải mã hoá biến không gian (Country) từ kiểu string ban đầu thành dữ liệu kiểu long để Stata có thể hiểu và bắt đầu set up không gian cho dữ liệu.
Câu lệnh đơn giản như sau: “encode Country, gen(country)“ (Lưu ý bạn có thể gen đổi thành bất cứ tên gì bạn muốn để tiện trong quá trình trình bày của mình)
- Bước tiếp theo, hãy nhớ set up không gian (Country) và thời gian (Year) để Stata hiểu với lệnh:
Lệnh: “xtset country Year” (Lưu ý: country ở đây chính là biến đã được mã hoá ở lệnh trước)
Tham khảo thêm: Hướng dẫn sử dụng phần mềm Stata
Khi đã hiểu được dữ liệu bảng panel data là gì thì việc nhập vào Stata dễ phải không nhỉ? Kể cả dữ liệu chéo là gì hay các khải niệm tương tự cũng không làm khó ta được.
2.2. Các mô hình nổi bật trong xử lý dữ liệu bảng là gì? – Panel data
Hai mô hình nổi bật để xử lý dữ liệu bảng là mô hình các tác động cố định (FEM) và mô hình các tác động ngẫu nhiên (REM).
- Trong FEM, mô hình này được sử dụng thường xuyên trong dữ liệu bảng để lựa chọn và so sánh với REM trong mô hình nhằm lựa chọn được mô hình tối ưu cho nghiên cứu.
- Trong REM, mô hình này luôn đi chung với FEM trong các nghiên cứu và cũng được đem ra so sánh với nhau bằng kiểm định Hausman Test để tìm ra được mô hình tối ưu cho nghiên cứu.
Ngoài ra còn có các mô hình nâng cao khác như mô hình Pooled OLS, GLS, GMM, IV, 2SLS, 3SLS,.. sẽ được bàn trong các phần tiếp theo.
3. Các mô hình dữ liệu bảng động panel data
3.1. Mô hình hiệu ứng cố định một chiều (FE – Fixed Effect Model Oneway) là gì?
Mô hình dữ liệu bảng hiệu ứng cố định một chiều :
- Bao gồm các hiệu ứng theo thời gian cụ thể hoặc theo từng cá nhân không thể quan sát được. Các hiệu ứng này nắm bắt các biến bị bỏ qua.
- Giả định rằng các tác động cụ thể của từng cá nhân có tương quan với các đặc điểm quan sát được, xtôit
- Các ước tính OLS tổng hợp cho dữ liệu được tạo bởi quá trình này sẽ không nhất quán.
Để hiểu rõ hơn xin tham khảo bài viết Mô hình hiệu ứng cố định (FEM) của Mosl
3.2. Mô hình hệ số ngẫu nhiên một chiều là gì? (RE – Random Effecr Model Oneway)
Các một chiều mô hình dữ liệu hiệu ứng ngẫu nhiên panel :
- Bao gồm các hiệu ứng theo thời gian cụ thể hoặc theo từng cá nhân không thể quan sát được,δztôi, hoạt động giống như các thuật ngữ lỗi ngẫu nhiên cụ thể cho từng cá nhân.
- Giả định rằng những tác động này không tương quan với các đặc điểm quan sát được,xtôit.
- Không dẫn đến các ước lượng OLS sai lệch về hệ số nhưng dẫn đến các tham số không hiệu quả và các công cụ suy luận tiêu chuẩn không chính xác.
Để hiểu rõ hơn xin tham khảo bài viết Mô hình hiệu ứng ngẫu nhiên (REM) của Mosl
3.3. Mô hình Hệ số Ngẫu nhiên là gì? RC (Random Coefficients Model)
Các hồi quy dữ liệu bảng (panel data) là gì? mà Mosl đã xem xét cho đến nay đều giả định rằng các hệ số trên các hồi quy là giống nhau trên tất cả các cá nhân.
Mô hình hệ số ngẫu nhiên nới lỏng giả định này và đưa ra các hiệu ứng cụ thể cho từng cá nhân thông qua hệ số.
3.4. Mô hình Hiệu ứng Cố định Hai chiều là gì? (FE – Fixed Effect Model Twoway)
Giống như mô hình hiệu ứng cố định một chiều, mô hình này có thể được ước tính bằng cách bao gồm các biến giả. Tuy nhiên, trong mô hình hiệu ứng cố định hai chiều, các biến giả phải được đưa vào cho cả các khoảng thời gian và các nhóm.
Trong hầu hết các trường hợp, số lượng biến giả được đưa vào mô hình hiệu ứng cố định hai chiều làm cho việc ước lượng bình phương nhỏ nhất thông thường tiêu chuẩn trở nên quá khó khăn về mặt tính toán. Thay vào đó, mô hình tác động cố định hai chiều được ước tính bằng cách sử dụng công cụ ước tính trong nhóm loại bỏ sự thay đổi cả trong nhóm và trong khoảng thời gian.
3.5. Mô hình hiệu ứng ngẫu nhiên hai chiều là gì? (RE – Random Effecr Model Twoway)
Đối với dữ liệu được tạo ra bởi quá trình này:
- Các ước tính OLS tổng hợp sẽ không thiên vị. Tuy nhiên, các ước lượng sẽ không hiệu quả và các sai số tiêu chuẩn liên quan và thống kê t sẽ bị sai lệch.
- Giống như mô hình tác động ngẫu nhiên một chiều, mô hình tác động ngẫu nhiên hai chiều có thể được ước tính bằng cách sử dụng bình phương nhỏ nhất tổng quát khả thi (FGLS) hoặc ước tính khả năng xảy ra tối đa (MLE).
3.6. Mô hình dữ liệu bảng điều khiển động – Dynamic Panel Data là gì?
Một thành phần quan trọng của mô hình chuỗi thời gian thuần túy là mô hình hóa động lực học bằng cách sử dụng các biến phụ thuộc trễ. Các biến trễ này ghi lại sự tự tương quan giữa các quan sát của cùng một tập dữ liệu tại các thời điểm khác nhau.
Bởi vì tập dữ liệu bảng bao gồm một thành phần chuỗi thời gian, điều quan trọng là phải giải quyết khả năng tự tương quan trong dữ liệu bảng. Mô hình dữ liệu bảng điều khiển động bổ sung động lực học vào khuôn khổ hiệu ứng riêng lẻ của dữ liệu bảng điều khiển .
Giới thiệu các biến phụ thuộc trễ trong khung tác động riêng lẻ:
- Bình phương nhỏ nhất thông thường (OLS) sẽ dẫn đến ước lượng sai lệch vì tương quan nối tiếp.
- Các mô hình dữ liệu bảng động được ước tính phổ biến nhất bằng cách sử dụng phương pháp tổng quát về khung thời điểm (GMM) do Arellano và Bond (1991) đề xuất.
Xong nha ngoài panel data là gì Mosl đã giới thiệu thêm khá nhiều dữ liệu bảng các loại khác mong bạn đọc tham khảo và áp dụng.
4. Video hướng dẫn cách khai báo dữ liệu bảng trong phần mềm Stata
5. Kết luận
Dưới đây MOSL đã hướng dẫn cho các bạn biết dữ liệu bảng – panel data là gì; làm sao để nhận biết dữ liệu bảng (panel data) và tạo dữ liệu bảng (panel data) trong phần mềm stata;..
Sau blog hôm nay, bạn sẽ hiểu được các nguyên tắc cơ bản của dữ liệu bảng panel data là gì gồm:
- Panel data là gì
- Cấu trúc của chuỗi dữ liệu bảng điều khiển.
- Chuỗi dữ liệu bảng rộng so với bảng dài.
- Mô hình dữ liệu bảng hiệu ứng riêng lẻ một chiều.
- Mô hình dữ liệu bảng hiệu ứng riêng lẻ hai chiều.
- Các mô hình dữ liệu bảng động.
- Bên cạnh bổ sung thêm các dữ liệu khác như dữ liệu chéo là gì, dữ liệu chuỗi thời gian là gì,..
Cuối bài MOSL xin chúc các bạn học tập và làm việc hiệu quả.
Nhớ sử dụng Dịch vụ chạy Stata và Xử lý số liệu của Mosl để tiết kiệm thời gian hơn nhé!
Tag: Dữ liệu bảng panel data là gì – panel data là gì – panel data là gì – panel data là gì