داده‌های پانلی - ویکی‌پدیا، دانشنامهٔ آزاد

داده‌های پانلی در آمار و اقتصادسنجی، مجموعه داده‌های پانلی شامل مشاهداتی برای چندین بخش (خانوار، بنگاه و...) هستند که در طی زمان‌های مختلف جمع‌آوری شده‌اند. یعنی یک مدل داده‌های پانل حاوی اطلاعاتی در زمان و مکان است که شامل N مؤلفه در T دورهٔ زمانی است.

اگر تعداد مشاهدات زمانی برای تمام مؤلفه‌های موجود در پانل یکسان باشد، به آن پانل متوازن (Balanced Panel) گفته می‌شود، اما درصورتی‌که مشاهدات مفقوده‌ای برای تعدادی از مؤلفه‌ها وجود داشته‌باشد، پانل را نامتوازن می‌نامیم.

مزایای داده‌های پانل[ویرایش]

۱- محققان می‌توانند از داده‌های پانلی برای مواردی که مسائل را نمی‌توان صرفاً به‌صورت سری زمانی یا برشهای مقطعی بررسی کرد، بهره گیرند. مثلاً در بررسی تابع تولید مسئله‌ای که وجود دارد این است که بتوان تغییرات تکنولوژیک را از بهره‌وری نسبت به مقیاس TFP تفکیک کرد. در این‌گونه موارد داده‌های مقطعی فقط اطلاعاتی را در مورد صرفه‌های به مقیاس فراهم می‌آورد. در حالی که داده‌های سری زمانی اثرات هردو را بدون هیچ گونه تفکیکی نشان می‌دهد. تلفیق داده‌های سری زمانی با داده‌های مقطعی نه‌تنها می‌تواند اطلاعات سودمندی را برای تخمین مدل‌های اقتصادسنجی فراهم آورد، بلکه بر مبنای نتایج به‌دست‌آمده می‌توان استنباط‌های سیاست‌گزاری درخور توجهی نیز به عمل آورد.

۲- داده‌های پانلی حاوی اطلاعات بیشتر، تنوع گسترده‌تر و هم‌خطی کمتر میان متغیرها بوده و در نتیجه کاراتر می‌باشند. درحالی‌که در سری‌های زمانی هم‌خطیِ بیشتری را بین متغیرها مشاهده می‌کنیم. با توجه به اینکه داده‌های پانلی ترکیبی از سری‌های زمانی و مقطعی می‌باشد، بعد مقطعی موجب اضافه شدن تنوع زیادی شده و در نتیجه برآوردهای معتبرتری را می‌توان انجام داد. در اینجا تعداد مشاهدات ما به NT افزایش یافته که منجر به برآوردهای کاراتری از متغیرها می‌شود. این امر را می‌توان در محاسبه واریانس جامعه مشاهده کرد. در داده‌های سری زمانی این واریانس به‌صورت σ^2=σ2/N-K محاسبه می‌شود ولی در داده‌های پانلی به‌صورت σ^2=σ2/NT-N-K قابل محاسبه است. چون مخرج کسر دومی بزرگتر از کسر اولی است، پس واریانس داده‌های پانلی کمتر بوده و بنابراین تخمین کاراتری خواهد داشت.

۳- داده‌های پانلی امکان طراحی الگوهای رفتاری پیچیده تری را فراهم می‌کنند.

۴- داده‌های پانلی امکان بیشتری را برای شناسایی و اندازه‌گیری اثراتی فراهم می‌کنند که با اتکای صرف به آمارهای مقطعی یا سری زمانی به‌سادگی قابل شناسایی نیستند.

روش‌های تخمین مدل[ویرایش]

نمونه مدلی که برای توضیح رفتار متغیرها در این نوع داده‌ها می‌توان ساخت به‌صورت زیر است:

$Y_{it}=\alpha _{i}+\beta 'X_{it}+u_{it}.$

که در آن β یک بردار k*1 از پارامترها، $X_{it}$ یک بردار k*1 از مشاهدات مربوط به متغیرهای توضیحی، t=1,2،...,T و i=1,2،...,N است. همچنین فرض بر این است که جمله اخلال یک نوفه سفید (white noise) است.
قبل از هر چیز، باید نوع داده‌ها از جهت پانل یا پولین بودن مشخص شود که برای این منظور از آزمون لیمر استفاده خواهد شد که دارای آمارهٔ F است. در این‌جا دو حالت وجود دارد؛ یا داده‌های ما از نوع پولینگ‌اند که باید با استفاده از روش اثرات مشترک تخمین زده شوند، یا داده‌ها از نوع پانل هستند کا باید با استفاده از یکی از دو روش اثرات پابت یا اثرات متغیر، که در ادامه ارائه شده‌اند، تخمین زده شوند (عزت‌الله لطفی، ۱۳۹۱).

نخست مدل اثرات ثابت که در آن  $\alpha _{i}$ ها N پارامتر نامعلوم ولی ثابت هستند و دیگری مدل اثرات تصادفی که در آن عرض از مبدأ ثابت نبوده و تصادفی است و همچنین مستقل از متغیرهای توضیحی می‌باشد.

مدل اثرات ثابت[ویرایش]

در این مدل هر یک از مؤلفه‌ها یک مقدار ثابت مخصوص به خود دارد و به‌دلیل آن‌که برای کار کردن با هر یک از این مقادیر ثابت، یک متغیر مجازی دز نظر گرفته می‌شود، تخمین زن اثرات ثابت، تخمین زن متغیرهای مجازی حداقل مربعات (LSDV) نیز نامیده می‌شود. این مدل را می‌توان به شکل زیر نوشت:

$Y=D\alpha +X\beta +u.$ که در آن D ماتریس متغیرهای مجازی با ابعاد NT*N. و X ماتریس متغیرهای توضیحی با ابعاد NT*k. و β نیز ماتریس ضرایب با ابعاد k*1 می‌باشند.

مدل اخیر یک مدل رگرسیونی کلاسیک بوده و هیچ شرط جدیدی برای تجزیه و تحلیل آن لازم نیست و می‌توان مدل را با استفاده از OLS برآورد کرد.

مزیت مدل با اثرات ثابت این است که می‌تواند اثراتی را که در هر یک از مؤلفه‌ها متفاوت است ولی در طول زمان تغییر نمی‌کند، نشان دهد. البته پس از تشکیل مدل دیگر نمی‌توان به آن متغیری افزود که در طول زمان تغییر نکند، چرا که با اثرات ثابت موجود همخطی کامل پیدا خواهد کرد. از سوی دیگر عیب چنین مدلی این است که در آن باید برای هریک از متغیرهای مجازی یک ضریب و در مجموع N ضریب تخمین زد. این امر هنگامی که تعداد مؤلفه‌ها یعنی N خیلی زیاد باشد، که معمولاً نیز چنین است، مسئله ساز خواهد شد.

برای برطرف کردن این مشکل یک راه آن است که میانگین زمانی هر یک از متغیرها را از مقدار اصلی آن‌ها کم کنیم. با این کار به مدلی می‌رسیم که فاقد عرض از مبدأ خواهد بود و می‌توانیم روش حداقل مربعات معمولی را برای آن اجرا کنیم که مراحل تکنیکیِ آن در زیر آورده شده است:
$y_{it}-{\overline {y_{i}}}=\left(X_{it}-{\overline {X_{i}}}\right)\beta +\left(u_{it}-{\overline {u_{i}}}\right)$ where ${\overline {X_{i}}}={\frac {1}{T}}\sum \limits _{t=1}^{T}X_{it}$ and ${\overline {u_{i}}}={\frac {1}{T}}\sum \limits _{t=1}^{T}u_{it}$ .
$\qquad {\hat {\beta }}_{FE}=\left(\sum \limits _{i,t}^{I}{\widehat {x}}_{it}^{\prime }{\widehat {x}}_{it}\right)^{-1}\sum \limits _{i,t}^{I}{\widehat {x}}_{it}^{\prime }{\widehat {y}}_{it}$

where ${\widehat {x}}_{it}=\left(X_{it}-{\overline {X_{i}}}\right)$ and ${\widehat {y}}_{it}=y_{it}-{\overline {y_{i}}}$

روش دیگر آن است که تفاضل مرتبه اول متغیرها را به جای آن‌ها در مدل به کار ببریم. در این صورت نیز عرض از مبدأ از مدل حذف می‌شود و مشکل تعداد زیاد پارامترها برای تخمین نیز برطرف می‌شود:
$y_{it}-y_{it-1}=\left(X_{it}-X_{it-1}\right)\beta +\left(u_{it}-u_{it-1}\right)$
${\hat {\beta }}_{FD}=\left(\sum \limits _{i,t}^{I}{\widehat {x}}_{it}^{\prime }{\widehat {x}}_{it}\right)^{-1}\sum \limits _{i,t}^{I}{\widehat {x}}_{it}^{\prime }{\widehat {y}}_{it}$
where ${\widehat {x}}_{it}=\left(X_{it}-X_{it-1}\right)$ and ${\widehat {y}}_{it}=y_{it}-y_{it-1}$

مدل اثرات تصادفی[ویرایش]

یک روش جایگزین برای تخمین مدل اثرات ثابت، تخمین مدل اثرات تصادفی است. تفاوت چنین مدلی با اثرات ثابت این است که در آن عرض از مبدأ مختص هر یک از متغیرها مقادیر ثابتی نیستند، بلکه به‌صورت تصادفی انتخاب می‌شوند. لذا مقدار $\alpha _{i}$ در مدل کلی برابر است با $\alpha _{it}=\mu _{i}+\nu _{it}.$ که در آن $\nu _{i}$ یک متغیر تصادفی نوفه سفید با میانگین صفر و واریانس $\sigma _{\nu }^{2}$ است. یک فرض مهم این است که متغیر $\nu _{i}$ باید مستقل از متغیرهای توضیحی و اجزای خطای $u_{i}$ باشد. اگر $\nu _{i}$ ها با متغیرهای توضیحی همبسته باشند، آنگاه تخمین زن‌های اریب و ناسازگاری بدست خواهند آمد. از سوی دیگر مزیت این مدل بر مدل اثرات ثابت آن است که تعدادپارامترهای کمتری باید تخمین زده شود.

فرم کلی چنین مدلی به‌صورت روبرو می‌باشد:

$Y_{it}=\mu +\beta 'X_{it}+v_{i}+u_{it}.$

برای تخمین این مدل باید توجه داشت که در این حالت واریانس‌های مربوط به مقاطع مختلف با هم یکسان نبوده و مدل ما دچار واریانس ناهمسانی می‌باشد که باید از با استفاده از برآوردگر GLS آن را تخمین زد. به‌صورت زیر:

{\widehat {\beta }}=(X'\Omega ^{-1}X)^{-1}(X'\Omega ^{-1}Y)\,

{\widehat {\Omega }}=\mathrm {I} \otimes \Sigma \,

که در آن $\Sigma$ واریانس $u_{it}$ و $\mathrm {I}$ ماتریس واحد و $\Omega$ ماتریس واریانس-کوواریانس می‌باشد.

با معرفی این دو روش سؤالی که پیش می‌آید این است که در عمل ما بایستی کدامیک از روش‌های مذکور را استفاده کنیم. برای تصمیم‌گیری از آزمون هاسمن کمک می‌گیریم.

آزمون هاسمن[ویرایش]

برای آن‌که بتوانیم بین مدل‌های اثرات ثابت و اثرات تصادفی ازنظر قدرت توضیح دهندگی متغیر وابسته مقایسه‌ای انجام دهیم، از آزمونی به نام آزمون هاسمن استفاده می‌کنیم. از آنجا که برای انجام مقایسه بین این دو مدل باید وجود همبستگی بین اثرات تصادفی ( $\alpha _{i}$ ) و رگرسورها را مورد آزمون قرار دهیم، لذا در آزمون هاسمن فرضیه صفر این است که هیچ همبستگی میان اثرات تصادفی و رگرسورها وجود ندارد. تحت این فرضیه، تخمین زن هایOLS وGLS هر دو سازگار هستند ولی تخمین زن OLS ناکاراست. در شرایطی که تحت فرضیه مقابل، تخمین زن OLS کارا و سازگار ولی تخمین زن GLS ناسازگار است.

آماره این آزمون به‌صورت زیر است:
$H=(b_{1}-b_{0})'(\operatorname {Var} (b_{0})-\operatorname {Var} (b_{1}))^{-1}(b_{1}-b_{0}),$

چنانچه آماره آزمون محاسبه شده بزرگتر از مقدار جدول باشد، فرضیه H0 رد شده و همبستگی وجود داشته و در نتیجه باید از روش اثرات ثابت استفاده کرد.

پانویس[ویرایش]

منابع[ویرایش]

Verbeek، Marno. A Guide to Modern Econometrics، 2nd edition،John Wiley &Sons 2004
http://en.wikipedia.org/wiki/Panel_data
https://web.archive.org/web/20180809185624/http://dpzs.ir/
https://web.archive.org/web/20100414005722/http://www.srtc.ac.ir/dic2.htm