تبليغاتX
آمار و نرم افزارهای آماری

   همونطور كه تو پست قبلي گفتم ما در آمار به دنبال پيدا كردن بهترين هستيم. هدف بخش اعظم روشهاي آماري برازش مدلي به داده هاست. و قاعدتا چون ميتوان مدلهاي بسياري براي داده ها در نظر گرفت، يافتن "بهترين مدل" هدف آماردان است. اما آيا بهترين مدل وجود دارد؟

   در يك كتابي ( كه الان اسم نويسنده يادم نيست!) نويسنده حرف جالبي زده بود:

"همه مدلها نادرستند ولي بعضي از آنها قابل استفاده هستند."

  اين جمله بسيار بامعناست. در واقع مدل درست كه هدف نهايي تحليل آماري است، مگر در حالات خاص و بسيار بديهي، قابل دسترسي نيست. به عنوان مثال آيا ميتوان مدل كاملا درستي يافت كه بيانگر رابطه قد و وزن افراد يك جامعه باشد؟ (منظور از درست اين است كه به ازاي مقدار خاصي از وزن، مدل بتواند مقدار دقيق وزن شخص را بدون خطا ارائه دهد.) قطعا جواب منفي است.

   اما بخش دوم جمله فوق راهگشاي ما در يافتن "مدل مناسب" است. ما بايد مدلي را بيابيم كه "قابل استفاده" باشد، به اين معني كه با دقت معقولي بتواند رابطه بين متغيرها را بيان كند. براي درك بهتر موضوع به مثال زير در مورد مدل توجه كنيد.

   حتما همه شما روزهاي خوش بچگي و كلاسهاي درس مدرسه رو به ياد داريد. مثال من از همين كلاسهاست. يك بچه كلاس اول ميخواد نقاشي بكشه و موضوع نقاشي اون يك آدمه. اين بچه با توجه به تواناييهاش مدل زير رو به عنوان نتيجه تو دفترش ميكشه:

   اين نقاشي در واقع برآورديه كه اين دانش آموز از مدل درست يعني "آدم" داره. اون با توجه به تواناييهاش تونسته اين مدل رو برازش بده. حال سوال اينه كه طبق خواسته اوليه ما آيا ميشه مدل رو "قابل استفاده تر" كرد؟ جواب مثبته و دانش آموزي كه توانييهاي بيشتري داشته باشه ممكنه(!) بتونه مدل نزديكتري به واقعيت ارائه بده. همين دانش آموز وقتي به كلاس دوم ميرسه داراي تواناييهاي بيشتري شده و مدل زير نتيجه كار او در كلاس دومه. براي مقايسه بهتر من هر دو نقاشي رو كنار هم آوردم:

   و اين مسير ميتونه ادامه پيدا كنه تا زماني كه ما هنوز توانايي بهبود اين مدل رو داريم.

   در مسائل آماري نيز با توجه به تواناييها و اطلاعات در دسترس از پديده مورد بررسي ميتوان دنبال قابل استفاده ترين مدل گشت. قطعا اطلاعات بيشتر ميتواند منجر به مدل مناسبتر شود.

+ نوشته شده در  دوشنبه سیزدهم شهریور 1385ساعت 1:33  توسط انور  | 

"ما در آمار به دنبال بهترين ها هستيم"

   اين حرف يكي از اساتيد دوره ليسانس بود كه مدتها ورد زبون بچه ها شده بود. در عمل و در بسياري از مسائل آماري با چندين روش مختلف مواجهيم و پيدا كردن يك بهترين از بين اين روشها خود يك مساله است.

   اما يك سوال اين است كه چه ملاكهايي براي بدست آوردن بهترين بايد بررسي شود؟ به عنوان مثال در مساله برآورد نقطه اي ملاكهايي مثل "نا اريبي"،"كمترين واريانس داشتن"،"سازگاري" و ... براي يافتن بهترين برآورد در نظر مي گيرند.

   اما بحث من در مورد كلاسي از روشهاي آماري است كه به روشهاي استوار معروفند. همواره و در هر روش آماري مبناي كار بر روي يك مدل اوليه است كه درستي آنرا پذيرفته ايم. به عنوان مثال در رگرسيون مي پذريم كه خطاها مستقل و هم توزيع و داراي توزيع نرمال استاندارند. يك سوال كه اينجا مطرح ميشود اين است كه  روش به كار گرفته شده در تحليل با تخطي از مفروضات اوليه، چه آسيبي مي بيند؟ آيا باز نتايج قابل اعتمادند؟

   به عقیده هابر  یک روش آماری استوار باید برای مدل فرض شده به طور معقولی خوب عمل کند، باید با انحرافهای کوچک از مدل فرض شده آسیب اندکی ببیند و نباید با بعضی انحرافات بزرگتر بطور فاجعه باری آسیب ببیند.

   اين ايده باعث شد كه در اكثر روشهاي آماري جستجو براي روشهايي كه استوارتر هستند، بخشي از مسير يافتن بهترين باشد.

   انشاا.. در اين مورد بيشتر خواهم نوشت.

+ نوشته شده در  دوشنبه سیزدهم شهریور 1385ساعت 0:33  توسط انور  | 

در پست قبلی مطلبی رو مطرح کردم تحت عنوان : آزمون آماری یعنی "کشک" و اما پاسخ:

   برای سادگی، روش آزمون آماری رو راه (۱) و استفاده از منطق عامیانه رو (۲) می نامیم.مشابه این سوال در تمام موارد تصمیم آماری موجود است.در روش ۲ با استفاده از یک منطق درستتصمیمی در مورد فرضهای آماری گرفته شد.این مساله به خودی خود هیچ ایرادی ندارد.اما میدانیم که با توجه به دو حالتی بودن فرضها و نیز دو حالتی بودن تصمیم(رد یا قبول فرض صفر) امکان ۲ نوع خطا وجود دارد.برای مثال ممکن است خطای نوع اول اتفاق بیافتد یعنی فرض صفر را هنگامی که درست است به اشتباه رد کنیم. اگر بخواهیم در مورد میزان درستی این تصمیم اظهار نظر کنیم، می دانیم تصمیم یا درست است یا غلط.پس احتمال درست بودن تصمیم یا ۱ است یا ۰ .

   شروع بحث آزمون آماری از این نقطه است، در اینجا لزوم وجود روشهایی که بتواند اطمینانی از درستی تصمیم بدهد احساس می شود.توجه کنید موقعی که این اطمینان برای ما اهمیتی ندارد روش ۲ بدرستی عمل می کند.اما به علت امکان رخ دادن خطا در تصمیم گیری، همواره علاقه مندیم تا حد زیادی از درستی تصمیم اطمینان حاصل کنیم.در اینجا روشهای آماری به کمک ما می آیند و نتایجی را اعلام می کنند که همراه یک درصد اطمینان از درستی تصمیم است.

   بدیهی است که هماره روش ۲ ساده تر از روش ۱ خواهد بود.زیرا تمام فرضها را نمی توان به روشهای ساده آزمون کرد و بعضا انجام یک آزمون آماری احتیاج به معلومات و زمان زیادی دارد.جالب تر اینکه بیان نتیجه روش عامینه(۲) ساده تر نیز هست.اما زمانی که بخواهیم بحث اطمینان از درستی تصمیم را وارد قضیه کنیم،ناچارا مجبور به استفاده از روشهای آزمون آماری خواهیم بود.

  مشابه همین مسائل را می توان در مورد سایر تصمیم گیری های آماری مثل برآورد نقطه ای یا فاصله ای بیان کرد.

+ نوشته شده در  دوشنبه بیست و هشتم فروردین 1385ساعت 14:41  توسط انور  | 

امروز یه بحث جالب سر کلاس استنباط آماری در مورد آزمون فرض داشتیم که بد نیست براتون بنویسم.

   فرض کنید شخصی مایل است بداند آیا میانگین وزن دانشجویان دانشگاهی بیشتر از ۶۰ است ؟ روش نمونه گیری و تعداد نمونه وی را یک آماری تعیین می کند. میانگین بدست آمده از نمونه هه برابر ۶۵ است. شخص با این برهان که  ۶۰ < ۶۵ فرض "بیشتر بودن میانگین وزن از ۶۰" را می پذیرد.

   دوست آماری این شخص این برهان را نمی پذیرد و برای قانع کردن دوست خود این مساله را مطرح می کند که :

  اگر شما نمونه دیگری غیر از این نمونه از جامعه بگیری، نتیجه ممکن است تغییر کند.

   شخص با این استدلال قانع شده و از دوست آماری خود میخواهد تا با کمک آمار و با توجه به نمونه استخراج شده در مورد "بیشتر بودن میانگین وزن از ۶۰" اظهار نظر کند.دوست آماری قصه ما دست به کار می شود.فرضهای آماری را تشکیل می دهد و ...[باقی قضایا که بهتره سرتون رو درد نیارم]

   نهایتا دوست  آماری ما به ناحیه رد  می رسد. سپس با توجه به مقدار مشاهده شده ۶۵ و ناحیه رد ساخته شده تصمیم به رد فرض صفر می گیرد.

   توجه کنید هر دو نتیجه یکسان شد. شخص به این نتیجه اعتراض می کند و انجام آزمون آماری را بیهوده می داند.حتی به استدلال قبلی مطرح شده دوست(!) آماری خود اعتراض می کند که:

  اگر شما نمونه دیگری غیر از این نمونه از جامعه بگیری، باز همچون کاری که من انجام دادم نتیجه ممکن است تغییر کند.

   حال سوال اینکه: پس تفاوت روش آزمون آماری با یک تصمیم گیری ساده بدون آزمون که شخص انجام داد، چیست؟

   

+ نوشته شده در  دوشنبه پانزدهم اسفند 1384ساعت 11:4  توسط انور  | 

سلام

   بهرام یه مطلب در مورد نرم افزارهای مختلف آماری و کارکرد هرکدوم نوشته بود، دیدم بد نیست در مورد یکی از این نرم افزارها براتون بنویسم.

   نرم افزارهایی مثل SPSS و Minitab نرم افزارهای توانمندی هستند و انواع روشهای آماری را در دسترس کاربر میگزارند ولی وقتی به مسایل پیچیده و یا جدید آماری می رسیم باید منتظر بمونیم تا این شرکتها سر فرصت امکانات اجرای این چنین روشهایی رو  تو نرم افزارهاشون بگزارن.به عبارت دیگه این نرم افزارها توی چارچوب مشخصی امکانات در اختیار شما میگزارند.

   S-Plus یکی از نرم افزارهای بسیار قوی آماریه که علاوه بر امکانات این دو نرم افزار، قابلیت برنامه نویسی رو به تواناویهاش اضافه کرده و به این وسیله دست کاربر رو برای انجام عملیات پیشرفته آماری که در قالب روشهای از پیش آماده شده، قابل اجرا نیستند باز میگزاره.

   زبان S، زبان مورد استفاده در S-Plus نسبتا زبان مشکلیه و تسلط به اون سخته. ولی یک Help قوی برای این زبان داره که هر وقت به مشکل برخوردید میتونه کمک حالتون باشه.

   اصلی ترین کاربرد حال حاضر S-Plus در روشهای شبیه سازیه.که در مسایل پیچیده آماری به وفور کاربرد دارد.من سعی خواهم کرد هر چند وقت یه بار مطالبی در مورد برنامه نویسی در S-Plus و روشهای شبیه سازی براتون بنویسم.امیدوارم مفید واقع بشه.

+ نوشته شده در  یکشنبه یازدهم دی 1384ساعت 0:44  توسط انور  | 

قرار بود در ادامه مطلب نحوه تعریف User Missing values را در SPSS ببینیم.در مرحله تعریف متغیر در SPSS قسمتی به نام Missing وجود دارد که تعریف داده های گمشده کاربر در این قسمت صورت می گیرد.با کلیک روی مربع کوچکی که در خانه مربوط به متغیر مورد نظر و زیر ستون Missing  وجود دارد کادر زیر ظاهر میشود:

 

ملاحظه می کنید که ۳ انتخاب برای تعریف داد های گمشده داریم:

۱-no Missing values :اگر این گزینه فعال باشد داده گمشده کاربر تعریف نشده است.

۲-Discrete Missing values (مقادیر گمشده گسسته): با فعال کردن این گزینه میتوان برای تعریف مقادیر گمشده از یک(یا چند) مقدار گسسته استفاده کرد. مثلا اگر داده ها مربوط به وزن افراد هستند عدد ۰ گزینه مناسبی برای تعریف داده گمشده است.چون اولاْ هیچگاه وزن کسی ۰ نخواهد بود،ثانیاْ هنگام وارد کردن داده های مربوط به وزن کلید ۰ در دسترس و زدن آن بسیار ساده است.توجه کنید می توانستیم هر مقدار(یا مقادیر) دیگری را که مطمئن هستیم در دامنه داده ها نیست،در این قسمت وارد کنیم ولی وارد کردن هیچکدام مثل عدد ۰ راحت نیست.

۳.Range plus one optional discrete missing value(یک بازه به همراه یک مقدار گسسته اختیاری):SPSS این اجازه را به ما میدهد که با استفاده از این گزینه به جای یک یا چند مقدار گسسته از یک بازه برای تعریف مقادیر گمشده استفاده کنیم.مثلا فرض کنید نمرات یک سری دانشجو را وارد SPSS می کنیم.چون این نمرات بیت ۰ تا ۲۰ است میتوان از هر عدد ۳ رقمی برای تعریف داده های گمشده استفاده کرد.مثلاْ:

توجه کنید اعداد بین ۱۰۰ تا ۹۹۹ همگی ۳ رقمی هستند پس کافیست موقع وارد کردن داده ها فقط ۳ کلید از کلیدهای قسمت عددی صفحه کلید را بزنید.این گونه تعریف کردن مقادیر نشان دهنده داده های گمشده، باعث می شود موقع وارد کردن داده ها با مشکل کمتری روبرو شویم. در ضمن علاوه بر بازه تعریف شده میتوان یه عدد دیگر را نیز به این مقادیر اضافه کرد.مثلا اگر مطمئن باشیم که نمره ۰ نداریم میتوان ۰ را نیز به عنوان "نشان دهنده داده گمشده" تعریف کرد.

+ نوشته شده در  سه شنبه بیست و نهم آذر 1384ساعت 12:25  توسط انور  | 

در آمار همواره با داده گمشده یا Missing value  برخورد داریم.داده گمشده معمولا در مواردی مثل خالی ماندن جواب یک سوال در یک پرسشنامه،عدم یادداشت مقدار یک متغیر برای یک عضو نمونه و ... به وجود می آید. امروزه آماردان ها برای مقابله با این مساله در روشهای مختلف آماری راهکارهای وسیع و بعضا جالبی اندیشیده اند. مثلا پروفسور دوج کتابی تخت عنوان "طرحهای آزمایشی با داده های گمشده " نوشته که یک منبع جهانی است.

   اما موضوع بحث ما این نیست. موضوع بیشتر نحوه برخورد با این داده ها در SPSS است.قبل از آن بهتر است با یک مدل دیگر از داده های گمشده که در هنگام کار با نرم افزارها بوجود می آید آشنا شویم. بسیاری از مواقع پیش می آید که شخص در هنگام وارد کردن داده ها، به هر علتی مقادیر یک یا چند خانه را به اشتباه وارد نمیکند( به این موارد اصطلاحا داده های گمشده سیستم(System Missing) گفته می شود).دقیقا همانند داده های گمشده در جمع آوری داده ها ولی این بار گمشده در هنگام  وارد کردن آنها!

    SPSS در تحلیلهای خود مثل اِعمال در محاسبات، این داده ها را کنار میگزارد. پس به نظر می رسد بهترین راه در مواردی که در جمع آوری داده ها با داده گمشده مواجه میشویم این است که خانه مربوط به آن داده را خالی بگذاریم تا SPSS با آن به عنوان یک داده گمشده برخورد کند.به نظر روش راحت و کم دردسری به نظر میرسد.تنها اشکال این روش این است که حساب کتاب داده های گمشده واقعی ممکن است با داده های گمشده سیستم قاطی شود. شاید بپرسید چگونه؟ فرض کنید داده ها ۳ مقدار گمشده دارند و علاوه بر اینها در هنگام وارد کردن داده ها اشتباها ۲ خانه دیگر هم خالی مانده اند(گمشده سیستم شده اند.)

    حال SPSS در خروجی تعداد ۵ داده گمشده سیستم را گزارش میکند(یعنی SPSS فکر می کند(!!!) که ما در هنگام وارد کردن داده ها اشتباها این ۵ خانه را خالی گذاشته ایم.)با این مشکل چه باید کرد؟

   برای حل این مشکل در SPSS می توان این دو نوع مقدار گمشده را از هم تفکیک کرد به این ترتیب که مقادیر گمشده داده ها در هنگام جمع آوری را به عنوان داده های گمشده  کاربر(User Missing values) برای SPSS تعریف می کنیم.به این ترتیب در گزارش نهایی SPSS تعداد داده های گمشده کاربر و سیستم جداگانه گزارش می شود.

   در ادامه این بحث در قسمت بعد نحوه تعریف داده های گمشده در SPSS و چند نکته در این مورد را خواهیم دید.

+ نوشته شده در  شنبه بیست و ششم آذر 1384ساعت 11:46  توسط انور  | 

به نام خدا

 

*با پيشرفت علوم و گسترش تکنولوژی، اهميت استفاده از روشهای آماری در علوم مختلف بيش از پيش مورد توجه قرار گرفته است و آموختن آمار کاربردی در هر رشته جزء ملزومات گرديده است.

   *يک سری داده های آماری که در اولين وهله ی مطالعه بدست می آيد، به شکلی است که برای يک تعبير و تفسير فوری غير قابل استفاده است، هر چند که داده ها به صورت ساده ای باشند.

   *فرآيند آناليز آماری کمک ميکند تا پژوهشگر بتواند از داده های اوليه، اطلاعات مورد نياز خود را استخراج کند و در صورت لزوم نتايج را تعميم دهد.

   *آمار هنر بيرون كشيدن اطلاعات نهفته از داده های انبوه و سرگيجه آور است.

   *آنچه مهم و مفيد است اطلاعات است، اطلاعات همان داده های خام پردازش شده اند. اگر فکر ميکنيد که از داده ها به تنهائی کاری بر می آيد، سخت در اشتباهيد.

   *اگر حجم داده ها بزرگ باشد، استفاده از روشهای مختلف آناليز آماری بسيار خسته کننده و مشکل خواهد بود، امروزه انواع نرم افزارهای مختلف آماری موجودند که قادرند انواع آناليزهای آماری را انجام دهند.

   * SPSS (مخفف Statistical Package for Social Sciences) يکی از تواناترين و جامع ترين نرم افزارهای آماری است که با توجه به سادگی کار و ساير خصوصيات بارز آن امروزه پرکاربردترين نرم افزار آماری محسوب ميشود.

+ نوشته شده در  پنجشنبه بیست و چهارم آذر 1384ساعت 15:28  توسط انور  |