تبليغاتX
آمار و نرم افزارهای آماری

   همونطور كه تو پست قبلي گفتم ما در آمار به دنبال پيدا كردن بهترين هستيم. هدف بخش اعظم روشهاي آماري برازش مدلي به داده هاست. و قاعدتا چون ميتوان مدلهاي بسياري براي داده ها در نظر گرفت، يافتن "بهترين مدل" هدف آماردان است. اما آيا بهترين مدل وجود دارد؟

   در يك كتابي ( كه الان اسم نويسنده يادم نيست!) نويسنده حرف جالبي زده بود:

"همه مدلها نادرستند ولي بعضي از آنها قابل استفاده هستند."

  اين جمله بسيار بامعناست. در واقع مدل درست كه هدف نهايي تحليل آماري است، مگر در حالات خاص و بسيار بديهي، قابل دسترسي نيست. به عنوان مثال آيا ميتوان مدل كاملا درستي يافت كه بيانگر رابطه قد و وزن افراد يك جامعه باشد؟ (منظور از درست اين است كه به ازاي مقدار خاصي از وزن، مدل بتواند مقدار دقيق وزن شخص را بدون خطا ارائه دهد.) قطعا جواب منفي است.

   اما بخش دوم جمله فوق راهگشاي ما در يافتن "مدل مناسب" است. ما بايد مدلي را بيابيم كه "قابل استفاده" باشد، به اين معني كه با دقت معقولي بتواند رابطه بين متغيرها را بيان كند. براي درك بهتر موضوع به مثال زير در مورد مدل توجه كنيد.

   حتما همه شما روزهاي خوش بچگي و كلاسهاي درس مدرسه رو به ياد داريد. مثال من از همين كلاسهاست. يك بچه كلاس اول ميخواد نقاشي بكشه و موضوع نقاشي اون يك آدمه. اين بچه با توجه به تواناييهاش مدل زير رو به عنوان نتيجه تو دفترش ميكشه:

   اين نقاشي در واقع برآورديه كه اين دانش آموز از مدل درست يعني "آدم" داره. اون با توجه به تواناييهاش تونسته اين مدل رو برازش بده. حال سوال اينه كه طبق خواسته اوليه ما آيا ميشه مدل رو "قابل استفاده تر" كرد؟ جواب مثبته و دانش آموزي كه توانييهاي بيشتري داشته باشه ممكنه(!) بتونه مدل نزديكتري به واقعيت ارائه بده. همين دانش آموز وقتي به كلاس دوم ميرسه داراي تواناييهاي بيشتري شده و مدل زير نتيجه كار او در كلاس دومه. براي مقايسه بهتر من هر دو نقاشي رو كنار هم آوردم:

   و اين مسير ميتونه ادامه پيدا كنه تا زماني كه ما هنوز توانايي بهبود اين مدل رو داريم.

   در مسائل آماري نيز با توجه به تواناييها و اطلاعات در دسترس از پديده مورد بررسي ميتوان دنبال قابل استفاده ترين مدل گشت. قطعا اطلاعات بيشتر ميتواند منجر به مدل مناسبتر شود.

+ نوشته شده در  دوشنبه سیزدهم شهریور 1385ساعت 1:33  توسط انور  | 

"ما در آمار به دنبال بهترين ها هستيم"

   اين حرف يكي از اساتيد دوره ليسانس بود كه مدتها ورد زبون بچه ها شده بود. در عمل و در بسياري از مسائل آماري با چندين روش مختلف مواجهيم و پيدا كردن يك بهترين از بين اين روشها خود يك مساله است.

   اما يك سوال اين است كه چه ملاكهايي براي بدست آوردن بهترين بايد بررسي شود؟ به عنوان مثال در مساله برآورد نقطه اي ملاكهايي مثل "نا اريبي"،"كمترين واريانس داشتن"،"سازگاري" و ... براي يافتن بهترين برآورد در نظر مي گيرند.

   اما بحث من در مورد كلاسي از روشهاي آماري است كه به روشهاي استوار معروفند. همواره و در هر روش آماري مبناي كار بر روي يك مدل اوليه است كه درستي آنرا پذيرفته ايم. به عنوان مثال در رگرسيون مي پذريم كه خطاها مستقل و هم توزيع و داراي توزيع نرمال استاندارند. يك سوال كه اينجا مطرح ميشود اين است كه  روش به كار گرفته شده در تحليل با تخطي از مفروضات اوليه، چه آسيبي مي بيند؟ آيا باز نتايج قابل اعتمادند؟

   به عقیده هابر  یک روش آماری استوار باید برای مدل فرض شده به طور معقولی خوب عمل کند، باید با انحرافهای کوچک از مدل فرض شده آسیب اندکی ببیند و نباید با بعضی انحرافات بزرگتر بطور فاجعه باری آسیب ببیند.

   اين ايده باعث شد كه در اكثر روشهاي آماري جستجو براي روشهايي كه استوارتر هستند، بخشي از مسير يافتن بهترين باشد.

   انشاا.. در اين مورد بيشتر خواهم نوشت.

+ نوشته شده در  دوشنبه سیزدهم شهریور 1385ساعت 0:33  توسط انور  | 

در پست قبلی مطلبی رو مطرح کردم تحت عنوان : آزمون آماری یعنی "کشک" و اما پاسخ:

   برای سادگی، روش آزمون آماری رو راه (۱) و استفاده از منطق عامیانه رو (۲) می نامیم.مشابه این سوال در تمام موارد تصمیم آماری موجود است.در روش ۲ با استفاده از یک منطق درستتصمیمی در مورد فرضهای آماری گرفته شد.این مساله به خودی خود هیچ ایرادی ندارد.اما میدانیم که با توجه به دو حالتی بودن فرضها و نیز دو حالتی بودن تصمیم(رد یا قبول فرض صفر) امکان ۲ نوع خطا وجود دارد.برای مثال ممکن است خطای نوع اول اتفاق بیافتد یعنی فرض صفر را هنگامی که درست است به اشتباه رد کنیم. اگر بخواهیم در مورد میزان درستی این تصمیم اظهار نظر کنیم، می دانیم تصمیم یا درست است یا غلط.پس احتمال درست بودن تصمیم یا ۱ است یا ۰ .

   شروع بحث آزمون آماری از این نقطه است، در اینجا لزوم وجود روشهایی که بتواند اطمینانی از درستی تصمیم بدهد احساس می شود.توجه کنید موقعی که این اطمینان برای ما اهمیتی ندارد روش ۲ بدرستی عمل می کند.اما به علت امکان رخ دادن خطا در تصمیم گیری، همواره علاقه مندیم تا حد زیادی از درستی تصمیم اطمینان حاصل کنیم.در اینجا روشهای آماری به کمک ما می آیند و نتایجی را اعلام می کنند که همراه یک درصد اطمینان از درستی تصمیم است.

   بدیهی است که هماره روش ۲ ساده تر از روش ۱ خواهد بود.زیرا تمام فرضها را نمی توان به روشهای ساده آزمون کرد و بعضا انجام یک آزمون آماری احتیاج به معلومات و زمان زیادی دارد.جالب تر اینکه بیان نتیجه روش عامینه(۲) ساده تر نیز هست.اما زمانی که بخواهیم بحث اطمینان از درستی تصمیم را وارد قضیه کنیم،ناچارا مجبور به استفاده از روشهای آزمون آماری خواهیم بود.

  مشابه همین مسائل را می توان در مورد سایر تصمیم گیری های آماری مثل برآورد نقطه ای یا فاصله ای بیان کرد.

+ نوشته شده در  دوشنبه بیست و هشتم فروردین 1385ساعت 14:41  توسط انور  | 

امروز یه بحث جالب سر کلاس استنباط آماری در مورد آزمون فرض داشتیم که بد نیست براتون بنویسم.

   فرض کنید شخصی مایل است بداند آیا میانگین وزن دانشجویان دانشگاهی بیشتر از ۶۰ است ؟ روش نمونه گیری و تعداد نمونه وی را یک آماری تعیین می کند. میانگین بدست آمده از نمونه هه برابر ۶۵ است. شخص با این برهان که  ۶۰ < ۶۵ فرض "بیشتر بودن میانگین وزن از ۶۰" را می پذیرد.

   دوست آماری این شخص این برهان را نمی پذیرد و برای قانع کردن دوست خود این مساله را مطرح می کند که :

  اگر شما نمونه دیگری غیر از این نمونه از جامعه بگیری، نتیجه ممکن است تغییر کند.

   شخص با این استدلال قانع شده و از دوست آماری خود میخواهد تا با کمک آمار و با توجه به نمونه استخراج شده در مورد "بیشتر بودن میانگین وزن از ۶۰" اظهار نظر کند.دوست آماری قصه ما دست به کار می شود.فرضهای آماری را تشکیل می دهد و ...[باقی قضایا که بهتره سرتون رو درد نیارم]

   نهایتا دوست  آماری ما به ناحیه رد  می رسد. سپس با توجه به مقدار مشاهده شده ۶۵ و ناحیه رد ساخته شده تصمیم به رد فرض صفر می گیرد.

   توجه کنید هر دو نتیجه یکسان شد. شخص به این نتیجه اعتراض می کند و انجام آزمون آماری را بیهوده می داند.حتی به استدلال قبلی مطرح شده دوست(!) آماری خود اعتراض می کند که:

  اگر شما نمونه دیگری غیر از این نمونه از جامعه بگیری، باز همچون کاری که من انجام دادم نتیجه ممکن است تغییر کند.

   حال سوال اینکه: پس تفاوت روش آزمون آماری با یک تصمیم گیری ساده بدون آزمون که شخص انجام داد، چیست؟

   

+ نوشته شده در  دوشنبه پانزدهم اسفند 1384ساعت 11:4  توسط انور  | 

از دوستداران آمار میخوام که یه سری به سایت زیر بزنن.امیدوارم که اذت ببرین.

http://www.sportsci.org/resource/stats/

+ نوشته شده در  یکشنبه چهاردهم اسفند 1384ساعت 11:32  توسط مرتضی  | 

سلام

من دوباره اومدم با يه مطلب جديد.اين مطلب مدتها ذهن منو مشغول كرده بود.نمي دونم تا حالا با اكسل كار كرديد يا نه.اين نرم افزار هم مثل ساير نرم افزارهاي رقيبش به شما امكان ميده تا براي متغيرهاتون عنوان بديد ولي مشكل اينجاست كه وقتي تعداد موارد بالا ميره و از چارچوب مانيتور بيرون ميزنه شما مجبور مي شويد كه با استفاده از scroll كاربرگ را به سمت پايين بكشيد در اين هنگام title هايي كه تعريف كرديد ديگر ديده نخواهند شد.به نظر شما را حل چيست؟فكر مي كنيد سازندگان اكسل كه هر روز در راستاي كامل كردن اين نرم افزار پيش مي روند فكري براي اين مشكل نكرده اند؟

بايد بگم كه چرا.اين مشكل نيز به راحتي قابل حل است.

براي اين كار ابتدا با كليك بر روي  خانه اي كه درست در زير سطر مورد نظر شماست آنرا فعال كنيد. سپس از طريق منوي window گزينه Freez panes را انتخاب كنيد.حال مي توانيد با Scroll كردن كاربرگ به سمت پايين نتيجه كار خود را ببينيد.حال ديگر در هر جاي كاربرگ باشيد نام متغيرهايتان را مي توانيد ببينيد.     

+ نوشته شده در  یکشنبه بیست و پنجم دی 1384ساعت 21:21  توسط مرتضی  | 

شايد براي شما مواردي پيش بيايد كه بخواهيد نتايج تحليل خود را به زبان فارسي و با Label هاي فارسي در نرم افزار SPSS ارائه دهيد.بايد خاطر نشان كرد كه SPSS با فارسي نويسي كمي مشكل دارد ولي با كمي ور رفتن مي توانيد نتاج خود را همانطور كه مي خواهيد از اين نرم افزار بگيريد. براي اين كار از منوي View بر روي Fonts كليك كنيد و از منوي كشويي Script گزينه Arabic را انتخاب كنيد و سپس OK كنيد. اين كار سبب مي شود شما به راحتي بتوانيد در Data View و Variable View فارسي تايپ كنيد. به اين ترتيب مي توانيد به متغيرهايتان برچسبهاي فارسي بدهيد ولي توصيه مي شود كه نام متغيرها را فارسي تعريف نكنيد چون SPSS در نام متغيرها Space نمي پذيرد و همين باعث ناخوانايي مي شود.

براي كشيدن نمودارهايي با برچسبهاي فارسي نيز مي توانيد از منوي Edit گزينه Option را برگزينيد و در كادر باز شده برگه Charts را انتخاب كرده و در آنجا در قسمت Current Setting فونت را به Arabic Style تغيير دهيد. اميدوارم كه لذت برده باشيد. منتظر مطالب بعدي باشيد. حتما براي شما مفيد خواهند بود.

 

+ نوشته شده در  شنبه هفدهم دی 1384ساعت 22:18  توسط مرتضی  | 

سلام

   بهرام یه مطلب در مورد نرم افزارهای مختلف آماری و کارکرد هرکدوم نوشته بود، دیدم بد نیست در مورد یکی از این نرم افزارها براتون بنویسم.

   نرم افزارهایی مثل SPSS و Minitab نرم افزارهای توانمندی هستند و انواع روشهای آماری را در دسترس کاربر میگزارند ولی وقتی به مسایل پیچیده و یا جدید آماری می رسیم باید منتظر بمونیم تا این شرکتها سر فرصت امکانات اجرای این چنین روشهایی رو  تو نرم افزارهاشون بگزارن.به عبارت دیگه این نرم افزارها توی چارچوب مشخصی امکانات در اختیار شما میگزارند.

   S-Plus یکی از نرم افزارهای بسیار قوی آماریه که علاوه بر امکانات این دو نرم افزار، قابلیت برنامه نویسی رو به تواناویهاش اضافه کرده و به این وسیله دست کاربر رو برای انجام عملیات پیشرفته آماری که در قالب روشهای از پیش آماده شده، قابل اجرا نیستند باز میگزاره.

   زبان S، زبان مورد استفاده در S-Plus نسبتا زبان مشکلیه و تسلط به اون سخته. ولی یک Help قوی برای این زبان داره که هر وقت به مشکل برخوردید میتونه کمک حالتون باشه.

   اصلی ترین کاربرد حال حاضر S-Plus در روشهای شبیه سازیه.که در مسایل پیچیده آماری به وفور کاربرد دارد.من سعی خواهم کرد هر چند وقت یه بار مطالبی در مورد برنامه نویسی در S-Plus و روشهای شبیه سازی براتون بنویسم.امیدوارم مفید واقع بشه.

+ نوشته شده در  یکشنبه یازدهم دی 1384ساعت 0:44  توسط انور  | 

قرار بود در ادامه مطلب نحوه تعریف User Missing values را در SPSS ببینیم.در مرحله تعریف متغیر در SPSS قسمتی به نام Missing وجود دارد که تعریف داده های گمشده کاربر در این قسمت صورت می گیرد.با کلیک روی مربع کوچکی که در خانه مربوط به متغیر مورد نظر و زیر ستون Missing  وجود دارد کادر زیر ظاهر میشود:

 

ملاحظه می کنید که ۳ انتخاب برای تعریف داد های گمشده داریم:

۱-no Missing values :اگر این گزینه فعال باشد داده گمشده کاربر تعریف نشده است.

۲-Discrete Missing values (مقادیر گمشده گسسته): با فعال کردن این گزینه میتوان برای تعریف مقادیر گمشده از یک(یا چند) مقدار گسسته استفاده کرد. مثلا اگر داده ها مربوط به وزن افراد هستند عدد ۰ گزینه مناسبی برای تعریف داده گمشده است.چون اولاْ هیچگاه وزن کسی ۰ نخواهد بود،ثانیاْ هنگام وارد کردن داده های مربوط به وزن کلید ۰ در دسترس و زدن آن بسیار ساده است.توجه کنید می توانستیم هر مقدار(یا مقادیر) دیگری را که مطمئن هستیم در دامنه داده ها نیست،در این قسمت وارد کنیم ولی وارد کردن هیچکدام مثل عدد ۰ راحت نیست.

۳.Range plus one optional discrete missing value(یک بازه به همراه یک مقدار گسسته اختیاری):SPSS این اجازه را به ما میدهد که با استفاده از این گزینه به جای یک یا چند مقدار گسسته از یک بازه برای تعریف مقادیر گمشده استفاده کنیم.مثلا فرض کنید نمرات یک سری دانشجو را وارد SPSS می کنیم.چون این نمرات بیت ۰ تا ۲۰ است میتوان از هر عدد ۳ رقمی برای تعریف داده های گمشده استفاده کرد.مثلاْ:

توجه کنید اعداد بین ۱۰۰ تا ۹۹۹ همگی ۳ رقمی هستند پس کافیست موقع وارد کردن داده ها فقط ۳ کلید از کلیدهای قسمت عددی صفحه کلید را بزنید.این گونه تعریف کردن مقادیر نشان دهنده داده های گمشده، باعث می شود موقع وارد کردن داده ها با مشکل کمتری روبرو شویم. در ضمن علاوه بر بازه تعریف شده میتوان یه عدد دیگر را نیز به این مقادیر اضافه کرد.مثلا اگر مطمئن باشیم که نمره ۰ نداریم میتوان ۰ را نیز به عنوان "نشان دهنده داده گمشده" تعریف کرد.

+ نوشته شده در  سه شنبه بیست و نهم آذر 1384ساعت 12:25  توسط انور  | 

من در یک دفتر کار آماری انجام می دادم یک بار طرح انجام یک پرسشنامه مطرح شد که در سطح دانشگاه انجام دادیم تعداد پرسشنامه ها حدود ۱۰۰۰ برگ بود خدا را شکر نکته ای را که الان خواهم گفت را رعایت کردیم چه نکته ای ؟ اینکه در یک ستون اعداد از ۱ تا ۱۰۰۰ را به عنوان ID هر پرسشنامه وارد کردیم و روی هر برگ شماره را یادداشت کردیم بعد ها بنا به دلایلی مجبور می شدیم که برخی پرسشنامه ها را حذف کنیم اینجا اگر همان ستون ID نبود با حذف یک ردیف تمام اطلاعات به هم می خورد اینو گفتم که از اول خشت را درست بگذارید و بعد از یک هفته تازه متوجه نشوید که ....  ببخشید اگه که نکته پیش پا افتاده ای گفتم.

+ نوشته شده در  شنبه بیست و ششم آذر 1384ساعت 23:11  توسط بهرام  |