دانلود مقاله یافتن مشاهدات پرت

Word 147 KB 24634 24
مشخص نشده مشخص نشده ریاضیات - آمار
قیمت قدیم:۱۶,۰۰۰ تومان
قیمت: ۱۲,۸۰۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • یافتن مشاهدات پرت :
    مشاهدات پرت تحلیل‌های آماری را مشکل می‌سازند.

    هنگام تحلیل داده‌ها، گاهی اوقات مقادیری دور از بقیه داده‌ها پیدا می‌کنید چنین مقادیری مشاهدات پرت نامیده می‌شود.


    هنگامی که شما با یک مشاهده پرت روبه‌رو می‌شوید ممکن است وسوسه شوید که آن را حذف کنید.

    در ابتدا از خود این سوال‌ها را بپرسید :
    - آیا این مقدار را به طور صحیح وارد کامپیوتر شده؟

    اگر خطایی در وارد کردن داده‌ها دارد آن را تصحیح کنید.


    - آیا در رابطه با این مقدار خطای آزمایشی وجود دارد؟


    - آیا آن مشاهده از یک تنوع زیستی سبب شده است ؟

    اگر هر مقدار، از یک شخص مختلف بیاید آن مشاهده ممکن است یک مقدار صحیح باشد و علت آن مشاهده علت فردی است که با دیگران تفاوت دارد.


    بعد از پاسخ منفی به این سوال‌ها، شما باید تصمیم بگیرید که با این مشاهدات چه کار کنید ؟


    که 2 احتمال وجود دارد:
    - یک امکان این است که آن مشاهده پرت از شانس ناشی شود در این مورد شما باید آن مقدار را در تحلیل نگه دارید که آن مقدار از جامعه‌ای می‌آید که دیگر مقادیر آمده‌اند بنابراین باید محاسبه شود.


    - امکان دیگر آن است که مشاهده پرت از یک خطا ناشی شود (مانند صفره یا سوراخی در فیلتر).

    وقتی یک مقدار نادرست در تحلیل وارد شود نتیجه بی اعتبار خواهد بود و آن مقدار از جامعه متفاوت از بقیه می‌آید که گمراه کننده است و باید از داده‌ها حذف شود.


    مسأله این است که شما هرگز مطمئن نیستید که کدام از این امکان‌ها درست است.


    به طور آشکار هیچ محاسبات ریاضی به شما نخواهد گفت که آن مشاهده پرت از جامعه همانند یا مختلف از بقیه داده‌ها می‌آید اما محاسبات آماری می‌تواند به این سوال پاسخ دهد.

    اگر مقادیر واقعاً همه نمونه گرفته شده از یک توزیع باشند شانسی که یک مقدار دور از بقیه داده‌ها باشد چیست؟

    اگر این احتمال کوچک باشد شما نتیجه‌گیری خواهید کرد که با احتمال زیاد مشاهده پرت یک مقدار نادرست است و شما برای حذف آن توجیه و دلیل دارد.


    آمار شناسان چندین روش را برای شناسایی نقاط پرت تدبیر کرده‌اند.

    همه روشها در ابتدا معلوم می‌کنند که این شاهدات پرت چقدر از بقیه نقاط دور هستند.

    این با محاسبه اختلاف بین مشاهده پرت و میانگین مقادیر باقی مانده و سپس تقسیم بر انحراف معیار که استاندارد کردن آن است بدست می‌آید.


    سپس مقدار p-value را برای این سوال مقایسه می‌کنیم.

    که اگر مقدار p- value کوچک باشد شما نتیجه می‌گیرد که انحراف مشاهده پرت از بقیه نقاط معنی دار است.


    پس وقتی در منابع مشاهدات پرت جستجو می‌کنیم در ابتدا باید بررسی کنیم که در ثبت و وارد کردن داده‌ها خطایی نباشد.

    برای کاهش رخداد در خطای ثبت داده‌ها از برنامه‌ای استفاده کنید که امکان اجرای محاسبات روی چندین ستون اعداد را برقرار کند مانند EXCEL و SAS نیز مخصوصاً ابزار خوبی برای این هدف است و دلیل دیگر برای مشاهدات پرت حادثه‌هایی هستند که به ندرت رخ می‌دهند مانند یک روز 70 درجه در ژانویه در OREGON
    چرا مشاهدات پرت مسأله و مشکل هستند ؟‌
    روشهای در حال توسعه بر جستجوی مشاهدات پرت و فهمیدن این که تحلیل‌های آماری را پیچیده می‌کنند بخش مهمی از تمام تحلیل را در برمی‌گیرد.


    برای مثال با حضور مشاهده پرت در هر آزمون آماری میانگین و انحراف معیار تحریف می‌شود.

    برآورد ضرایب رگرسیون که مجموع مربعات خطا را مینیمم می‌کند بسیار تحت تأثیر مشاهده پرت است.


    چندین عامل تأثیر گذار از مشاهدات پرت عبارت است از :
    - اریبی با تحریف برآوردها
    - زیاد نشدن مجموع توان دوم‌ها
    - تحریف p-value
    - نتیجه‌گیری غلط
    مثال زیر ممکن است خیلی بزرگ به نظر بیاید اما داده‌های حقیقی با این مشخصات وجود دارند.

    اما نتایج به روشنی ثابت می‌کنند که مشکلات ناشی از مقدارهای غیر عادی در کمین هستند.




    Median mean variance %95confiedence interval for mean
    (0.45,11.5) 20 6 5 12 9 5 3 1 Real Data
    (-36.63 ,91.83) 2676.8 27.6 5 120 9 5 3 1 Data Error

    4 داده اول در هر سطر همانند هم هستند.

    هر چند در سطر دوم پنجمین عدد اختلاف زیادی در مقایسه با سطر بالای خود دارد.


    توجه کنید که حضور مشاهده پرت در میانه تغییری ایجاد نکرده است (میانه قوی نامیده می‌شود) و توجه کنید که مشاهده پرت به شدت میانگین و واریانس و فاصله اطمینان 95% برای میانگین را تحریف کرده است.


    نتایج مشابه در رگرسیون، آنالیز واریانس یا هر روش دیگر به کار برده شده چگونه یک مشاهده پرت را کشف کنیم؟

    بررسی و کمک چشمی : این روش بررسی توزیع مقادیر داده‌ها به وسیله سطوح یک متغیر است این روش همیشه باید یکی از اولین قدم‌ها در تحلیل باشد و این روش مشاهده‌های پرت واضح را به سرعت آشکار می‌کند.

    برای داده‌های پیوسته و فاصله‌ها، روش دیداری به عنوان نمودار نقطه‌ای و نمودار پراکنش روشهای خوبی برای بررسی اینکه مشاهده پرت است می‌تواند باشد.

    یک boxplot ابزار مفید دیگری برای کشف مشاهده پرت است.

    آزمون‌های یک متغیری حضور مشاهده پرت را بررسی می‌کنند اگر چه بسیاری از آن‌ها فقط برای بررسی حضور یک مشاهده پرت طراحی شده‌اند.

    محاسبه IQR : inter – quartile که این روش در یک boxplot برای تشخیص مشاهده پرت استفاده می‌شود.

    استفاده یک boxplot روش بسیار اثر بخش است مخصوصاً وقتی که با یک مجموعه داده‌های زیاد و داده‌های پیوسته به کاربرده شود.

    یک راه برای انجام داده محاسبات IQR استفاده PRO cuniuariate با استفاده از نرم افزار SAS است که q1 (اولین چارک) و q3 (سومین چارک) می‌تواند در یک فایل خروجی ذخیره شود.

    اگر مشاهده‌ای خارج از باشد به عنوان مشاهده پرت است.

    مشاهدات پرت چند متغیری می‌تواند در یک تحلیل ناشناخته بمانند.

    آزمون‌های تک متغیری برای مشاهدات پرت چند متغیری طراحی نشده‌اند.

    برای دو مقدار داده‌های x2,x1 ، یکی از آن ممکن است به وسیله آزمون‌های تک متغیری رسیدگی شود (همان طور که در بالا توضیح داده شد) اگر چه ترکیب دو مقدار آن‌ها در فضای دو بعدی می‌توانند خارج از پیرامون داده‌ها واقع شود.

    با مشاهدات پرت چه باید کرد؟

    به طور مؤثر کار با مشاهدات پرت در داده‌های عددی می‌تواند نسبتاً مشکل و باطل باشد هر چند این داده‌ها می‌توانند کاملاً صحیح باشند، ولی اگر آن‌ها هم خارج از محدوده داده‌ها باشند باعث اشتباه در محاسبات می‌شوند.

    بعضی از روشهای ممکن برای کار کردن با مشاهدات پرت در زیر آورده شده است : تبدیل : تبدیل داده‌ها یک راه برای کاستن فشار مشاهدات پرت است.

    که با جذر گرفتن و یا لگاریتم مقدارهای بزرگ تبدیل به مقدار کوچکی می‌شود.

    حذف کردن : حذف کردن همیشه باید به عنوان آخرین تصمیم باشد.

    و اگر فقط تشخیص دهید که داده‌های پرت واقعاً خطا هستند و صحیح نمی‌باشند باید حذف شوند که استنباط‌های آماری را تحریف می‌کنند.

    تبدیل و حذف داده‌ها ابزارهای مهمی هستند ولی نباید علاج هر توزیع باشند تبدیل و حذف داده‌ها باید یک انتخاب با اطلاع باشند نه یک امر عادی.

    همسازی یا تطابق : همان طور که گفته شد منابع مشاهدات پرت عبارت است از ثبت و اندازه گیری نادرست – ترکیب داده‌های ناشناخته یا اثر جدید همچنین فرض غلط در مورد توزیع داده‌ها می‌تواند داده‌ها را به عنوان یک مشاهده پرت هدایت کند.

    داده‌هایی که به خوبی در یک توزیع بر ارزش نشده‌اند ممکن است در یک توزیع دیگر به خوبی برازش نشوند.

    همان طور که در شکل نشان داده شده است ترکیب و ارتباط داده‌های ناشناخته می‌تواند سبب ظاهر شدن مشاهده پرت شود.

    ممکن است داده‌هایی که مکانیسم مختلف دارند با هم ترکیب شوند در حالی که باید هر کدام جداگانه و به طور مستقل تحلیل نشوند همان طور که در شکل نشان داده شده است.

    چند آزمون رایج برای شناساییی مشاهده پرت 1) Grubbs test این آزمون بسیار آسان است که روش ESD نیز نامیده می‌شود.

    (extrme studentized deviate) اولین گام این است که مشخص کنیم که این مشاهده پرت چقدر از بقیه مشاهدات دور است ؟

    محاسبه مقدار z بر مبنای اختلاف بین مشاهده پرت و میانگین، تقسیم بر انحراف معیار است .

    اگر z بزرگ باشد این مقدار مشاهده پرت است.

    وقتی 5% مقادیر در جامعه از 96.

    1 انحراف معیار از میانگین بیشتر باشند، نتیجه گیری می‌شود که مشاهده پرت از یک جامعه متفاوت می‌آید.

    این روش وقتی درست کار می‌کند که شما میانگین و انحراف معیار جامعه را بدانید، اگر چه این به ندرت پیش می‌آید که اغلب موارد در کنترل کیفیت است.

    هنگام تحلیل داده‌های آزمایشی شما انحراف معیار جامعه را نمی‌دانید، در عوض شما انحراف معیار داده‌های موجود را محاسبه می‌کنید.

    حضور یک مشاهده پرتSD محاسبه شده را افزایش می‌دهد.

    مقدار Z نمی‌تواند بزرگتر از شود که n تعداد مقادیر است به طور مثال اگرN=3 باشد، Z نمی‌تواند بزرگتر از 1.55 (برای هر مجموعه مقادیری) شود.

    گرابس و دیگران مقادیر بحرانی Z را جدول بندی کرده‌اند.

    که مقادیر بحرانی با اندازه نمونه افزایش پیدا می‌کند.

    اگر مقدار Z محاسبه شده بزرگتر از مقادیر بحرانی در جدول شوند پس p-value کمتر از 0.05 می‌شود.

    توجه کنید که این روش فقط برای آزمودن حداکثر مقادیر در نمونه کار می‌کند یکبار مشاهده پرت راشناسایی می‌کنید.

    ممکن است تصمیم بگیرید که آن مشاهده را از تحلیل حذف کنید یا آن را نگه دارید.

    اگر شما تصمیم بگیرید که آن مشاهده را حذف کنید شما ممکن است دچار وسوسه شوید که دوباره این آزمون را اجرا کنید که ببینید نقطه پرت دومی در داده‌ها وجود دارد یا خیر؟

    اگر شما این کار را انجام دهید، دیگر نمی‌توانید از همان جدول استفاده روزنر این روش را برای شناسایی چندین نقطه پرت در نمونه تمدید کرده است.

    مقادیر بحرانی برای z : مقدار z را همان طور که در بالا نشان داده شد محاسبه کنید و به مقادیر بحرانی در جدول بالا مراجعه کنید که n تعداد مقادیر در گروه است.

    اگر مقدارz محاسبه شده بیشتر از مقدار جدول باشد p-value کمتر از 0.05 می‌شود.

    محاسبه یک p-value تقریبی : شما همچنین می‌توانید یک p-value تقریبی به صورت زیر محاسبه کنید.

    1) مقدار عبارت زیر را محاسبه کنید.

    N تعداد مقادیر در نمونه است.

    2) مقدار p متناظر T را تعیین کنید.

    مقدار p-value دو طرفه برای توزیع –T استودنت با درجه آزادی N-2 را جستجو کنید.

    3) مقدار P بدست آمده در گام دوم را در N ضرب کنید.

    نتیجه یک تقریب p-value برای آزمون مشاهده پرت است.

    این p-value شاخص مشاهده یک نقطه دور از بقیه نقاط است.

    اگر Z بزرگ باشد این مقدار خیلی دقیق خواهد بود.

    با مقادیر Z کوچکتر p-value محاسبه شده ممکن است بسیار بزرگ باشد.

    تعریف دیگری از آزمون Grubbs برای یافتن مشاهده پرت : این آزمون نیز بر مبنای فرض نرمال بودن بنا شده است.

    که قبل از به کار بردن این آزمون باید بررسی کنید داده‌ها تقریب نرمال داشته باشند Grubb's test یک نقطه پرت (دور افتاده) را در مجموعه داده‌های آشکار می‌کند و آن مشاهده پرت حذف می‌شود و آزمون دوباره تکرار می‌شود تا اینکه هیچ مشاهده پرتی پیدا نشود.

    اگر چندین تکرار احتمال آشکارسازی را تغییر می‌دهد و آزمون نباید برای اندازه نمونه کمتر از 6 استفاده شود.

    این آزمون به وسیله فرض زیر تعریف می‌شود.

    هیچ مشاهده پرتی در مجموعه داده‌ها وجود ندارد.

    H0 حداقل یک مشاهده پرت در مجموعه داده‌ها وجود دارد.

    H1 : آماده آزمون با میانگین و انحراف معیار آن مشخص می‌شود و آماده آزمون بیشترین انحراف از میانگین نمونه تقسیم بر انحراف معیار است.

    که این یک آزمون فرض دوطرفه است و همچنین می‌تواند به عنوان فرض یکطرفه تعریف شود.

    آزمون اینکه آیا کوچکترین مقدار مشاهده پرت است.

    که با ymin کوچکترین مقدار تعیین می‌شود.

    آزمون اینکه آیا بیشترین مقدار یک مشاهده پرت است.

    که با ymax بیشترین مقدار مشخص مشخص می‌شود.

    سطح معناداری : ناحیه بحرانی برای آزمون دو طرفه و فرض اینکه هیچ مشاهده پرتی وجود ندارد، هنگامی رد می‌شود که : که مقدار بحرانی توزیع T استودنت با درجه آزادی N-2 و سطح معناداری مشخص می‌شود.

    برای فرض یک طرفه یک سطح معنی داری استفاده می‌کنیم.

    در فرمول بالا برای ناحیه بحرانی پیروی می‌کند.

    از قرار داد اینکه مقدار بحرانی بالایی از توزیع مقدار بحرانی پایینی از توزیع T است.

    که یک نمونه خروجی برای این آزمون در زیر آورده شده : *** Grubbs test y *** Grubbs test for outlier (Assumption : Normality) l.

    statistics : number of observation = 195 Minimum = 9.196 Mean = 9.261 Maximum = 9.327 Standard devation = 0.227 Grubbs test statistic =2.918 2.

    Percent points reference distribution for Grubbs test statistic: 0 % point = 0.00 50 % point = 2.48 75 % point = 3.181 90 % point = 3.424 95 % point = 3.597 97.5 % point = 3.763 99 % point = 13.892 تفسیر خروجی : خروجی به سه قسمت تقسیم

کلمات کلیدی: پرت - مشاهدات - مشاهدات پرت - یافتن

تحقیق دانش آموزی در مورد دانلود مقاله یافتن مشاهدات پرت , مقاله دانشجویی با موضوع دانلود مقاله یافتن مشاهدات پرت , پروژه دانشجویی درباره دانلود مقاله یافتن مشاهدات پرت

یک فیزیک دان ایرانی مقیم دانشگاه میسوری در کلمبیا هنگام بررسی نتایج نظریه نسبیت اینشتین روی ذراتی زیر اتمی که با سرعت زیاد در حرکتند موفق به کشف اثر تازه و شناخته نشده ای از سیاه چاله ها شده است. سیاه چاله ها که در زمره ی عجیب ترین اجرام کیهانی به شمار می آید باز هم شگفتی آفریده اند و اخترشناسان را حیرت زده کرده اند. به نوشته ی هفته نامه ی علمی نیوساینتیست بهرام مشحون و همکارش ...

پیش بینی تغییرات خصوصیات فیزیکی بتن در تماس با آب قرار می گیرد به این دلیل اتفاق می افتند که مواد تحت این شرایط در اثر جدا شدن از هم و یا ترکیب شدن با هم مبادله می شوند. هر چند که تا کنون روش خاصی برای اندازه گیری مقدار تغییرات خواص یافت نشده است . نویسنده در این مقاله سعی دارد تا کارایی آزمایشات سیمان در شرایط مایع ودقت سازه های بتنی 34 تا 104 ساله را مورد مطالعه قرار دهد و ...

مختصری درباره جلال آل احمد و آثار او سال و محل تولّد:  2 آذر 1302 – تهران سال و محل وفات: 18 شهریور 1348 - اسالم گیلان جلال آل احمد دوم ، آذرماه سال 1302 در یک خانواده مذهبی دیده به جهان گشود ، او هرگز نتواست در یک جا حتی در بستر آرامش بخش باورهای دینی ، آرام گیرد و شاید تحت تاثیر همین زندگی پرتکاپو و سرشار از مسا له بود که آل احمد به شیوه و سبک جدیدی از نویسندگی دست یافت و ...

در عرضهای بالای زمین ، آسمان شب ، بصورت درخشانی به شکل متحرک روشن می‌شود که شفق قطبی نامیده می‌شود. آنها شفاف هستند و می‌توان ستاره‌ها را از داخل آنها مشاهده کرد. اغلب نور آنها به قدری می‌درخشد که می‌توان نوشتجات را خواند و رنگ آنها همیشه سبز مایل به زرد نیست. شفق قطبی شمالی و شفق قطبی جنوبی را می‌توان در هر شب روشن مشاهده کرد و شدت نور آنها متغیر بوده و تابع تعدادی پارامتر است. ...

به اطراف خود نگاه کنید. چه می بینید؟ از آنچه که می‌بینید چه احساسی دارید؟ برای شما چه پرسشهائی در این زمینه ایجاد می‌شود؟ برای یافتن پرسشهای خود چه پاسخهائی دارید. ما پدیده‌های بسیار گوناگونی را درمحیط اطراف خود مشاهده می‌کنیم و همواره درصدد پیداکردن نظم یا نظام یا ارتباط بین پدیده‌های طبیعی هستیم. با مشاهدات دقیق‌تر انسان به این نتیجه می‌رسد، اگرچه پدیده‌هائی که در محیط اطراف ...

مقدمه      مثلث برمودا محلی است وهم‌انگیز که در آن صدها هواپیما و کشتی در هوا و دریا ناپدید شده‌اند. بیش از هزار نفر در این منطقه وحشت گم شده‌اند، بدون اینکه حتی یک جسد یا قطعه پاره‌ای از یک هواپیما یا کشتی مفقود شده ، به جا بماند.      برمودا در اوایل سده 15 میلادی کشف شد. برخی منابع سال ۱۵۰۳ میلادی را تاریخ دقیق کشف جزایر برمودا عنوان ...

خلاصه انسان با توجه به پیچیدگی‌ها و دشواری‌های زندگی جهت رسیدن به رشد و پیشرفت در جنبه‌های گوناگون می‌‌بایست از توانایی لازم و کافی جهت مقابله با موقعیتهای دشوار زندگی و همچنین فراهم نمودن شرایط مناسب به منظور پیشرفت همه جانبه برخوردار باشد. بنابراین افراد موفق، تکامل یافته و دارای سلامت روانی کسانی هستند که توانایی و مهارت کافی را در برخورد با شرایط گوناگون زندگی دارند و همواره ...

تاریخچه انرژی به اطراف خود نگاه کنید. چه می بینید؟ از آنچه که می‌بینید چه احساسی دارید؟ برای شما چه پرسشهائی در این زمینه ایجاد می‌شود؟ برای یافتن پرسشهای خود چه پاسخهائی دارید. ما پدیده‌های بسیار گوناگونی را درمحیط اطراف خود مشاهده می‌کنیم و همواره درصدد پیداکردن نظم یا نظام یا ارتباط بین پدیده‌های طبیعی هستیم. با مشاهدات دقیق‌تر انسان به این نتیجه می‌رسد، اگرچه پدیده‌هائی که ...

در تعلیق میان بودن و نبودن گربه شرودینگر طبق قواعد مکانیک کوانتوم گربه تا زمانی که کسی در جعبه را باز نکرده و مشاهده ای انجام نداده است در حال زنده و مرده قرار دارد جیم ویلسون محققین گمان می برند به زودی می توانند راه حلی برای یکی از غامض ترین مسائل فیزیک جدید بیابند: یافتن راهی برای اعدام گربه شرودینگر. گربه خیالی شرودینگر از سال ۱۹۳۵ تاکنون با دانشمندان لجبازی کرد و آنان را ...

مقدمه آبغوره وتاثیر آن بر روی فشار خون: یکی از انواع افزودنی های غذایی که مصرف آن از دیر باز در کشور ما مرسوم بوده است، آبغوره می باشد.اصطلاح غوره در ادبیات معنایی « فرهنگ لغت » به هر نوع میوه نارس اطلاق می گردد . ولی منظور از غوره در این مبحث میوه نارس انگور می باشد که دارای رنگ سبز وطعم ترش است که عصاره آن به نام آبغوره مرسوم است. و اما مطلبی که ما را بر آن داشت که در این ...

ثبت سفارش