دانلود تحقیق داده کاوی

Word 40 KB 3207 19
مشخص نشده مشخص نشده کامپیوتر - IT
قیمت قدیم:۱۶,۰۰۰ تومان
قیمت: ۱۲,۸۰۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • داده کاوی مقدمه: جهان پیرامون ما سرشار از داده ها و اطلاعات گوناگون می‌باشد.

    برای پیش بینی گرایشات و جریان های آتی و به منظور اتخاذ تصمیم گیری بهتر در زمینه علوم، تکنولوژی ، صنعت، بازار وغیره.

    انسان همواره با اشتیاقی حریصانه به دنبال کشف دانش از این موداب داده ها بوده است.

    قدیمی ترین دست نوشت ها کشف شده بر روی لوح های گلی مربوط به چهار قرن قبل از میلاد مسیح می‌باشد.

    با ساخت کاغذ داده های فراوانی بر روی هزاران جلد کتاب وسایر مستندات دیگر وغیره شد.

    توامروزه نیز با افزایش روز افزون کاربرد کامپیوتر ها حجم عظیمی از داده ها دیسک های سخت را به صورت اطلاعات دیجیتالی پر کرده اند.

    با دراختیار داشتن حجم عظیم داده ها مساله اصلی چگونگی یا فتن جمع‌آوری و به کارگیری روش هایی است که بتوان آنها را در کشف دانش از داده ها و به کارگیری دانش کشف شده در موارد مختلف به کار گرفت.

    اگر چه در دهه های اخیر زمینه جدید با عنوان داده کاوی به رواج یافته است ولی عملکردها و وظایف این علم مثل دسته بندی و جداسازی، از سالها پیش وجودداشته و به کار گرفته می شده اند.

    با توجه به اینکه هدف داده کاوی کشف الگوهای ناشناخته از داده ها می‌باشد روش های این علم از آموزش ماشین،هوش مصنوعی، آمار وغیره مشتق شده اند.

    با گسترش این علم روش های داده کاوی در زمینه هایی خارج از علوم کامپیوتر وهوش مصنوعی همچون دنیای تجارت وخطوط مونتا کارخانه ها نیز به کار گرفته شد.

    بدین ترتیب قابلیت های داده کاوی در زمینه هایی چون افزایش رقابت در بازار تجاری تشخیص کلاه برداری، تشخیص بیماریها با توجه به مدارک پزشکی وغیره نیز مورد آزمایش قرار گرفت و به اثبات رسید.

    معمولا در یک سیستم داده کاوی قابلیت هایی به منظور جمع آوری ذخیره سازی دسترسی پردازش و نهایتا توصیف ونمایش مجموعه های داده ای در نظر گرفته شود.

    جنبه های مختلف داده کاوی را میتوان به صورت مجزا مورد بررسی قراردارد.

    اگر چه جمع آوری وذخیره سازی اطلاعات در داده کاوی فوقالعاده با اهمیت می باشند ولی گاها این دو مورد را جز وظایف داده کاوی به شمار نمی آورد.

    در این میان افزونگی وگاها نامربوط بودن اطلاعات موجود در مجموعه های داده ها کاوی فوق العاده با اهمیت می باشند ولی گاها این دو مورد جزء وظایف داده کاوی به شمار نمی آورد.

    در این میان افزودگی وگاها نامربوط بودن اطلاعات موجود در مجموعه های داده ها وهمچنین قالب های ناسازگار مجموعه های داده ای جمع آوری شده را میتوان از جمله عواملی برشمرد که روند داده کاوی را با مشکل مواجه می کنند وحتی ممکن است باعث به وجود‌آمدن مسیرهای جستجوی گمراه کننده یا پایین آوردن کیفیت نتایج داده کاوی شوند.

    این مسائل وقتی بروز می دهند که افرادی که وظایف جمع آوری وپردازش کاویدن اطلاعات را بر عهده دارنددر یک گروه وکنار هم کارنکننده که در بسیاری از موارد راههای جمع آوری شده از ابتدا به منظور داده کاوی فراهم نشده اند.

    داده کاوی اصول وروش کار: عملیات داده کاوی را به صورت های مختلفی می توان دسته بندی کرد.در این متن ما به بررسی روش کار و روندعملیات در داده کاوی می پردازیم ودسته بندی این عملیات را به صورت پیش پردازش داده ها مدل سازی داده کاوی وتوصیف دانش مورد مطالعه قرار میدهیم شکل 1 عملیات پیش پردازش داده ها را میتوان شامل حذف نوفد انتخاب مشخصه ها، افراز داده ها، تبدیل داده ها، الحاق داده ها، پردازش داده های مفقود کاهش اندازه داده وغیره در نظر گرفت.

    در ادامه به بررسی بخش های مختلف یک سیستم داده کاوی می پردازیم.

    کاهش اندازه داده ها: کاهش اندازه داده ها میتواند باعث کاهش فضای جستجوی مفروض کاهش در جمع آوری داده ها هزینه های ذخیره سازی شود.

    همچنین میتواند نتایجی را چون افزایش کارایی داده کاوی وساده سازی نتایج آن را به دنبال داشته باشد.

    یکی از روشهای کاهش اندازه داده ها استخراج مشخصه می‌باشد که در این روش مشخصه های جدید از مشخصه های اصلی موجود استخراج شده تا با به کاری گیری این مشخصه های جدید توان وکارایی محاسباتی وهمچنین دقت دسته بندی را افزایش داد.روش های استخراج مشخصه ها معمولا با تبدیل های غیرخطی سروکار دارند.

    از این میان میتوان به روش هایی چون شبکه های عصبی تا کردن تبدیل مختصات پیمانه ای و انتشار غیر خطی اشاره کرد.

    روش های مبتنی بر تبدیل هیا غیرخطی در ترتیب خوب عمل می کنند و همچنین در مواجهه با مسائل غیرخطی عملیاتی قدرتمند هستند این روش ها ممکن است عوارضی جانبی غیرقابل پیش بینی وناخواسته ای در داده ها به وجود آورند.

    همچنین این روش ها معمولا برگشت ناپذیر بوده و دانش آموخته شده به وسیله اعمال یکی از روش های مبتنی بر تبدیل های غیرخطی در یک فضای مشخصه قابل تبدیل به فضای مشخصه دیگر نمی باشد.

    از دیگر روش های معمول برای استخراج مشخصه ها میتوان به تحلیل تکنیکی خطی وتحلیل مولفه های اصلی اشاره کرد.در استخراج مشخصه ها معانی مشخصه های جدید به سختی قابل تفسیر می باشند.

    یکی دیگر از روشهای کاهش اندازه داده ها انتخاب مشخصه ها می‌باشد.

    در این روش زیر مجموعه ای از مشخصه های اصلی را به عنوان مشخصه های جدید انتخاب می کنیم که در سیستم های استقرایی مثل سیستم دسته بندی به خوبی عمل می‌کند معمولا جستجوبرای زیر مجموعه ای بهینه از مشخصه ها مشکل می‌باشد وحتی برای بسیاری از مسائل انتخاب مشخصه ها ثابت شده است.

    که Np-hard هستند روش های انتخاب مشخصه ها به طور وسیعی مورد مطالعه قرار گرفته اند زیرا مشخصه های انتخاب شده از مشخصه های اصی در مقایسه با مشخصه های جدیدی که از مجموعه مشخصه های اصلی استخراج شده اند به سادگی قابل تفسیر می باشند در موارد بسیاری چون دسته بندی مستندات داده کاری، بازشناسی اجسام وپردازش تصویر برای پیش پردازش داده ها از روش های انتخاب مشخصه ها کمک گرفته می شود.

    برخی از روشهای انتخاب مشخصه ها شامل دو بخش می شوند: یک معیار رتبه بندی :منظور رده بندی اهمیت هر مشخصه یا زیر مجموعه ای از مشخصه ها و بخش دیگر شامل یک الگوریتم جستجو به عنوان مثال یک الگوریتم جستجوی پیش سویا پس شو.

    به روش های جستجویی که در آنها مشخصه ها به صورت پشت سرهم اضافه (پایین به بالا) و یا حذف (بالا به پایین) می شوند تا جائیکه شرط خاتمه ارضا شود روش های دنباله ای نیز می گویند.

    به عنوان مثال انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای –الگوریتم های اولیه باشد.

    انتخاب پیش سوی دنباله ای روشی پایین به بالا می‌باشد که در این روش مشخصه های که در یک سری معیار ها صدق می‌کند.

    به زیر مجموعه مشخصه های انتخاب شده اضافه می شود واین کار تا جایی ادامه می یابد که تعداد زیرمجموعه های انتخاب شده به برسد.

    در روش انتخاب پس سوی دنباله ای که روشی بالا به پایین می‌باشد مشخصه هایی یکی از مجموعه مشخصه ها حذف میشوند تا جایی که تعداد مشخصه های حذف شده به n-d برسد.

    در هر دو الگوریتم بالا انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای تعداد زیر مجموعه های مشخصه هایی که باید مورد بررسی قرار بگیرند برابر خواهد بود با به روش های جستجویی که در آنها مشخصه ها به صورت پشت سرهم اضافه (پایین به بالا) و یا حذف (بالا به پایین) می شوند تا جائیکه شرط خاتمه ارضا شود روش های دنباله ای نیز می گویند.

    در هر دو الگوریتم بالا انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای تعداد زیر مجموعه های مشخصه هایی که باید مورد بررسی قرار بگیرند برابر خواهد بود با به هر حال بارمحاسباتی روش انتخاب پس سوی دنباله ای سنگین تر از روش انتخاب پیش سوی دنباله ای می‌باشد در حالیکه ابعاد زیر مجموعه های مشخصه هایی که در روش انتخاب پس سوی دنباله ای مورد بررسی قرار می گیرند بزرگتر و یا مساوی خواهد بود.

    به عنوان مثال در روش انتخاب پس سوی دنباله ای در ابتدا همه زیر مجموعه های مشخصه ها با ابعادمورد بررسی قرار می گیرند در حالیکه ابعاد زیر مجموعه های مشخصه ها در روش انتخاب پیش سوی دنباله ای حداکثر خواهد بود.

    روش های زیادی برای انتخاب مشخصه هی بر مبنای روش های انتخاب پیش سو وپس سوی دنباله ای توسعه یافته اند.همچنین توابع محک مختلفی برای حذف و یا انتخاب یک زیرمجموعه از مشخصه ها ازمجموعه مشخصه های انتخاب شده مورد بررسی قرار گرفته اند.

    با رتبه بندی میزان اهمیت مشخصه ها در دسته های مجزا فقط زیرمجموعه ازمشخصه ها به منظور انتخاب زیرمجموعه نهایی مورد بررسی قرار خواهد گرفت.

    رتبه بندی اهمیت مشخصه ها در دسته های مجزا فقط زیر مجموعه از مشخصه ها به منظور انتخاب زیر مجموعه نهایی مورد بررسی قرارخواهد گرفت.

    رتبه بندی اهمیت مشخصه ها به صورت مجزا فقط زیرمجموعه از مشخصه ها به منظور انتخاب زیر مجموعه نهایی مورد بررسی قرار خواهد گرفت.

    رتبه بندی اهمیت مشخصه ها به صورت مجزا در مقایسه با ارزیابی همه ترکیب های مشخصه های میتواند موجب کاهش هزینه محاسباتی شود اگر چه در این روش ممکن است ترکیب های بهتر مشخصه ها را از دست دهیم.

    بنابرین هنگامی که هزینه محاسباتی به اندازه ای سنگین باشد که متحمل شدن این هزینه سخت یا غیرممکن باشد انتخاب مشخصه ها بر مبنای رتبه بندی اهمیت مشخصه ها به صورت مجزا ترجیح داده میشود.

    به کمک یک معیار رتبه بندی آنتروپی مشخصه ها میتوان مشخصه ها یکی یکی از مجموعه اصلی آنها حذف کرد.

    بدین ترتیب فقط زیرمجموعه از مشخصه ها به منظور انتخاب یک زیر مجموعه از آنها مورد بررسی قرار میگیرندکه این روش دسته بندی با دقت بالا را نتیجه خواهد داد.

    والبته در این حالت لازم نیست که پیشاپیش تعداد مشخصه هایی راکه قرار است انتخاب شوند دانست.

    در این روش میزان آنتروپی مشخصه ها برای رتبه بندی اهمیت آنها مورد استفاده قرارمی گیرند.

    اگر بخواهیم مشخصه هایی افزوند ویا نامربوط را تشخیص دهیم باید از اطلاعات نشان دسته ها استفاده کنیم.

    این مساله ما را بر آن می دارد که برای انتخاب مشخصه ها از اطلاعات نشان دسته ها استفاده کنیم که ممکن است به نتایج بهتری در انتخاب مشخصه ها منتهی شود مثلا مجموعه کوچک تری از مشخصه ها با قابلیت دسته بندی با دقتی بالاتر.

    از الگوریتم های ژنتیکی به طور وسیعی در انتخاب مشخصه ها استفاده می شود.

    در روش انتخاب مشخصه ها به کمک الگوریتم های ژنتیکی زیر مجموعه ای از مشخصه ها به صورت دنباله دورویی با طول طول زیر مجموعه مشخصه ها نشان داده می شود.

    یا یک در مکان ام نشان دهنده فقدان و یا حضور مشخصه در زیر مجموعه مشخصه ها می‌باشد.

    اغلب الگوریتم های انتخاب مشخصه های یک زیر مجمعه عمومی از مشخص ها را مشخصه ای مستقل از دسته برای همه دسته ها انتخاب می کنند.

    در حالیکه یک مشخصه ممکن است قابلیت های تمیز دهنده مختلفی برای تفکیک دسته ها از یکدیگر داشته باشد.

    برای تفکیک الگوهای یک دسته خاص از الگوهای دیگر یک مجموعه داده چند دسته ای را میتوان به صورت زیر مجموعه داده ودو دسته ای در نظر گرفت.

    به طوریکه همه دسته های دیگر را به عنوان یک دسته در مقابل دسته فعلی در حال پردازش مورد بحث قرار دهیم.

    به طور مثال اگر مجموعه داده ای مربوط به اطلاعات تعدادی شتر مرغ، طوطی و ادرک داشته باشیم و اطلاعات مربوط به سه گونه پرنده شامل وزن، رنگ پر(چند رنگ یا تک رنگ) حالت منقار، توانایی شناکردن، توانایی پرواز وغیره باشند با توجه به خصوصیات هر پرنده مشخصه وزن،برای جداکردن شترمرغ از بقیه پرنده ها کافی می‌باشد و با مشخصه رنگ میتوان طوطی را از پرنده های دیگر جدا کرد و نهایتا مشخصه قابلیت شنا کردن اردک را از سایر پرندگان موردبحث متمایز می سازد.بنابراین زیر مجموعه ای از مشخصه های مستقل برای هر سه نوع پرنده کمک انتخاب مشخصه های وابسته به دسته که هر دسته را از دسته های دیگر مجزا کننددر مقایسه با استفاده از زیر مجموعه مشخصه های عمومی مطلوب تر خواهد بود.

    بدین ترتیب خصوصیات منحصر به فرد هر دسته به کمک مشخصه های وابسته به دسته برجسته خواهند شد.

    در انتخاب مشخصه های وابسته به دسته نیز میتوان از روش های استخراج قوانین بهره جست در حالیکه ابعاد کوچک زیر مجموعه مشخصه های انتخاب شده ما را به قوانین مختصر ثری میرساند.

    دسته بندی وگروه بندی دسته بندی و گروه بندی دو مقوله مجزا در داده کاری می باشند که البته رابطه بسیار نزدیکی به هم دارند.

    یک دسته مجموعه از داده های نمونه می‌باشد ک دارای شباهت ها و یا وابستگی هایی می باشند و به همه نمونه های این دسته یک نشان دسته متعلق

  • فهرست:

    ندارد.


    منبع:

    ندارد.


تحقیق دانش آموزی در مورد دانلود تحقیق داده کاوی, مقاله دانشجویی با موضوع دانلود تحقیق داده کاوی, پروژه دانشجویی درباره دانلود تحقیق داده کاوی

مقدمه ای بر داده‌کاوی در دو دهه قبل توانایی های فنی بشر در برای تولید و جمع آوری داده‌ها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی دارند [‎1]. بطور کلی استفاده همگانی ...

از هنگامی که رایانه در تحلیل و ذخیره سازی داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پایگاه داده ها دو برابر شد. همچنین تعداد پایگاه داده ها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل داده ها و آمارشناسان با این سرعت رشد نکرد. حال با وجود سیستم های یکپارچه اطلاعاتی، سیستم های یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم داده ها در ...

بسیاری از فروشگاهها پس از گذشت یک ربع قرن از آغاز فعالیت، هنوز مشتری وفادار خود را دارند. این وفاداری تصادفی نیست. اداره کنندگان این فروشگاهها به سلایق و نیازهای مشتریان خویش واقف شده اند و توان مالی خرید آنها را می شناسند. وقتی کسی از آنها راهنمایی بخواهد پاسخ آنها براساس دانش اندوخته شان در مورد ذائقه و بودجه آن مشتری و همچنین دانش شان در باره محصولات خودشان خواهد بود. افرادی ...

چکیده : داده کاوی عبارت است از فرآیند خودکار کشف دانش و اطلاعات از پایگاه های داد ه ای. این فرآیند تکنیک ها یی از هوش مصنوعی را بر روی مقادیر زیادی داده اعمال می کند تا روندها , الگوها و روابط مخفی را کشف کند. ابزار های داده کاوی برای کشف دانش یا اطلاعات از داده ها به کاربراتکا نمی کنند، بلکه فرآیند پیشگویی واقعیت ها را خود کار می سازند. این تکنولوژی نوظهور، اخیرًا به طورفزایند ...

با افزایش سیستمهای کامپیوتر و گسترش تکنولوژی اطلاعات , بحث اصلی در علم کامپیوتر از چگونگی جمع آوری اطلاعات به نحوه استفاده از اطلاعات منتقل شده است . سیستمهای داده کاوی ,این امکان را به کاربر می دهند که بتواند انبوه داده های جمع آوری شده را تفسیر کنند و دانش نهفته در آن را استخراج نمایند . داده کاوی به هر نوع کشف دانش و یا الگوی پنهان در پایگاه داده ها اطلاق می شود . امروزه داده ...

مقدمه : هدف از این اراِئه و تحقیق بررسی روشهای مطرح داده کاوی است .داده کاوی هر نوع استخراج دانش و یا الگواز داده های موجود در پایگاه داده است که این دانشها و الگوها ضمنی و مستتر در داده ها هستند ,از داده کاوی می توان جهت امور رده بندی (Classification ) و تخمین (Estimation) ,پیش بینی (Prediction) و خوشه بندی (Clustering)استفاده کرد .داده کاوی دارای محاسن فراوانی است . از مهمترین ...

همانگونه که از تعریف فوق-که توسط یکی از بنیانگذاران هوش مصنوعی ارائه شده است- برمی‌آید،حداقل به دو سؤال باید پاسخ داد: 1 هوشمندی چیست؟ 2 برنامه‌های هوشمند، چه نوعی از برنامه‌ها هستند؟ تعریف دیگری که از هوش مصنوعی می‌توان ارائه داد به قرار زیر است: « هوش مصنوعی، شاخه‌ایست از علم کامپیوتر که ملزومات محاسباتی اعمالی همچون ادراک (Perception)، استدلال(reasoning) و ...

الگوریتم ها در کامپیوتر ها اعمال مشخص و واضحی هستند که بصورت پی در پی و در جهت رسیدن به هدف خاصی انجام می شوند.حتی در تعریف الگوریتم این گونه آمده است که الگوریتم عبارت است از مجموعه ای ازاعمال واضح که دنبال ای از عملیات را برای رسیدن به هدف خاصی دنبال می کنند.آنچه در این تعریف خود نمایی می کند کلمه دنباله می باشد که به معنای انجام کار ها بصورت گام به گام می باشد. این امر مشخص ...

دادِگان (پایگاه داده‌ها یا بانک اطلاعاتی) به مجموعه‌ای از اطلاعات با ساختار منظم و سامانمند گفته می‌شود. این پایگاه‌های اطلاعاتی معمولاً در قالبی که برای دستگاه‌ها و رایانه‌ها قابل خواندن و قابل دسترسی باشند ذخیره می‌شوند. البته چنین شیوه ذخیره‌سازی اطلاعات تنها روش موجود نیست و شیوه‌های دیگری مانند ذخیره‌سازی ساده در پرونده‌ها نیز استفاده می‌گردد. مسئله‌ای که ذخیره‌سازی داده‌ها ...

دادِگان (پایگاه داده‌ها یا بانک اطلاعاتی) به مجموعه‌ای از اطلاعات با ساختار منظم و سامانمند گفته می‌شود. این پایگاه‌های اطلاعاتی معمولاً در قالبی که برای دستگاه‌ها و رایانه‌ها قابل خواندن و قابل دسترسی باشند ذخیره می‌شوند. البته چنین شیوه ذخیره‌سازی اطلاعات تنها روش موجود نیست و شیوه‌های دیگری مانند ذخیره‌سازی ساده در پرونده‌ها نیز استفاده می‌گردد. مسئله‌ای که ذخیره‌سازی داده‌ها ...

ثبت سفارش