با کلیک روی +۱ توپترینها را در گوگل معتبر کنید
 



کسب در آمد اینترنتی قانونی و تضمینی
امتیاز موضوع:

آموزش داده کاوی از صفر تا صد

#25
هموار سازی داده ها با کمک تکنیک رگرسیون


همانطور که در مطلب قبل بیان کردیم روش های هموارسازی به دو دسته محلی و سراسری تقسیم می شن.پیش از این تکنیک Binning رو به عنوان یک روش محلی مورد بررسی قرار دادیم. در این مطلب قصد داریم تکنیک رگرسیون (Regressionn) رو بررسی کنیم. این روش در دسته روشهای سراسری قرار می گیره. در این ابتدا شیوه کار این تکنیک و انواع اون رو بررسی میکنیم و سپس دوتا مثال ارائه میدیم
در تکنیک رگرسیون سعی میکنیم تا داده ها  رو روی یک تابع وفق دهیم (conform) به طوری که این تابع بتونه بهترین نماینده برای نمایش داده ها باشه، این تکنیک خودش به دو دسته تقسیم میشه
  1. 1رگرسیون خطی: زمانی که ما دوتا متغیر داریم می تونیم از این تکنیک استفاده کنیم. در این روش سعی  میشه تا یک خط تعریف کنیم (رسم کنیم) که بتونه بهترین نمایش برای ارتباط بین دو تا متغیر باشه، به طوری که بتونیم با کمک اون یک متغیر رو بر اساس دیگری تخمین بزنیم.

  2. رگرسیون خطی چندتایی: رگرسیون خطی چندتایی رو می تونیم، توسعه یافته حالت خطی بدونیم، و زمانی  استفاده میشه که بیش از دوتا متغیر داریم و نیاز به چندتا خط داریم که بتونیم داده ها رو روی مطابقت بدیم. (مطابقت دادن داده رو fit کردن داده هم می گویند)
تعاریف بالا، یکم ریاضی وار است، بزارید برای درک بهتر یک مثال بزنیم تا به صورت شهودی هم بتونید این مفهوم رو درک کنید.
رگرسیون خطی: فرض کنید ما یک سری داده داریم که بر حسب و x و y  تعریف شدن. ابتدا ما میاییم و این داده ها  رو بر روی نمودار نشون میدیم. حالا اگر خطی رو رسم کنیم که فاصله اون از تمام نقاط کمینه باشه. به این خط، رگرسیون می گیم. این مفهوم در شکل زیر نمایش داده شده است.
[تصویر:  regression_line-300x165.png]
رگرسیون خطی چندتایی:حالا فرض کنید، داده های ما بر حسب سه متغیر x y و z رسم کردیم. خوب در این صورت هم ما باید مجموعه ای از خطوط داشته باشیم که فاصله اونها از همه داده ها مون کمینه باشه. در شکل زیر رگرسیون برای داده های که بر حسب سه متغیر رسم شده اند نمایش داده شده است.
[تصویر:  quadfit-300x282.jpg]
در این مطلب سعی کردیم تا مفهوم رگرسیون به عنوان یک روش در هموار سازی داده ها توضیح بدیم. از اونجایی که پرداختن به بحث ریاضی مربوط به این تکنیک خارج از حوصله این متن است، برای بررسی بحث های ریاضی اون می تونید منابع مربوط به رو مطالعه کنید.


منبع (اطلاعات بیشتر)
MrMining.ir
پاسخ
 سپاس شده توسط majidhmt
#26
هموار سازی داده ها با کمک تکنیک تحلیل داده های پرت


در مطلب قبلی ما روش رگرسیون رو به عنوان یکی از روش های سراسری هموار سازی داده ها مورد بررسی قرار دادیم. در این مطلب قصد داریم یکی دیگر از روش های مربوط به هموار سازی داده ها سراسری رو مورد بررسی قرار بدیم. تفاوت روش های هموار سازی محلی و سراسری رو در این مطلب به صورت کامل مورد بررسی قرار دادیم.
تحلیل داده های پرت: تحلیل داده های پرت یکی از روش های هموار سازی داده ها به صورت سراسری است که  می تواند با کمک تکنیک های مختلفی انجام می شود. یکی از مهمترین تکنیک های که در این حوزه کاربرد دارد، تکنیک های خوشه بندی یا clustering است. ما بعدا مفصل در مورد خوشه بندی و انواع اون به تفصیل صحبت خواهیم کرد. در این مطلب تنها مفهوم آن را بررسی خواهیم کرد.
در تکنیک های خوشه بندی ما سعی میکنیم داده های شبیه به هم رو توی یک خوشه یا cluster جای بدیم. داده های ما دو حالت خواهند داشت که به صورت زیر قابل تفسیر است

  1. داده های خوشه بندی شده: یعنی یک سری داده هستند که بهم شبیه هستند و تعداد آنها به اندازه ای است که می توانند یک خوشه تشکیل دهند (درباه روش ها و اینکه چطوری تشخیص بدیم یک خوشه چقدر مناسب است، بعدا مفصل توضیح خواهیم داد)
  2. داده های پرت: داده های که با مجموعه داده ای بسیار متفاوت هستند و می توان آنها را از مجموعه داده ای حذف کرد.
بزارید با یک مثال تحلیل داده های پرت رو دنبال کنیم. فرض کنید ما داده های مربوط به مکان های جغرافیایی مربوط به مشتریان رو داریم و اونها رو روی نقشه مشخص کرده ایم،  سپس با کمک تکنیک های خوشه بندی میاییم و خوشه ها رو مشخص می کنیم. همانطور که توی شکل مشخص مشتریان ما تقریبا توی سه منطقه جمع شدن. و سایر مشتریان از این سه خوشه بسیار متفاوت هستند. حالا ما می توانیم از داده ها استفاده کنیم برای تصمیم گیری. مثلا می تونیم از این اطلاعات برای تعیین بهترین مکان برای تاسیس  واحد های پشتیبانی و ارتباط با مشتری استفاده کرد (مثلا مرکز خوشه ها بهترین مکان برای تاسیس این واحد ها است چون کمترین فاصله رو از مجموعه مشتریان آن خوشه دارد)
[تصویر:  1233-300x200.png]
تحلیل داده های پرت مربوط به مکان های جغرافیایی مربوط به مشتریان

منبع (اطلاعات بیشتر)
MrMining.ir
پاسخ
« قدیمی‌تر | جدیدتر »


Bookmarks

موضوعات مرتبط با این موضوع...
موضوع نویسنده پاسخ بازدید آخرین ارسال
  مدیریت موثر «داده‌های بزرگ» ParseData 2 196 1392/7/1، 11:06 عصر
آخرین ارسال: Sαяα



کاربرانِ درحال بازدید از این موضوع: 1 مهمان