با کلیک روی +۱ توپترینها را در گوگل معتبر کنید
 



امتیاز موضوع:
  • 1 رأی - میانگین امتیازات: 5
  • 1
  • 2
  • 3
  • 4
  • 5

آموزش داده کاوی از صفر تا صد

#25
هموار سازی داده ها با کمک تکنیک رگرسیون


همانطور که در مطلب قبل بیان کردیم روش های هموارسازی به دو دسته محلی و سراسری تقسیم می شن.پیش از این تکنیک Binning رو به عنوان یک روش محلی مورد بررسی قرار دادیم. در این مطلب قصد داریم تکنیک رگرسیون (Regressionn) رو بررسی کنیم. این روش در دسته روشهای سراسری قرار می گیره. در این ابتدا شیوه کار این تکنیک و انواع اون رو بررسی میکنیم و سپس دوتا مثال ارائه میدیم
در تکنیک رگرسیون سعی میکنیم تا داده ها  رو روی یک تابع وفق دهیم (conform) به طوری که این تابع بتونه بهترین نماینده برای نمایش داده ها باشه، این تکنیک خودش به دو دسته تقسیم میشه
  1. 1رگرسیون خطی: زمانی که ما دوتا متغیر داریم می تونیم از این تکنیک استفاده کنیم. در این روش سعی  میشه تا یک خط تعریف کنیم (رسم کنیم) که بتونه بهترین نمایش برای ارتباط بین دو تا متغیر باشه، به طوری که بتونیم با کمک اون یک متغیر رو بر اساس دیگری تخمین بزنیم.

  2. رگرسیون خطی چندتایی: رگرسیون خطی چندتایی رو می تونیم، توسعه یافته حالت خطی بدونیم، و زمانی  استفاده میشه که بیش از دوتا متغیر داریم و نیاز به چندتا خط داریم که بتونیم داده ها رو روی مطابقت بدیم. (مطابقت دادن داده رو fit کردن داده هم می گویند)
تعاریف بالا، یکم ریاضی وار است، بزارید برای درک بهتر یک مثال بزنیم تا به صورت شهودی هم بتونید این مفهوم رو درک کنید.
رگرسیون خطی: فرض کنید ما یک سری داده داریم که بر حسب و x و y  تعریف شدن. ابتدا ما میاییم و این داده ها  رو بر روی نمودار نشون میدیم. حالا اگر خطی رو رسم کنیم که فاصله اون از تمام نقاط کمینه باشه. به این خط، رگرسیون می گیم. این مفهوم در شکل زیر نمایش داده شده است.
[تصویر:  regression_line-300x165.png]
رگرسیون خطی چندتایی:حالا فرض کنید، داده های ما بر حسب سه متغیر x y و z رسم کردیم. خوب در این صورت هم ما باید مجموعه ای از خطوط داشته باشیم که فاصله اونها از همه داده ها مون کمینه باشه. در شکل زیر رگرسیون برای داده های که بر حسب سه متغیر رسم شده اند نمایش داده شده است.
[تصویر:  quadfit-300x282.jpg]
در این مطلب سعی کردیم تا مفهوم رگرسیون به عنوان یک روش در هموار سازی داده ها توضیح بدیم. از اونجایی که پرداختن به بحث ریاضی مربوط به این تکنیک خارج از حوصله این متن است، برای بررسی بحث های ریاضی اون می تونید منابع مربوط به رو مطالعه کنید.


منبع (اطلاعات بیشتر)
MrMining.ir
پاسخ
 سپاس شده توسط majidhmt


Bookmarks

موضوعات مرتبط با این موضوع...
موضوع نویسنده پاسخ بازدید آخرین ارسال
  مدیریت موثر «داده‌های بزرگ» ParseData 2 160 1392/7/1، 11:06 عصر
آخرین ارسال: Sαяα



کاربرانِ درحال بازدید از این موضوع: 1 مهمان