بخش ششم: الگوریتم‌های یادگیری ماشین برای عظیم داده

رشد تولید داده و افزایش تنوع  آن، موجب ایجاد منابع داده‌ای عظیمی شده است در حالی که استفاده از این منابع نیازمند درک عمیقی از وِیژگی‌های داده است. الگوریتم‌های یادگیری ماشین با هدف یادگیری روابط و ویژگی‌های بین داده‌ها و به منظور پیش‌بینی استفاده می‌شوند. در زمینه عظیم داده، پیاده‌سازی الگوریتم‌های یادگیری ماشین به استفاده از پردازش موازی و روش‌های آماری در مقایسه با روش‌های قانون محور وابسته است.

1)روش‌های یادگیری نظارت‌شده

روش‌های یادگیری نظارت‌شده از دو مجموعه داده به عنوان ورودی و خروجی (داده‌های برچسب‌دار) استفاده می‌کند. این روش‌ها به دو دسته تقسیم‌بندی (برای داده‌های گسسته) و رگرسیون (برای داده‌های پیوسته) تقسیم‌بندی می‌شوند.  شکل زیر روش تقسیم‌بندی را ترسیم کرده است.

روش‌های اصلی یادگیری نظارت‌شده شامل الگوریتم‌های زیر هستند:

  • درخت تصمیم
  • رگرسیون لجستیک
  • رگرسیون
  • شبکه‌های عصبی نظارت شده
  • ماشین بردار پشتیبانی (SVM)

 

2)روش‌های یادگیری بدون نظارت

رویکرد یادگیری ماشین بدون استفاده از داده‌های برچسب‌دار را روش بدون نظارت می‌نامند. در این روش، بر خلاف یادگیری نظارت شده، جواب صحیحی برای پیش‌بینی وجود ندارد و هدف استفاده از آن کشف ساختار و روابط بین داده‌هاست.

روش‌های اصلی یادگیری بدون نظارت شامل الگوریتم‌های زیر هستند:

  • خوشه‌بندی طیفی
  • تحلیل مؤلفه‌های اصلی
  • تخصیص پنهان دیریکله
  • تجزیه ماتریس
  • کاهش غیرخطی ابعاد

 

3)روش‌های یادگیری نیمه نظارت‌شده

در این روش با استفاده همزمان از داده‌های برچسب‌دار و داده‌های بدون برچسب، اثربخشی هر دو روش بدون نظارت و نظارت شده به صورت توامان ترکیب می‌کند.  شکل زیر به شماتیک روش نیمه‌نظارت شده را نشان می‌دهد.

3)یادگیری تقویتی

یادگیری تقویتی موجب می‌شوند تا ماشین با کسب تجربه و دریافت نتایج اقدامات انجام شده رفتار خود را بهینه کند. در این روش، یک محیط ناشناخته وجود دارد و یک یا چند عامل با محیط در تعامل هستند. عوامل با استفاده از بازخورد دریافتی از محیط در هر اقدام، اقدام بعدی خود را انتخاب می‌کنند. الگوریتم‌های نظیر فرایند تصمیم‌گیری مارکوف در این روش مورد استفاده قرار می‌گیرند