- خانه
- نوشتارهای علمی
- کتاب "تحلیل عظیمداده، سیستمها، الگوریتمها و کاربردها" (بخش اول)
کتاب "تحلیل عظیمداده، سیستمها، الگوریتمها و کاربردها" (بخش اول)
بخش اول: تحلیلهای عظیم داده
فصل اول کتاب تحلیل عظیم داده، سیستمها، الگوریتمها و کاربردها، با معرفی اولیه و اهمیت عظیم داده برای کسب و کارها شروع میشود و سپس با بررسی تفاوتهای ایجاد شده در عظیم داده در مقایسه با دادههای سنتی، ضرورت به کارگیری از پردازشهای موازی در قالب اکوسیستم هدوپ را مطرح میکند تا با معرفی اجزای سازنده اصلی آن در لایههای مختلف، اطلاعات کلی در مورد هدوپ در اختیار خوانندگان قرار دهد. نهایتا در انتهای این فصل، به کاربرد الگوریتمهای دادهکاوی در عظیم داده پرداخته میشود.
یکی از مشکلات اصلی برای کسب و کارهای مقیاسپذیر اینترنتی، ذخیرهسازی و استفاده بهینه از دادههای انبوه ایجاد شده میباشد تا نهایتا در تصمیمات سازمان بتوان از آن استفاده کرد. هدوپ به عنوان اولین پلتفرم برای ذخیرهسازی و تحلیل عظیم دادهها، محسوب میشود که بر پایه محاسبات موازی و در یاهو با استفاده از جاوا توسعه داده شده است. هدوپ به دلیل توانایی مدیریت کردن حجم انبوهی از دادههای ساختاریافته، نیمه ساختاریافته و غیرساختاریافته و ایجاد سیستمهای فایل توزیع شده برای ذخیرهسازی و تحلیل عظیم داده مورد توجه قرار گرفته است و مزایای زیادی را برای کسب و کارها فراهم میآورد که به طور خلاصه شامل موارد زیر میباشد:
- ذخیرهسازی با فرمت بومی: چارچوب ذخیرهسازی داده هدوپ که سیستم فایل توزیع شده نامیده میشود؛ دادهها را به صورت فرمت بومی ذخیره میکند و هیچ ساختار به طور پیشفرض برای ذخیرهسازی تحمیل نمیشود.
- مقیاسپذیری: هدوپ میتواند مجموعه دادههای بسیار بزرگ با حجم چندین هزار ترابایت یا پتابایت را ذخیره و توزیع کند.
- مقرون به صرفه بودن: هزینه ذخیرهسازی به ازای هر پتابایت در هدوپ در پایینترین سطح ممکن اتفاق میافتد.
- مقاومت در برابر خطا: هدوپ با تکرار دادهها در سرورها و خوشههای مختلف، امکان دسترسی به دادهها را بدون وقفه در هر زمانی بدون بروز خطا فراهم میآورد.
- انعطاف پذیری: هدوپ میتواند با تمامی ساختارها کار کند: ساختار یافته، نیمه ساختار یافته و غیر ساختار یافته و این امکان را فراهم میآورد تا به بینشها و تصمیمات عملی با استفاده از ساختارهای مختلف دادهها دست پیدا کرد.
- کاربرد: هدوپ کاربردهای مختلفی همچون دادهکاوی، سیستمهای پیشنهاد دهنده، تحلیل لاگها و کمپینهای بازاریابی مبتنی بر داده را فراهم میآورد.
- پردازش سریع و سرعت بالا: سرعت و پردازش در سیستم هدوپ در مقایسه با سیستمهای متداول بسیار بالا میباشد.
اکوسیستم هدوپ شامل 12 بخش و در 4 لایه میباشد که در تصویر زیر نشان داده شده است:
1) لایه ذخیرهسازی داده: این لایه شامل دو بخش سیستم فایل توزیع شده و سیستم مدیریت پایگاه داده میباشد که میتواند دادههای ساختار یافته را نیز در جداول بزرگ ذخیره کند.
2) لایه پردازش داده: این لایه بر اساس معماری نگاشت کاهش برای مدیریت منابع و کاربردها میباشد.
3) لایه دسترسی داده: دسترسی به دادهها به طرق مختلفی در اکوسیستم هدوپ اتفاق میافتد: هایو[1]، همانند زبان Sql میباشد و پیگ[2] کمک خواهد کرد تا جریان دادهها به خوبی قابل فهم باشد و ماهوت[3] به عنوان کتابخانه دادهکاوی و یادگیری ماشین مقیاس پذیر به حساب میآید.
4)لایه مدیریت داده: بالاترین لایه مربوط به مدیریت داده میباشد که در این لایه زوکیپر[4]، به عنوان هماهنگ کننده برای کاربردهای توزیع یافته استفاده میشود و چاکوا[5] سیستم جمعآوری داده برای مدیریت سیستمهای بزرگ توزیع شده میباشد.
علاوه بر معرفی اکوسیستم هدوپ، در قسمت پایانی فصل اول، به توضیح مختصری از الگوریتمهای دادهکاوی همانند شبکههای عصبی، درخت تصمیمگیری، ماشین بردار پشتیبان برای استخراج دانش در عظیم داده پرداخت شده است و نکته قابل توجه، استفاده از محاسبات و روشهای تکاملی برای رسیدن به تصمیمات بهینه در پلتفرمهای عظیم داده میباشد.
[1] Hive
[2] Pig
[3] mahout
[4] Zookeeper
[5] chukwa
دسته بندی
- معرفی ابزار 26
- مطالعه موردی 27
- کتاب بخوانیم 49
- معرفی کتاب 31
- مرور منابع علمی 33
- اینفوگرافیک 7
- تجربه داخلی 4
- مصاحبه 22
- معرفی کسب و کار داده محور 9
- معرفی سرویس 7