- خانه
- نوشتارهای علمی
- "ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش چهاردهم)
"ذخیرهسازی و تحلیل در سطح اینترنت" از مجموعه کتب "راهنمای کامل هدوپ" (بخش چهاردهم)
فصل چهاردهم این کتاب به معرفی ابزار Apache Flume میپردازد.
هدوپ برای پردازش مجموعه دادههای بسیار بزرگ ساخته شده است. اغلب اینگونه فرض میشود که دادهها از قبل در HDFS هستند یا میتوانند به صورت عمده در آنجا کپی شوند. در حالی که بسیاری از سیستمها هستند که این فرض را رعایت نمیکنند و جریانهایی از دادهها را تولید میکنند که ما میخواهیم آنها را با استفاده از هدوپ جمعآوری، ذخیره و تجزیه و تحلیل نماییم و Apache Flume مناسب اینگونه از سیستمها است.
ثبت داده و دریافت دادههای جریانی و مدیریت آنها، از مهمترین بخشهای اکثریت پروژههای عظیمداده بوده و در حقیقت Flume سرویسی است که به دریافت دادههای بدون ساختار و نیمه ساختیافته در HDFS کمک میکند.
می توان ادعا نمود که Flume راهحلی قابل اعتماد و توزیع شده برای جمعآوری، انباشت و انتقال مجموعه عظیمداده است و میتوان از این ابزار در دریافت دادههای آنلاینِ جاری از منابع مختلف، مانند ترافیک شبکه، رسانههای اجتماعی، پیامهای ایمیل، فایلهای رخداد در سیستم و غیره و ذخیرهسازی آن به روی HDFS، استفاده نمود.
نسخه پایدار توزیع باینری Flume را از لینک زیر دانلود نمایید:
http://flume.apache.org/download.html
برای درک بهتر شکل زیر معماری این ابزار را نشان میدهد:
این نمودار یک عامل Flume است که دادههای جاری را از منابع مختلف داده دریافت و در HDFS ذخیره میکند. در این نمودار، سرور وب، منبع داده را نشان میدهد. توییتر یکی از مشهورترین منابع دادههای جریانی است.
عامل Flume از سه جزء تشکیل شده است:
- Source :دادههای ورودی را از یک جریان داده ورودی پذیرش میکند و در Channel ذخیره میکند.
- Channel : مانند ذخیرهسازی محلی یا ذخیرهسازی اولیه عمل نموده و ذخیرهسازیِ موقتی بین دادههای منبع و دادههای پایدار در HDFS میباشد.
- Sink : آخرین جزء بوده که دادهها را از Channel جمعآوری و دائماً آنها را در HDFS مینویسد.
در فصل 14 تعدادی از اجزای Flume استفاده شده است. Flume با بسیاری موارد دیگر همراه است که به طور خلاصه در جدول زیر آورده شده و برای کسب اطلاعات بیشتر در مورد نحوه پیکربندی و استفاده از آنها به راهنمای کاربر Flume مراجعه نمایید.
دسته بندی
- معرفی ابزار 28
- مطالعه موردی 27
- کتاب بخوانیم 52
- معرفی کتاب 32
- مرور منابع علمی 36
- اینفوگرافیک 7
- تجربه داخلی 4
- مصاحبه 22
- معرفی کسب و کار داده محور 10
- معرفی سرویس 7