بخش هفتم: وب کاوی معنایی و تحلیل عظیم‌داده

داده‌های متنی تولید شده در صفحات وب و رسانه‌های اجتماعی مختلف، به عنوان یکی از منابع داده‌ای مفید برای تحلیل محسوب می‌شوند که با توجه به رشد روزافزون تولید این داده‌ها توسط کاربران، این موضوع در این فصل کتاب تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها بررسی می‌شود. نکته قابل توجه در وب معنایی این می‌باشد که تولید داده‌ها یکطرفه نمی‌باشند و کاملا کاربر محور می‌باشند که همین موضوع تحلیل این داده‌ها را پیچیده‌تر می‌سازد؛ چرا که کشف ارتباط بین محتواهای تولید شده حائز اهمیت می‌باشد.

تحلیل داده‌های استخراج شده از وب معنایی در صورتی قابل اعتنا خواهد بود که معماری و ساختارهای این حوزه را به خوبی بتوان شناخت. به همین دلیل در این فصل یک شمای کلی از لایه‌های مختلف این معماری ارائه شده است که در تصویر زیر قابل مشاهده می باشد:

 

 

یکی از نکات مهم در معماری داده‌های مربوط به وب، پلتفرمی می‌باشد که داده‌ها از آن استخراج می‌شوند. از آنجاییکه کاربران می‌توانند در رسانه‌های مختلفی تولید محتوا کنند و این محتواها موضوعیت یکسانی ندارند، یکپارچه‌سازی تحلیل داده‌های استخراج شده از منابع مختلف، یکی دیگر از چالش‌های موجود در وب کاوی معنایی می‌باشد؛ چرا که نهایتا تحلیل یکپارچه داده‌ها است که می‌تواند ارزش افزوده بیشتری را ایجاد کند. شناخت درست این معماری، به استخراج داده‌ها و وب کاوی بهینه کمک خواهد کرد که گام اول در تحلیل این نوع داده‌ها می باشد.

 از آنجاییکه استخراج داده‌ها به تنهایی ارزشمند نمی‌باشند و نیاز به تحلیل داده‌ها برای کشف الگوها و روابط مختلف در وب معنایی می‌باشد؛ در بخش بعدی این فصل به تحلیل شبکه اجتماعی برای تشخیص اجتماعات، شبیه سازی عامل محور و همچنین تحلیل احساسات و نظرکاوی پرداخته شده است. اصلی ترین محصول بر پایه‌ی تحلیل داده‌های وب، طراحی سیستم‌های توصیه دهنده مختلف می‌باشد که مختصر توضیحی از آن در این فصل ارائه شده است. این سیستم‌ها بر اساس ارتباطات و تعاملاتی که بین کاربران ایجاد شده است و مشابهت‌هایی که با یکدیگر دارند، می‌توانند پیشنهادهای هدفمندی را برای کاربران مختلف فراهم آورند.