در این مقاله قصد داریم تا در مورد Apache spark صحبت کنیم و بگوییم که Apache spark چیست. همراه ما باشید.
Apache spark یک موتور قدرتمند برای پردازش داده های بزرگ می باشد و این داده ها که به صورت توزیع شده هستند. منظور از داده های توزیع شده، داده هایی می باشد که بر روی چندین کامپیوتر قرار دارند و نیاز هست تا پردازش شوند در مورد داده های بزرگ قبلا صحبت کردیم و مقاله ای برای داده های بزرگ یا به عبارتی Big Data داشتیم که برای درک بهتر این مقاله میتوانید ابتدا به مقاله ی مربوط به Big Data رجوع کنید.
به عبارت کلی منظور از داده های بزرگ داده هایی هستند که معمولا با یک کامپیوتر پردازش نمی شوند.
Apache spark برای پردازش Big Data و یا به عبارتی داده های بزرگ ( کلان داده ) راه حل مناسبی می باشد همچنین در مقاله ی قبل نیز درباره ی frame work هدوپ صحبت کردیم که کار Hadoop نیز پردازش داده های بزرگ می باشد و تفاوتی که بین Hadoop با Apache spark وجود دارد در سرعت پردازش آنها هست به این صورت که Apache spark در مقایسه با Hadoop بسیار سریع تر می باشد.
اگر چندین کامپیوتر متوسط در اختیار داشته باشید میتوانید با Apache spark موارد پردازش داده ها را به صورت موازی بر روی کامپیوتر های مختلف اجراکنید نتیجه را به صورت تجمیع شده بر روی یک کامپیوتر قرار دهید. Apache spark می تواند از سیستم های مختلف ذخیره سازی توزیع شده استفاده کند.
Apache spark از کتابخانه های مختلفی ایجاد شده است که در این مقاله به بخشی از آنها اشاره میکنیم:
Machin learning: توانایی پردازش الگوریتم های مختلف Data Mining (داده کاوی) بر روی spark فراهم میکند.
Graphx: این کتابخانه از Apache spark توانایی پردازش داده هایی که به صورت گراف هستند را دارد.
همچنین Apache spark از زبان های مختلفی پشتیبانی می کند از جمله: Java و Pyhon
با دیگر مقالات ما در server.ir همراه باشید.