در این مقاله قصد داریم تا در مورد Apache spark صحبت کنیم و بگوییم که Apache spark چیست. همراه ما باشید.

Apache spark یک موتور قدرتمند برای پردازش داده های بزرگ می باشد و این داده ها که به صورت توزیع شده هستند. منظور از داده های توزیع شده، داده هایی می باشد که بر روی چندین کامپیوتر قرار دارند و نیاز هست تا پردازش شوند در مورد داده های بزرگ قبلا صحبت کردیم و مقاله ای برای داده های بزرگ  یا به عبارتی Big Data داشتیم که برای درک بهتر این مقاله میتوانید ابتدا به مقاله ی مربوط به Big Data رجوع کنید.

 به عبارت کلی منظور از داده های بزرگ داده هایی هستند که معمولا با یک کامپیوتر پردازش نمی شوند.

Apache spark برای پردازش Big Data و یا به عبارتی داده های بزرگ ( کلان داده ) راه حل مناسبی می باشد همچنین در مقاله ی قبل نیز درباره ی frame work هدوپ صحبت کردیم که کار Hadoop نیز پردازش داده های بزرگ می باشد و تفاوتی که بین  Hadoop  با Apache spark وجود دارد در سرعت پردازش آنها هست به این صورت که  Apache spark در مقایسه با Hadoop بسیار سریع تر می باشد.

Apache spark چیست

اگر چندین کامپیوتر متوسط در اختیار داشته باشید میتوانید با Apache spark موارد پردازش داده ها را به صورت موازی بر روی کامپیوتر های مختلف اجراکنید  نتیجه را به صورت تجمیع شده بر روی یک کامپیوتر قرار دهید. Apache spark می تواند از سیستم های مختلف ذخیره سازی توزیع شده استفاده کند.

Apache spark از کتابخانه های مختلفی ایجاد شده است که در این مقاله به بخشی از آنها اشاره میکنیم:

Machin learning: توانایی پردازش الگوریتم های مختلف Data Mining (داده کاوی) بر روی spark فراهم میکند.

Graphx: این کتابخانه از Apache spark توانایی پردازش داده هایی که به صورت گراف هستند را دارد.

همچنین Apache spark از زبان های مختلفی پشتیبانی می کند از جمله: Java و Pyhon

با دیگر مقالات ما در server.ir همراه باشید.