راهنمای جامع پیاده‌سازی High Availability در زیرساخت‌های میزبانی

مطالب آموزشی در زمینه زیرساخت ابری و سرویس های کلاود

1405.03.08

در دنیای امروز و با توجه به وابستگی شدید کسب‌وکارها به بسترهای آنلاین، پایداری و در دسترس بودن همیشگی سرویس‌ها به یکی از حیاتی‌ترین نیازهای حوزه فناوری اطلاعات تبدیل شده است. قطعی یک سرویس، حتی برای چند دقیقه، می‌تواند خسارت‌های مالی سنگین و آسیب‌های جدی به اعتبار یک برند وارد کند. در همین راستا، مفهوم قابلیت دسترسی بالا یا High Availability که به اختصار HA نامیده می‌شود، به عنوان راهکاری استاندارد برای تضمین پایداری و تداوم سرویس‌دهی در مواجهه با خطاها و قطعی‌های سخت‌افزاری و نرم‌افزاری مطرح است.

در این مقاله تخصصی، به بررسی عمیق مفهوم High Availability، لایه‌های مختلف آن در دیتا‌سنتر و راهکارهای عملی برای پیاده‌سازی آن در زیرساخت‌های میزبانی خواهیم پرداخت.

High Availability چیست؟

قابلیت دسترسی بالا یا High Availability به پروتکل‌ها، راهکارها و افزونگی‌هایی (Redundancy) گفته می‌شود که در ساختار یک سیستم تعبیه می‌شوند تا ارائه خدمات بدون توقف و به صورت مداوم تضمین شود. هدف اصلی در طراحی یک سیستم مبتنی بر HA، حذف نقاط تک‌افتاده شکست یا به اصطلاح Single Point of Failure (SPOF) است. به این معنا که خرابی هیچ‌یک از قطعات سخت‌افزاری، تجهیزات شبکه یا باگ‌های نرم‌افزاری نباید منجر به قطع کلی سرویس و از دسترس خارج شدن سایت یا اپلیکیشن برای کاربران نهایی شود.

میزان دسترسی سیستم‌ها معمولا با معیاری به نام «تعداد ۹ها» سنجیده می‌شود. مثلا دسترسی 99.999% که به پنج نُه معروف است، به این معنی است که یک سیستم در طول کل سال حداکثر می‌تواند حدود ۵ دقیقه قطعی یا Downtime داشته باشد که این میزان پایداری تنها با معماری‌های پیشرفته HA میسر می‌شود.

مولفه‌ها و مکانیزم‌های اصلی ارتقاء قابلیت دسترسی بالا

برای این که یک سیستم بتواند پایداری خود را در شرایط بحرانی حفظ کند، به مکانیزم‌ها و ابزارهای ویژه‌ای نیاز دارد که جریان ترافیک و داده‌ها را مدیریت کنند.

مکانیزم جابجایی خودکار یا Failover

فرآیند Failover قلب تپنده سیستم‌های HA است. در این ساختار، سرورها به صورت خوشه‌ای (Cluster) پیکربندی می‌شوند. در صورتی که سرور اصلی به هر دلیلی مثل سوختن هارد، اختلال در منبع تغذیه یا اورلود قطعات از مدار خارج شود، سیستم کنترل‌کننده به صورت خودکار و بدون نیاز به دخالت انسانی، وظایف و ترافیک سرور آسیب‌دیده را به سرور پشتیبان فعال (Backup Server) منتقل می‌کند. این انتقال به قدری سریع انجام می‌شود که کاربر نهایی متوجه هیچ‌گونه وقفه یا تاخیری در دریافت خدمات نخواهد شد.

توزیع هوشمند ترافیک یا Load Balancing

لود‌بالانسرها وظیفه دارند ترافیک ورودی کاربران را به صورت هوشمند و بر اساس الگوریتم‌های مشخص بین چندین سرور مجزا توزیع کنند. این ابزار علاوه بر افزایش توان پردازشی کلی سیستم، پایداری را نیز تضمین می‌کند؛ چرا که لود‌بالانسر به صورت مداوم سلامت سرورها (Health Check) را بررسی کرده و در صورت بروز مشکل در یکی از آن‌ها، ترافیک را فورا به سمت سرورهای سالم باقی‌مانده هدایت می‌کند.

اتوماسیون و هماهنگ‌سازی زیرساخت

مدیریت دستی زیرساخت‌های بزرگ در زمان بروز خطا عملا غیرممکن است و باعث افزایش زمان تاخیر در رفع مشکل می‌شود. استفاده از ابزارهای اتوماسیون و مدیریت پیکربندی به سازمان‌ها اجازه می‌دهد تا الگوهای رفتاری سیستم را در مواجهه با خطا تعریف کنند تا فرآیندهایی نظیر جایگزینی نودها یا همگام‌سازی جزییات فنی کاملا خودکار انجام شوند.

مراحل و اصول پیاده‌سازی معماری HA در لایه میزبانی

پیاده‌سازی یک هاست یا سرور با قابلیت دسترسی بالا، نیازمند طراحی دقیق لایه‌های مختلف سخت‌افزاری و نرم‌افزاری است. در ادامه فرآیند گام‌به‌گام این پیاده‌سازی را بررسی می‌کنیم.

۱. مهندسی و انتخاب معماری کلاسترینگ

در اولین گام باید مدل کلاسترینگ متناسب با ساختار نرم‌افزار انتخاب شود. معماری‌ها معمولا به دو دسته کلی تقسیم می‌شوند:

معماری Active-Passive: در این مدل یک سرور فعال است و ترافیک را پردازش می‌کند و سرور دیگر به صورت آماده‌به‌کار (Standby) منتظر می‌ماند تا در صورت بروز خطا جایگزین شود.
معماری Active-Active: در این مدل تمامی سرورهای کلاستر به صورت هم‌زمان در حال سرویس‌دهی و پردازش ترافیک هستند که لود‌بالانسر وظیفه توزیع بار میان آن‌ها را بر عهده دارد.

۲. کانفیگ دستگاه‌های بازنشانی و هماهنگ‌سازی داده‌ها

سرورهای پشتیبان باید همواره یک نسخه کاملا کپی و به‌روز از داده‌ها, فایل‌های پیکربندی و کدهای برنامه را در اختیار داشته باشند. برای این منظور، از تکنولوژی‌های همگام‌سازی لحظه‌ای داده‌ها (Real-time Replication) یا ذخیره‌سازهای مشترک متصل به شبکه مانند SAN یا NAS استفاده می‌شود تا در صورت سوییچ روی سرور جایگزین، اطلاعات کاربران ناقص یا منقضی نباشد.

۳. راه‌اندازی و مقیاس‌پذیری Load Balancer

لود‌بالانسر خود می‌تواند یک نقطه تک‌افتاده شکست (SPOF) باشد؛ بنابراین در کانفیگ‌های حرفه‌ای، حتی برای خود لود‌بالانسر نیز از ساختار جفت‌سازی (High Available Load Balancers) با استفاده از آی‌پی‌های شناور (Floating IPs) استفاده می‌شود تا پایداری این لایه به بالاترین حد ممکن برسد. سیستم باید به گونه‌ای طراحی شود که با افزایش ترافیک، امکان اضافه کردن سرورهای ابری جدید به کلاستر (Horizontal Scaling) به راحتی فراهم باشد.

۴. استقرار ابزارهای مانیتورینگ صلب

بدون داشتن یک سیستم مانیتورینگ دقیق، بستر HA به درستی کار نخواهد کرد. ابزارهای نظارتی باید پارامترهای حیاتی سرورها مانند میزان مصرف پردازنده، حافظه رم، پهنای باند شبکه و پاسخ‌دهی سرویس‌های اصلی (مثل وب‌سرور و دیتابیس) را در واحدهای میلی‌ثانیه‌ای بسنجند تا به محض بروز اولین نشانه از خطا، سیگنال‌های لازم را برای فعال شدن مکانیزم Failover ارسال کنند.

۵. تدوین طرح بازیابی فاجعه و تست‌های تخریبی

حتی بهترین سیستم‌های HA نیز بدون آزمایش‌های دوره‌ای قابل اتکا نیستند. تیم‌های فنی باید پروژه‌های تست تخریبی (Chaos Engineering) را پیاده کنند که در آن به صورت عمدی قطعی‌هایی در شبکه، سرورها یا دیتابیس ایجاد می‌شود تا رفتار خودکار سیستم در مواجهه با بحران واقعی سنجیده شود. همچنین تدوین یک طرح جامع بازیابی فاجعه (Disaster Recovery Plan) برای مواقعی که کل زیرساخت یک دیتاسنتر آسیب می‌بیند، الزامی است.

نتیجه‌گیری و چشم‌انداز پایداری زیرساخت با High Availability

طراحی و پیاده‌سازی High Availability یک انتخاب لوکس نیست، بلکه یک ضرورت انکارناپذیر برای کسب‌وکارهای مدرن و سایت‌های پرترافیک به شمار می‌رود. اگرچه راه‌اندازی این سیستم‌ها به دلیل نیاز به تجهیزات سخت‌افزاری مضاعف، لایسنس‌های نرم‌افزاری و کانفیگ‌های پیچیده شبکه هزینه‌های اولیه زیرساخت را افزایش می‌دهد، اما جلوگیری از خسارت‌های ناشی از قطعی سرویس و حفظ پایداری برند، این سرمایه‌گذاری را کاملا توجیه‌پذیر می‌کند. ارتقاء هم‌زمان لایه‌های لود‌بالانسینگ، کلاسترینگ دیتابیس و اتوماسیون فرآیندها، بستر امنی را برای میزبانی بی‌وقفه اپلیکیشن‌ها فراهم خواهد ساخت و تداوم تجارت الکترونیک را در بالاترین سطح استاندارد تضمین می‌کند.

سوالات متداول

01تفاوت اصلی بین High Availability و Disaster Recovery در چیست؟

تمرکز High Availability بر روی حفظ پایداری و تداوم کارکرد سیستم در مقابل خطاهای کوچک و روزمره مانند سوختن یک قطعه سخت‌افزاری یا قطع شدن یک لینک شبکه در یک زیرساخت جاری است. اما Disaster Recovery یا بازیابی فاجعه به فرآیندها و سیاست‌هایی اشاره دارد که برای بازگرداندن کل زیرساخت پس از یک حادثه بزرگ و ویران‌کننده مانند آتش‌سوزی دیتاسنتر یا قطعی کامل برق یک منطقه تدوین می‌شوند.

02آیا پیاده‌سازی HA برای تمامی برنامه‌ها و وب‌سایت‌ها الزامی است؟

خیر، پیاده‌سازی این ساختار نیازمند صرف هزینه و منابع فنی بیشتری است. برای سایت‌های کوچک، وبلاگ‌های شخصی یا سرویس‌هایی که قطعی چند ساعته آن‌ها ضرر مالی یا اعتباری به همراه ندارد، استفاده از معماری پیچیده HA توجیه اقتصادی ندارد و کانفیگ استاندارد یک سرور پایدار همراه با بک‌آپ‌گیری منظم کفایت می‌کند.

03منظور از معضل Split-Brain در کلاسترهای HA چیست؟

این مشکل زمانی رخ می‌دهد که ارتباط شبکه بین دو سرور در یک کلاستر قطع می‌شود، اما هر دو سرور کماکان روشن و سالم هستند. در این حالت، سرور پشتیبان به اشتباه تصور می‌کند سرور اصلی از کار افتاده است و شروع به سرویس‌دهی می‌کند. این اتفاق منجر به این می‌شود که هر دو سرور به صورت هم‌زمان یک نقش را ایفا کنند که نتیجه آن بازنویسی داده‌های متناقض و خرابی شدید دیتابیس خواهد بود. برای جلوگیری از این مشکل از سیستم‌های رای‌گیری و نودهای شاهد استفاده می‌شود.

04چگونه لایه دیتابیس را در ساختار High Availability پایدار می‌کنند؟

پایدارسازی دیتابیس یکی از پیچیده‌ترین بخش‌های معماری HA است. برای این کار معمولا از ساختارهای کلاسترینگ دیتابیس مانند مدل‌های تک‌رئیس و چندمرئوس استفاده می‌شود که در آن‌ها داده‌ها به سرعت بین چندین ریلیشن تکثیر می‌شوند تا در صورت خرابی دیتابیس اصلی، نود بعدی بدون از دست رفتن تراکنش‌های کاربران جایگزین شود.

05چه فاکتورهایی در محاسبات مالی و هزینه پیاده‌سازی زیرساخت HA تاثیرگذار هستند؟

هزینه‌های سخت‌افزاری به دلیل نیاز به سرورهای افزونه و تجهیزات ذخیره‌سازی مشترک مانند SAN اولین فاکتور تعیین‌کننده است. علاوه بر این، لایسنس نرم‌افزارهای تجاری لود‌بالانسینگ، دیتابیس‌های پیشرفته و پهنای باند اضافی شبکه برای همگام‌سازی لحظه‌ای داده‌ها بین سرورها، هزینه‌های جاری نگهداری سیستم را افزایش می‌دهند.

06چگونه لایه شبکه را در ساختار High Availability در برابر قطعی مقاوم می‌کنند؟

پایدارسازی شبکه با استفاده از اتصال چندین کارت شبکه روی سرورها به صورت هم‌زمان به سوئیچ‌های مجزا انجام می‌شود که به این تکنیک NIC Teaming یا Bonding می‌گویند. همچنین استفاده از پروتکل‌های مسیریابی پویا و بکارگیری چندین تامین‌کننده اینترنت متفاوت در دیتاسنتر، تضمین می‌کند که با قطع شدن یک مسیر ارتباطی، ترافیک بدون تاخیر از مسیر جایگزین عبور کند.

07چرا جابجایی خودکار در مکانیزم Failover گاهی با تاخیر مواجه می‌شود؟

این تاخیر معمولا به زمان مورد نیاز برای تشخیص خرابی توسط ابزارهای مانیتورینگ مربوط می‌شود. اگر زمان سنجش سلامت سرورها طولانی تنظیم شده باشد یا سرویس‌ها در پاسخ‌دهی دچار کندی شدید شده باشند اما کاملا قطع نشده باشند، فرآیند ارسال سیگنال خطا به تعویق می‌افتد. همچنین زمان لازم برای ثبت و انتشار آی‌پی‌های شناور جدید در شبکه می‌تواند عامل دیگری برای ایجاد این وقفه کوتاه باشد.

08نقش سرویس‌های ابری در تسهیل پیاده‌سازی High Availability چیست؟

سرویس‌های ابری به دلیل ارائه زیرساخت‌های مجازی توزیع‌شده در چندین موقعیت جغرافیایی مختلف، نیاز به خرید تجهیزات فیزیکی گران‌قیمت را حذف می‌کنند. در این بسترها، ایجاد کلاسترهای خودکار، افزودن لود‌بالانسرهای ابری و اعمال تغییرات مقیاس‌پذیری تنها با چند کلیک یا از طریق کدهای اتوماسیون انجام می‌شود که این امر سرعت و امنیت پیاده‌سازی را به شدت ارتقا می‌دهد.

مقاله قبلی

رک سرور چیست و چه نقشی در زیرساخت دیتاسنتر دارد؟

مقاله بعدی

بهترین وب سرور برای وردپرس در سایت های پربازدید چیست؟

احمدرضا آوار

علاقه‌مند به مباحث تخصصی در حوزه فناوری اطلاعات، شبکه و زیرساخت‌های ارتباطی. تلاش می‌کنم با یادگیری مستمر و به‌اشتراک‌گذاری دانش، نقشی در ارتقای این حوزه داشته باشم.

راهنمای جامع پیاده‌سازی High Availability در زیرساخت‌های میزبانی

High Availability چیست؟