دوره آموزشی Site Reliability Engineering (SRE) Foundation℠ توسط DevOps Institute طراحی شده است و به هدف معرفی اصول و شیوههای مهندسی قابلیت اطمینان سایت (SRE) برای بهبود عملکرد و قابلیت اعتماد سیستمها و خدمات فناوری اطلاعات ارائه میشود. این دوره به افرادی که میخواهند در این حوزه تخصص پیدا کنند و درک عمیقی از پیادهسازی SRE در سازمانها داشته باشند، ارائه میشود. در ادامه، سرفصلهای این دوره آورده شده است:
بخش 1: مقدمهای بر SRE
فصل 1. تعریف Site Reliability Engineering (SRE)
-
معرفی مفهوم SRE و تاریخچه آن
-
تفاوت SRE با روشهای سنتی عملیات IT
-
اهداف SRE در بهبود عملکرد و قابلیت اطمینان سیستمها
فصل 2. اصول اصلی SRE
-
تمرکز بر روی مقیاسپذیری، پایداری، و اطمینان
-
استفاده از معیارهای عملکرد برای ارزیابی سیستمها
-
اهمیت همکاری تیمهای توسعه (Dev) و عملیات (Ops)
فصل 3. SRE در دنیای مدرن فناوری اطلاعات
-
جایگاه و اهمیت SRE در سازمانها
-
تأثیرات آن بر قابلیت اطمینان خدمات IT
-
تفاوتهای SRE با سایر شیوههای مدیریتی مانند ITIL و DevOps
فصل 4. اهداف اصلی SRE
-
بهبود عملکرد و قابلیت اطمینان سیستمها
-
کاهش ریسکها و جلوگیری از اختلالات
-
رسیدن به سطح بالای دسترسی و قابل اعتماد بودن خدمات
فصل 5. تاریخچه پیدایش SRE
-
تولد SRE در گوگل و چگونگی تکامل آن
-
نحوه پیادهسازی و رشد SRE در گوگل
-
گسترش SRE به سایر سازمانها و صنایع مختلف
فصل 6. فرهنگ و فلسفه SRE
-
اهمیت فرهنگ بدون سرزنش در تیمهای SRE
-
اصول Blameless Postmortems و تأثیر آنها بر یادگیری از اشتباهات
-
ارزشهای تیمهای SRE و نحوه ایجاد همکاری مؤثر
فصل 7. SRE در مقابل DevOps
-
بررسی شباهتها و تفاوتها میان DevOps و SRE
-
نقش SRE در فرآیندهای DevOps و اینکه چگونه complement (مکمل) آن است
-
تعامل بین DevOps و SRE برای افزایش قابلیت اطمینان سیستمها
فصل 8. الگوهای SRE و پیادهسازی در سازمانها
-
الگوهای استاندارد برای پیادهسازی SRE در سازمانهای مختلف
-
نحوه تطبیق نیازهای سازمانی با اصول SRE
-
چالشهای پیشروی پیادهسازی SRE در سازمانها و روشهای برطرف کردن آنها
فصل 9. SRE در مقیاسهای مختلف
-
کاربرد SRE در سازمانهای بزرگ و کوچک
-
نحوه مقیاسپذیری و قابلیت انعطافپذیری SRE در مواجهه با بارهای متغیر
بخش 2: اصول و شیوههای اصلی SRE
فصل 1. تعریف و تفاوت SLA، SLO و SLI
-
تفاوت مفهومی و عملیاتی بین SLA، SLO و SLI
-
نقش SLI بهعنوان شاخصهای اندازهگیری دقیق (مثل latency، availability، throughput)
-
چگونگی تعیین SLO براساس نیاز کسبوکار
-
نحوه نگارش SLA بهصورت قراردادی و تفاهمی بین تیمها
-
نمونههای واقعی از SLA/SLO/SLI در سیستمهای تولیدی
فصل 2. مراحل طراحی و پیادهسازی SLO و SLI
-
انتخاب معیارهای مناسب برای SLI بر اساس نوع سرویس
-
تبدیل نیازهای مشتری به SLOهای قابل اندازهگیری
-
ابزارها و داشبوردهای تعریف و ارزیابی SLO/SLI
-
چگونگی پایش مداوم و نگهداری دادههای SLI
فصل 3. مفهوم و کارکرد Error Budget
-
تعریف Error Budget و نحوه محاسبه آن
-
نقش Error Budget در ایجاد توازن بین توسعه سریع و پایداری سیستم
-
سناریوهای استفاده از Error Budget در تصمیمگیریهای عملیاتی
-
سیاستهای توقف انتشار (Release Freeze) در صورت مصرف Error Budget
-
پیادهسازی سیاستهای قابل اندازهگیری برای مدیریت ریسک
فصل 4. سیاستها و فرآیندهای مدیریت ریسک در SRE
-
تکنیکهای ارزیابی ریسک در سیستمهای IT
-
اولویتبندی ریسکها و تخصیص منابع برای کاهش آنها
-
یکپارچهسازی Error Budget با برنامهریزی تیم توسعه و انتشار
-
ارتباط مدیریت ریسک با incident response و postmortems
فصل 5. نظارت (Monitoring) در SRE
-
تفاوت بین Monitoring، Logging، Metrics و Tracing
-
انواع Monitoring: Infrastructure-level، Application-level، Business-level
-
ابزارهای Monitoring رایج (مانند Prometheus، Nagios، Datadog)
-
تعریف آستانهها (Thresholds) و هشدارها (Alerts)
-
نحوه طراحی داشبوردهای کاربردی برای اپراتورها و مهندسان SRE
فصل 6. قابلیت مشاهده (Observability)
-
تعریف Observability و تفاوت آن با Monitoring
-
سه ستون Observability: Logs، Metrics، Traces
-
استفاده از OpenTelemetry، Jaeger و Zipkin برای Observability
-
طراحی معماری قابل مشاهده با کمترین اصطکاک
-
نحوه تعامل Observability با root cause analysis (تحلیل ریشهای مشکلات)
فصل 7. ایجاد و توسعه فرهنگ تصمیمگیری مبتنی بر داده
-
استفاده از دادههای پایش و خطا برای تصمیمگیری فنی
-
آشنایی با feedback loops در فرآیندهای SRE
-
نمونههایی از تصمیمات مبتنی بر داده برای انتشار یا rollback
-
نقش دادهها در بازخورد دهی به تیم توسعه برای بهبود کیفیت کد
بخش 3: خودکارسازی و بهینهسازی در SRE
فصل 1. اصول خودکارسازی در SRE
-
تعریف خودکارسازی (Automation) و جایگاه آن در عملیات روزمره SRE
-
چرا خودکارسازی حیاتی است؟ کاهش خطای انسانی، افزایش سرعت، و تکرارپذیری
-
بررسی فرآیندهای مناسب برای خودکارسازی
-
تفاوت بین خودکارسازی واکنشی (Reactive) و پیشگیرانه (Proactive)
فصل 2. ابزارهای رایج خودکارسازی در SRE
-
معرفی ابزارهای محبوب:
-
Ansible: برای پیکربندی سیستمها و اجرای دستورات توزیعشده
-
Terraform: برای مدیریت زیرساخت بهعنوان کد (IaC)
-
Puppet و Chef: برای مدیریت پیکربندی در محیطهای پیچیده
-
-
بررسی ویژگیها، مزایا و موارد استفادهی هر ابزار
-
مقایسه ابزارها بر اساس سرعت، پیچیدگی و قابلیت ادغام
فصل 3. خودکارسازی فرآیندهای اصلی در چرخه عمر خدمات
-
خودکارسازی استقرار (Deployment Automation)
-
استفاده از ابزارهایی مانند Jenkins، GitHub Actions، GitLab CI/CD
-
استقرار بدون وقفه (Blue/Green Deployment، Canary Release)
-
-
خودکارسازی تست (Test Automation)
-
اجرای تستهای واحد، یکپارچهسازی، بار و کارایی بهصورت خودکار
-
-
خودکارسازی مانیتورینگ و آلرتینگ (Monitoring & Alerting)
-
ایجاد هشدارهای خودکار بر اساس SLI و SLO
-
نمونهسازی و ایجاد داشبورد خودکار با Prometheus و Grafana
-
فصل 4. الگوهای طراحی خودکارسازی قابل اطمینان
-
استفاده از Triggers و Event-Driven Architecture برای اجرای خودکار عملیات
-
مفهوم Runbooks و استفاده از آن در اجرای Playbookها
-
بررسی Automation Anti-Patterns و اشتباهات رایج در پیادهسازی خودکارسازی
فصل 5. بهینهسازی در SRE
-
تعریف بهینهسازی (Optimization) و رابطه آن با پایداری و مقیاسپذیری
-
سنجش عملکرد سیستمها و شناسایی گلوگاهها (Bottlenecks)
-
استفاده از ابزارهای APM (Application Performance Monitoring) برای بهینهسازی
-
بهینهسازی مصرف منابع: CPU، Memory، I/O، Storage، Network
-
بهینهسازی هزینهها در زیرساختهای Cloud و Hybrid
فصل 6. طراحی برای مقیاسپذیری و تابآوری (Scalability & Resilience)
-
اصول طراحی سیستمهای مقیاسپذیر (Horizontally Scalable)
-
تکنیکهای افزایش تابآوری: Load Balancing، Failover، Replication
-
بررسی معماریهای مناسب برای مقیاسپذیری بالا (Microservices، Serverless، Event-Driven)
-
مدیریت منابع در محیطهای ابری (Cloud Resource Management)
بخش 4: مدیریت بحران و بازسازی سیستمها
فصل 1. مدیریت حوادث (Incident Management)
-
تعریف حادثه (Incident) در زمینه SRE
-
انواع حوادث: بحرانی، با تأثیر بالا، متوسط و کم
-
فرآیندهای شناسایی و طبقهبندی حادثه
-
ابزارهای مدیریت حادثه (مانند PagerDuty، Opsgenie، ServiceNow)
-
نحوه تعیین اولویتها و اختصاص مسئولیتها
-
پیادهسازی گردشکار (Runbook) برای مقابله با حوادث
-
مستندسازی مراحل پاسخدهی به حادثه
فصل 2. پاسخ به بحران (Incident Response)
-
مراحل پاسخدهی سریع و مؤثر به حوادث
-
ارتباطات در حین بحران (داخلی و خارجی)
-
نقشهای کلیدی در زمان وقوع بحران (Incident Commander، Communications Lead، Ops Lead و غیره)
-
استفاده از ابزارهای ارتباطی مانند Slack، Zoom، IRC برای هماهنگی تیمها
-
کاهش زمان تشخیص و حل بحران (MTTD و MTTR)
فصل 3. Postmortem بدون سرزنش (Blameless Postmortem)
-
تعریف Postmortem و اهداف آن
-
اصول “بدون سرزنش” برای تقویت فرهنگ یادگیری
-
مراحل اجرای Postmortem:
-
جمعآوری دادهها
-
بازسازی خط زمانی
-
شناسایی دلایل ریشهای (Root Cause Analysis)
-
تعیین اقدامات اصلاحی (Corrective Actions)
-
-
قالب استاندارد برای مستند Postmortem
-
اشتراکگذاری نتایج و Lessons Learned با تیمها
فصل 4. برنامهریزی برای بازیابی (Recovery Planning)
-
تعریف برنامه بازیابی (Recovery Plan)
-
پیادهسازی RTO (Recovery Time Objective) و RPO (Recovery Point Objective)
-
تهیه Backup و سناریوهای Restore
-
استفاده از ابزارهای بازیابی خودکار (مانند Kubernetes Recovery Operators، Infrastructure-as-Code)
-
تعریف سیاستها برای rollback یا rollforward
فصل 5. مهندسی آشوب (Chaos Engineering)
-
معرفی Chaos Engineering و کاربرد آن در SRE
-
ابزارهای رایج: Chaos Monkey، Gremlin، Litmus Chaos
-
طراحی آزمایشهای مقاومتی برای تست تابآوری سیستم
-
اجرای آزمایشهای کنترلشده در محیطهای staging و production
-
اندازهگیری نتایج آزمایش و پیادهسازی اصلاحات
فصل 6. طراحی سیستمهای مقاوم و خودترمیم (Resilient & Self-Healing Systems)
-
استفاده از الگوهای طراحی مقاوم مانند Circuit Breaker، Retry، Bulkhead
-
پیادهسازی Auto-Scaling و Failover برای تحمل خطا
-
طراحی سیستمهایی با قابلیت Self-Recovery (مانند استفاده از health checks و container restarts)
-
نقش Service Mesh در افزایش تابآوری سیستم
خدمات شبکه فراز نتورک | پیشرو در ارائه خدمات دیتاسنتری و کلود

نقد و بررسی وجود ندارد.