٪85 تخفیف

دانلود کتاب آموزشی Site Reliability Engineering (SRE) Foundation جلد اول

دسته‌بندی: برچسب: تاریخ به روز رسانی: 28 مهر 1404 تعداد بازدید: 479 بازدید
ویژگی های محصول: پشتیبانی واتساپ

قیمت اصلی: ۲,۰۰۰,۰۰۰ تومان بود.قیمت فعلی: ۳۰۰,۰۰۰ تومان.

torobpay
هر قسط با ترب‌پی: ۷۵,۰۰۰ تومان
۴ قسط ماهانه. بدون سود، چک و ضامن.

دوره آموزشی Site Reliability Engineering (SRE) Foundation℠ توسط DevOps Institute طراحی شده است و به هدف معرفی اصول و شیوه‌های مهندسی قابلیت اطمینان سایت (SRE) برای بهبود عملکرد و قابلیت اعتماد سیستم‌ها و خدمات فناوری اطلاعات ارائه می‌شود. این دوره به افرادی که می‌خواهند در این حوزه تخصص پیدا کنند و درک عمیقی از پیاده‌سازی SRE در سازمان‌ها داشته باشند، ارائه می‌شود. در ادامه، سرفصل‌های این دوره آورده شده است:


بخش 1: مقدمه‌ای بر SRE

 

فصل 1. تعریف Site Reliability Engineering (SRE)

  • معرفی مفهوم SRE و تاریخچه آن

  • تفاوت SRE با روش‌های سنتی عملیات IT

  • اهداف SRE در بهبود عملکرد و قابلیت اطمینان سیستم‌ها

فصل 2. اصول اصلی SRE

  • تمرکز بر روی مقیاس‌پذیری، پایداری، و اطمینان

  • استفاده از معیارهای عملکرد برای ارزیابی سیستم‌ها

  • اهمیت همکاری تیم‌های توسعه (Dev) و عملیات (Ops)

فصل 3. SRE در دنیای مدرن فناوری اطلاعات

  • جایگاه و اهمیت SRE در سازمان‌ها

  • تأثیرات آن بر قابلیت اطمینان خدمات IT

  • تفاوت‌های SRE با سایر شیوه‌های مدیریتی مانند ITIL و DevOps

فصل 4. اهداف اصلی SRE

  • بهبود عملکرد و قابلیت اطمینان سیستم‌ها

  • کاهش ریسک‌ها و جلوگیری از اختلالات

  • رسیدن به سطح بالای دسترسی و قابل اعتماد بودن خدمات

فصل 5. تاریخچه پیدایش SRE

  • تولد SRE در گوگل و چگونگی تکامل آن

  • نحوه پیاده‌سازی و رشد SRE در گوگل

  • گسترش SRE به سایر سازمان‌ها و صنایع مختلف

فصل 6. فرهنگ و فلسفه SRE

  • اهمیت فرهنگ بدون سرزنش در تیم‌های SRE

  • اصول Blameless Postmortems و تأثیر آن‌ها بر یادگیری از اشتباهات

  • ارزش‌های تیم‌های SRE و نحوه ایجاد همکاری مؤثر

فصل 7. SRE در مقابل DevOps

  • بررسی شباهت‌ها و تفاوت‌ها میان DevOps و SRE

  • نقش SRE در فرآیندهای DevOps و اینکه چگونه complement (مکمل) آن است

  • تعامل بین DevOps و SRE برای افزایش قابلیت اطمینان سیستم‌ها

فصل 8. الگوهای SRE و پیاده‌سازی در سازمان‌ها

  • الگوهای استاندارد برای پیاده‌سازی SRE در سازمان‌های مختلف

  • نحوه تطبیق نیازهای سازمانی با اصول SRE

  • چالش‌های پیش‌روی پیاده‌سازی SRE در سازمان‌ها و روش‌های برطرف کردن آن‌ها

فصل 9. SRE در مقیاس‌های مختلف

  • کاربرد SRE در سازمان‌های بزرگ و کوچک

  • نحوه مقیاس‌پذیری و قابلیت انعطاف‌پذیری SRE در مواجهه با بارهای متغیر


بخش 2: اصول و شیوه‌های اصلی SRE

 

فصل 1. تعریف و تفاوت SLA، SLO و SLI
  • تفاوت مفهومی و عملیاتی بین SLA، SLO و SLI

  • نقش SLI به‌عنوان شاخص‌های اندازه‌گیری دقیق (مثل latency، availability، throughput)

  • چگونگی تعیین SLO‌ براساس نیاز کسب‌وکار

  • نحوه نگارش SLA به‌صورت قراردادی و تفاهمی بین تیم‌ها

  • نمونه‌های واقعی از SLA/SLO/SLI در سیستم‌های تولیدی

فصل 2. مراحل طراحی و پیاده‌سازی SLO و SLI
  • انتخاب معیارهای مناسب برای SLI بر اساس نوع سرویس

  • تبدیل نیازهای مشتری به SLOهای قابل اندازه‌گیری

  • ابزارها و داشبوردهای تعریف و ارزیابی SLO/SLI

  • چگونگی پایش مداوم و نگهداری داده‌های SLI

فصل 3. مفهوم و کارکرد Error Budget
  • تعریف Error Budget و نحوه محاسبه آن

  • نقش Error Budget در ایجاد توازن بین توسعه سریع و پایداری سیستم

  • سناریوهای استفاده از Error Budget در تصمیم‌گیری‌های عملیاتی

  • سیاست‌های توقف انتشار (Release Freeze) در صورت مصرف Error Budget

  • پیاده‌سازی سیاست‌های قابل اندازه‌گیری برای مدیریت ریسک

فصل 4. سیاست‌ها و فرآیندهای مدیریت ریسک در SRE
  • تکنیک‌های ارزیابی ریسک در سیستم‌های IT

  • اولویت‌بندی ریسک‌ها و تخصیص منابع برای کاهش آن‌ها

  • یکپارچه‌سازی Error Budget با برنامه‌ریزی تیم توسعه و انتشار

  • ارتباط مدیریت ریسک با incident response و postmortems

فصل 5. نظارت (Monitoring) در SRE
  • تفاوت بین Monitoring، Logging، Metrics و Tracing

  • انواع Monitoring:‌ Infrastructure-level، Application-level، Business-level

  • ابزارهای Monitoring رایج (مانند Prometheus، Nagios، Datadog)

  • تعریف آستانه‌ها (Thresholds) و هشدارها (Alerts)

  • نحوه طراحی داشبوردهای کاربردی برای اپراتورها و مهندسان SRE

فصل 6. قابلیت مشاهده (Observability)
  • تعریف Observability و تفاوت آن با Monitoring

  • سه ستون Observability:‌ Logs، Metrics، Traces

  • استفاده از OpenTelemetry، Jaeger و Zipkin برای Observability

  • طراحی معماری قابل مشاهده با کمترین اصطکاک

  • نحوه تعامل Observability با root cause analysis (تحلیل ریشه‌ای مشکلات)

فصل 7. ایجاد و توسعه فرهنگ تصمیم‌گیری مبتنی بر داده
  • استفاده از داده‌های پایش و خطا برای تصمیم‌گیری فنی

  • آشنایی با feedback loops در فرآیندهای SRE

  • نمونه‌هایی از تصمیمات مبتنی بر داده برای انتشار یا rollback

  • نقش داده‌ها در بازخورد دهی به تیم توسعه برای بهبود کیفیت کد


بخش 3: خودکارسازی و بهینه‌سازی در SRE

 

فصل 1. اصول خودکارسازی در SRE
  • تعریف خودکارسازی (Automation) و جایگاه آن در عملیات روزمره SRE

  • چرا خودکارسازی حیاتی است؟ کاهش خطای انسانی، افزایش سرعت، و تکرارپذیری

  • بررسی فرآیندهای مناسب برای خودکارسازی

  • تفاوت بین خودکارسازی واکنشی (Reactive) و پیشگیرانه (Proactive)

فصل 2. ابزارهای رایج خودکارسازی در SRE
  • معرفی ابزارهای محبوب:

    • Ansible: برای پیکربندی سیستم‌ها و اجرای دستورات توزیع‌شده

    • Terraform: برای مدیریت زیرساخت به‌عنوان کد (IaC)

    • Puppet و Chef: برای مدیریت پیکربندی در محیط‌های پیچیده

  • بررسی ویژگی‌ها، مزایا و موارد استفاده‌ی هر ابزار

  • مقایسه ابزارها بر اساس سرعت، پیچیدگی و قابلیت ادغام

فصل 3. خودکارسازی فرآیندهای اصلی در چرخه عمر خدمات
  • خودکارسازی استقرار (Deployment Automation)

    • استفاده از ابزارهایی مانند Jenkins، GitHub Actions، GitLab CI/CD

    • استقرار بدون وقفه (Blue/Green Deployment، Canary Release)

  • خودکارسازی تست (Test Automation)

    • اجرای تست‌های واحد، یکپارچه‌سازی، بار و کارایی به‌صورت خودکار

  • خودکارسازی مانیتورینگ و آلرتینگ (Monitoring & Alerting)

    • ایجاد هشدارهای خودکار بر اساس SLI و SLO

    • نمونه‌سازی و ایجاد داشبورد خودکار با Prometheus و Grafana

فصل 4. الگوهای طراحی خودکارسازی قابل اطمینان
  • استفاده از Triggers و Event-Driven Architecture برای اجرای خودکار عملیات

  • مفهوم Runbooks و استفاده از آن در اجرای Playbookها

  • بررسی Automation Anti-Patterns و اشتباهات رایج در پیاده‌سازی خودکارسازی

فصل 5. بهینه‌سازی در SRE
  • تعریف بهینه‌سازی (Optimization) و رابطه آن با پایداری و مقیاس‌پذیری

  • سنجش عملکرد سیستم‌ها و شناسایی گلوگاه‌ها (Bottlenecks)

  • استفاده از ابزارهای APM (Application Performance Monitoring) برای بهینه‌سازی

  • بهینه‌سازی مصرف منابع: CPU، Memory، I/O، Storage، Network

  • بهینه‌سازی هزینه‌ها در زیرساخت‌های Cloud و Hybrid

فصل 6. طراحی برای مقیاس‌پذیری و تاب‌آوری (Scalability & Resilience)
  • اصول طراحی سیستم‌های مقیاس‌پذیر (Horizontally Scalable)

  • تکنیک‌های افزایش تاب‌آوری: Load Balancing، Failover، Replication

  • بررسی معماری‌های مناسب برای مقیاس‌پذیری بالا (Microservices، Serverless، Event-Driven)

  • مدیریت منابع در محیط‌های ابری (Cloud Resource Management)


بخش 4: مدیریت بحران و بازسازی سیستم‌ها

 

فصل 1. مدیریت حوادث (Incident Management)
  • تعریف حادثه (Incident) در زمینه SRE

  • انواع حوادث: بحرانی، با تأثیر بالا، متوسط و کم

  • فرآیندهای شناسایی و طبقه‌بندی حادثه

  • ابزارهای مدیریت حادثه (مانند PagerDuty، Opsgenie، ServiceNow)

  • نحوه تعیین اولویت‌ها و اختصاص مسئولیت‌ها

  • پیاده‌سازی گردش‌کار (Runbook) برای مقابله با حوادث

  • مستندسازی مراحل پاسخ‌دهی به حادثه

فصل 2. پاسخ به بحران (Incident Response)
  • مراحل پاسخ‌دهی سریع و مؤثر به حوادث

  • ارتباطات در حین بحران (داخلی و خارجی)

  • نقش‌های کلیدی در زمان وقوع بحران (Incident Commander، Communications Lead، Ops Lead و غیره)

  • استفاده از ابزارهای ارتباطی مانند Slack، Zoom، IRC برای هماهنگی تیم‌ها

  • کاهش زمان تشخیص و حل بحران (MTTD و MTTR)

فصل 3. Postmortem بدون سرزنش (Blameless Postmortem)
  • تعریف Postmortem و اهداف آن

  • اصول “بدون سرزنش” برای تقویت فرهنگ یادگیری

  • مراحل اجرای Postmortem:

    • جمع‌آوری داده‌ها

    • بازسازی خط زمانی

    • شناسایی دلایل ریشه‌ای (Root Cause Analysis)

    • تعیین اقدامات اصلاحی (Corrective Actions)

  • قالب استاندارد برای مستند Postmortem

  • اشتراک‌گذاری نتایج و Lessons Learned با تیم‌ها

فصل 4. برنامه‌ریزی برای بازیابی (Recovery Planning)
  • تعریف برنامه بازیابی (Recovery Plan)

  • پیاده‌سازی RTO (Recovery Time Objective) و RPO (Recovery Point Objective)

  • تهیه Backup و سناریوهای Restore

  • استفاده از ابزارهای بازیابی خودکار (مانند Kubernetes Recovery Operators، Infrastructure-as-Code)

  • تعریف سیاست‌ها برای rollback یا rollforward

فصل 5. مهندسی آشوب (Chaos Engineering)
  • معرفی Chaos Engineering و کاربرد آن در SRE

  • ابزارهای رایج: Chaos Monkey، Gremlin، Litmus Chaos

  • طراحی آزمایش‌های مقاومتی برای تست تاب‌آوری سیستم

  • اجرای آزمایش‌های کنترل‌شده در محیط‌های staging و production

  • اندازه‌گیری نتایج آزمایش و پیاده‌سازی اصلاحات

فصل 6. طراحی سیستم‌های مقاوم و خودترمیم (Resilient & Self-Healing Systems)
  • استفاده از الگوهای طراحی مقاوم مانند Circuit Breaker، Retry، Bulkhead

  • پیاده‌سازی Auto-Scaling و Failover برای تحمل خطا

  • طراحی سیستم‌هایی با قابلیت Self-Recovery (مانند استفاده از health checks و container restarts)

  • نقش Service Mesh در افزایش تاب‌آوری سیستم

برند

نقد و بررسی ها

نقد و بررسی وجود ندارد.

فقط مشتریانی که وارد سیستم شده اند و این محصول را خریداری کرده اند می توانند نظر بدهند.

سبد خرید

سبد خرید شما خالی است.

ورود به سایت