٪85 تخفیف

دانلود کتاب آموزشی Site Reliability Engineering (SRE) Foundation جلد دوم

دسته‌بندی: برچسب: تاریخ به روز رسانی: 28 مهر 1404 تعداد بازدید: 639 بازدید
ویژگی های محصول: پشتیبانی واتساپ

قیمت اصلی: ۲,۰۰۰,۰۰۰ تومان بود.قیمت فعلی: ۳۰۰,۰۰۰ تومان.

torobpay
هر قسط با ترب‌پی: ۷۵,۰۰۰ تومان
۴ قسط ماهانه. بدون سود، چک و ضامن.

بخش 5: فرهنگ و تیم‌های SRE

 

فصل 1. اهمیت فرهنگ سازمانی در موفقیت SRE
  • تعریف فرهنگ در چارچوب Site Reliability Engineering

  • تأثیر مستقیم فرهنگ بر پایداری و نوآوری در عملیات

  • بررسی فرهنگ‌های سنتی عملیات در مقابل فرهنگ‌های مدرن DevOps و SRE

  • شاخص‌های یک فرهنگ مطلوب برای پیاده‌سازی موفق SRE

فصل 2. اصول فرهنگی بنیادین در SRE
  • اصل “Blameless Postmortem”: یادگیری بدون سرزنش

  • اصل “Service Ownership”: مالکیت کامل سرویس‌ها توسط تیم

  • اصل “Engineering First”: اولویت با مهندسی به‌جای فرآیند محض

  • اصل “Error Budget”: ابزار فرهنگی برای تعادل توسعه و پایداری

  • اصل “Toil Reduction”: حذف کارهای تکراری و بی‌ارزش

فصل 3. نقش همکاری بین تیمی (Dev + Ops = SRE)
  • ساختن پل بین تیم‌های توسعه و عملیات

  • جریان ارتباطات موثر و باز بین تیم‌ها

  • استفاده از ابزارهای مشترک و زبان مشترک در بین تیم‌ها

  • چالش‌های رایج در همکاری Dev و Ops و راه‌حل‌ها

فصل 4. ساختار تیم‌های SRE
  • مدل‌های مختلف تیم SRE:

    • Embedded SRE

    • Dedicated SRE

    • Consulting SRE

  • نقاط قوت و ضعف هر مدل ساختاری

  • تعیین حدود مسئولیت‌ها بین تیم‌های SRE، توسعه و عملیات

فصل 5. نقش‌ها و مسئولیت‌های کلیدی در تیم‌های SRE
  • Site Reliability Engineer (SRE)

  • Incident Commander

  • Platform Engineer

  • Observability Engineer

  • Automation & Tooling Specialist

  • ارتباط بین این نقش‌ها با سایر بخش‌های سازمان

فصل 6. توسعه مهارت‌های نرم در تیم SRE
  • مهارت‌های ارتباطی و بین‌فردی

  • تفکر تحلیلی و تصمیم‌گیری سریع در شرایط بحرانی

  • مهارت‌های یادگیری مداوم و مستندسازی دانش

  • هدایت فنی و رهبری بدون اقتدار رسمی (Technical Leadership)

فصل 7. چالش‌های انسانی و فرهنگی در تیم‌های SRE
  • مقاومت در برابر تغییر فرهنگ سنتی IT

  • کاهش انگیزه به دلیل فشارهای عملکردی

  • فشار روانی ناشی از Incidentهای بحرانی

  • راه‌کارهای مقابله با فرسودگی شغلی (Burnout)

فصل 8. راهبردهای ارتقاء فرهنگ SRE در سازمان
  • برنامه‌های آموزشی داخلی و خارجی

  • اجرای تدریجی اصول SRE و همراه‌سازی تیم‌ها

  • ایجاد حلقه‌های بازخورد و یادگیری سازمانی

  • فرهنگ‌سازی از طریق رهبران فنی و مدیریت ارشد


بخش 6: ابزارها و فناوری‌های SRE

 

فصل 1. ابزارهای پایش (Monitoring Tools)
  • معرفی ابزارهای جمع‌آوری داده‌های عملکردی سیستم‌ها

  • Prometheus: مانیتورینگ مبتنی بر metrics با زبان query قدرتمند (PromQL)

  • Grafana: ابزار مصورسازی برای داشبوردهای Prometheus و سایر منابع

  • Zabbix، Nagios و Sensu: ابزارهای سنتی و ترکیبی برای مانیتورینگ منابع زیرساختی

  • Datadog و New Relic: ابزارهای تجاری برای مانیتورینگ یکپارچه سیستم، اپلیکیشن و تجربه کاربر

  • Cloud Monitoring (مانند Google Cloud Monitoring، AWS CloudWatch): مانیتورینگ محیط‌های ابری

فصل 2. ابزارهای Observability و لاگینگ (Observability & Logging)
  • تفاوت Monitoring با Observability و مزیت observability برای ریشه‌یابی مشکلات

  • ELK Stack (Elasticsearch، Logstash، Kibana): برای تجمیع، تجزیه و تحلیل لاگ‌ها

  • Fluentd و Loki: ابزارهای سبک‌وزن برای لاگ‌های توزیع‌شده

  • Open Telemetry: استانداردسازی برای traceها، metrics و logها

  • Jaeger و Zipkin: ابزارهای Distributed Tracing برای تحلیل مسیر درخواست‌ها در سیستم‌های توزیع‌شده

فصل 3. ابزارهای Incident Management و پاسخ به حوادث
  • PagerDuty، Opsgenie، VictorOps: برای مدیریت هشدارها، اطلاع‌رسانی و پیگیری رویدادها

  • Sentry، Honeybadger: ابزارهای تحلیل خطاها در اپلیکیشن‌ها

  • Blameless و Fire Hydrant: پلتفرم‌هایی برای مدیریت incident و postmortem

فصل 4. ابزارهای خودکارسازی (Automation Tools)
  • Ansible: اتوماسیون با YAML و بدون نیاز به Agent

  • Terraform: Infrastructure as Code (IaC) برای مدیریت منابع Cloud و on-premise

  • Chef، Puppet: ابزارهای پیکربندی سیستم‌ها با استفاده از کد

  • Jenkins و GitLab CI/CD: اتوماسیون CI/CD برای تست، build و استقرار خودکار

فصل 5. ابزارهای تست مقاومت و Chaos Engineering
  • Chaos Monkey: ابزار اصلی نتفلیکس برای وارد کردن اختلالات کنترل‌شده

  • Gremlin و Litmus Chaos: ابزارهای پیشرفته‌تر برای تست تحمل‌پذیری و مقاوم‌سازی

  • استفاده از این ابزارها در تست resiliency و تشخیص نقاط شکست در زیرساخت

فصل 6. ابزارهای امنیت و پایداری
  • Falco: تشخیص تهدیدهای زمان اجرا در کانتینرها

  • Sysdig، OSSEC: تحلیل امنیتی و بررسی رویدادها

  • Vault (از HashiCorp): مدیریت امن اطلاعات محرمانه و دسترسی‌ها

فصل 7. ابزارهای جمع‌آوری و تحلیل KPI و SLI/SLO
  • Nobl9، Sloth، Polaris: ابزارهای مخصوص مدیریت SLO و SLI با پشتیبانی از Prometheus و Datadog

  • استفاده از SLO Dashboard برای دید کلان از قابلیت اطمینان سرویس‌ها

  • پیاده‌سازی گزارش‌گیری مبتنی بر Error Budget


بخش 7: ارزیابی و بهبود مستمر

 

فصل 1. ارزیابی عملکرد SRE
  • معیارهای کلیدی ارزیابی عملکرد تیم SRE

    • Mean Time to Detect (MTTD)

    • Mean Time to Resolve (MTTR)

    • تعداد و شدت Incidents

    • درصد تحقق SLOها در بازه زمانی

  • تحلیل هزینه و ارزش SRE

    • مقایسه هزینه‌های مرتبط با حوادث (Outages) در قبل و بعد از پیاده‌سازی SRE

    • بررسی صرفه‌جویی منابع ناشی از Automation

  • ارزیابی فرآیندهای Incident Management و Blameless Postmortems

    • ارزیابی مؤثر بودن جلسات بازبینی

    • استخراج اقدامات اصلاحی و اندازه‌گیری تأثیر آن‌ها

فصل 2. ابزارها و داشبوردهای ارزیابی
  • ایجاد داشبوردهای متمرکز بر SLO و Error Budget

  • اتصال ابزارهای نظارت مانند Prometheus، Grafana یا Datadog به سیستم ارزیابی

  • استفاده از ELK Stack، Loki، یا Splunk برای ارزیابی داده‌های لاگ

  • بررسی روندها با استفاده از تجزیه و تحلیل داده‌ها و الگوریتم‌های هشداردهی هوشمند (Alert Fatigue Reduction)

فصل 3. فرآیند بهبود مستمر (Continuous Improvement)
  • ایجاد چرخه‌های بازخورد مداوم بین تیم‌های Dev و SRE

  • طراحی Retrospectiveهای دوره‌ای برای بازبینی سرویس‌ها و عملکرد تیم

  • به‌روزرسانی مداوم SLOها بر اساس تغییرات بار یا نیازهای مشتریان

  • تبدیل درس‌آموخته‌ها به اقدامات عملی برای توسعه تیم، فرآیندها یا زیرساخت‌ها

فصل 4. نوآوری در چارچوب SRE
  • ایجاد فضای آزمایش (Sandbox) برای بررسی ایده‌ها و تکنیک‌های جدید

  • ارزیابی پیاده‌سازی تکنولوژی‌های نوین:

    • Service Mesh

    • Intelligent Load Balancing

    • Auto Remediation Pipelines

  • تحلیل رفتار سیستم در شرایط بحرانی با استفاده از Chaos Engineering و در نظر گرفتن نتایج آن در برنامه‌ریزی‌های آتی

فصل 5. پیاده‌سازی شاخص‌های بهبود مستمر
  • تعریف KPIs ویژه برای پیشرفت تیم SRE

    • درصد خودکارسازی فرآیندهای تکراری

    • کاهش زمان پاسخ‌دهی به هشدارها

    • افزایش دوره‌های بدون Incident

  • مستندسازی پیشرفت‌ها و به‌روزرسانی سیاست‌ها

  • بررسی روند توسعه مهارت‌های تیمی و ارزیابی دانش اعضا


اهداف دوره:

  • درک کامل اصول و شیوه‌های Site Reliability Engineering (SRE)
  • توانایی پیاده‌سازی SLA/SLO/SLI و مدیریت Error Budget در عملیات IT
  • تسلط بر ابزارهای نظارت، پایش، و خودکارسازی در SRE
  • آمادگی برای اخذ گواهینامه SRE Foundation℠
  • آشنایی با چالش‌ها و فرصت‌ها در پیاده‌سازی SRE در سازمان‌ها

پیش‌نیازها:

  • آشنایی با مفاهیم پایه‌ای DevOps و عملیات فناوری اطلاعات
  • آشنایی با مفاهیم مدیریت خدمات IT و ITIL
  • آشنایی با ابزارهای نظارت و پایش می‌تواند مفید باشد

مخاطبین دوره:

  • متخصصان IT، مدیران سیستم‌ها، و مهندسان عملیات که قصد دارند به SRE بپردازند
  • افرادی که به دنبال اخذ گواهینامه SRE Foundation℠ هستند
  • مدیران و رهبران تیم‌های فناوری اطلاعات که می‌خواهند به بهبود قابلیت اطمینان و عملکرد سیستم‌های خود بپردازند

مزایای این گواهینامه:

  • یادگیری بهترین شیوه‌ها و اصول SRE برای بهبود قابلیت اطمینان و عملکرد سیستم‌ها
  • آمادگی برای ارتقاء شغلی و دریافت گواهینامه رسمی از DevOps Institute
  • تقویت مهارت‌ها در طراحی و پیاده‌سازی SLA/SLO/SLI و مدیریت عملیات IT
برند

نقد و بررسی ها

نقد و بررسی وجود ندارد.

فقط مشتریانی که وارد سیستم شده اند و این محصول را خریداری کرده اند می توانند نظر بدهند.

سبد خرید

سبد خرید شما خالی است.

ورود به سایت