٪85 تخفیف

دانلود کتاب آموزشی Site Reliability Engineering (SRE) Foundation جلد اول

Name: دانلود کتاب آموزشی Site Reliability Engineering (SRE) Foundation جلد اول
SKU: 80446
Availability: InStock

دسته‌بندی: انستیتو دواپس برچسب: ترجمه به زبان فارسی تاریخ به روز رسانی: 28 مهر 1404 تعداد بازدید: 479 بازدید

ویژگی های محصول: پشتیبانی واتساپ

قیمت اصلی: ۲,۰۰۰,۰۰۰ تومان بود.قیمت فعلی: ۳۰۰,۰۰۰ تومان.

دوره آموزشی Site Reliability Engineering (SRE) Foundation℠ توسط DevOps Institute طراحی شده است و به هدف معرفی اصول و شیوه‌های مهندسی قابلیت اطمینان سایت (SRE) برای بهبود عملکرد و قابلیت اعتماد سیستم‌ها و خدمات فناوری اطلاعات ارائه می‌شود. این دوره به افرادی که می‌خواهند در این حوزه تخصص پیدا کنند و درک عمیقی از پیاده‌سازی SRE در سازمان‌ها داشته باشند، ارائه می‌شود. در ادامه، سرفصل‌های این دوره آورده شده است:

بخش 1: مقدمه‌ای بر SRE

فصل 1. تعریف Site Reliability Engineering (SRE)

معرفی مفهوم SRE و تاریخچه آن
تفاوت SRE با روش‌های سنتی عملیات IT
اهداف SRE در بهبود عملکرد و قابلیت اطمینان سیستم‌ها

فصل 2. اصول اصلی SRE

تمرکز بر روی مقیاس‌پذیری، پایداری، و اطمینان
استفاده از معیارهای عملکرد برای ارزیابی سیستم‌ها
اهمیت همکاری تیم‌های توسعه (Dev) و عملیات (Ops)

فصل 3. SRE در دنیای مدرن فناوری اطلاعات

جایگاه و اهمیت SRE در سازمان‌ها
تأثیرات آن بر قابلیت اطمینان خدمات IT
تفاوت‌های SRE با سایر شیوه‌های مدیریتی مانند ITIL و DevOps

فصل 4. اهداف اصلی SRE

بهبود عملکرد و قابلیت اطمینان سیستم‌ها
کاهش ریسک‌ها و جلوگیری از اختلالات
رسیدن به سطح بالای دسترسی و قابل اعتماد بودن خدمات

فصل 5. تاریخچه پیدایش SRE

تولد SRE در گوگل و چگونگی تکامل آن
نحوه پیاده‌سازی و رشد SRE در گوگل
گسترش SRE به سایر سازمان‌ها و صنایع مختلف

فصل 6. فرهنگ و فلسفه SRE

اهمیت فرهنگ بدون سرزنش در تیم‌های SRE
اصول Blameless Postmortems و تأثیر آن‌ها بر یادگیری از اشتباهات
ارزش‌های تیم‌های SRE و نحوه ایجاد همکاری مؤثر

فصل 7. SRE در مقابل DevOps

بررسی شباهت‌ها و تفاوت‌ها میان DevOps و SRE
نقش SRE در فرآیندهای DevOps و اینکه چگونه complement (مکمل) آن است
تعامل بین DevOps و SRE برای افزایش قابلیت اطمینان سیستم‌ها

فصل 8. الگوهای SRE و پیاده‌سازی در سازمان‌ها

الگوهای استاندارد برای پیاده‌سازی SRE در سازمان‌های مختلف
نحوه تطبیق نیازهای سازمانی با اصول SRE
چالش‌های پیش‌روی پیاده‌سازی SRE در سازمان‌ها و روش‌های برطرف کردن آن‌ها

فصل 9. SRE در مقیاس‌های مختلف

کاربرد SRE در سازمان‌های بزرگ و کوچک
نحوه مقیاس‌پذیری و قابلیت انعطاف‌پذیری SRE در مواجهه با بارهای متغیر

بخش 2: اصول و شیوه‌های اصلی SRE

فصل 1. تعریف و تفاوت SLA، SLO و SLI

تفاوت مفهومی و عملیاتی بین SLA، SLO و SLI
نقش SLI به‌عنوان شاخص‌های اندازه‌گیری دقیق (مثل latency، availability، throughput)
چگونگی تعیین SLO‌ براساس نیاز کسب‌وکار
نحوه نگارش SLA به‌صورت قراردادی و تفاهمی بین تیم‌ها
نمونه‌های واقعی از SLA/SLO/SLI در سیستم‌های تولیدی

فصل 2. مراحل طراحی و پیاده‌سازی SLO و SLI

انتخاب معیارهای مناسب برای SLI بر اساس نوع سرویس
تبدیل نیازهای مشتری به SLOهای قابل اندازه‌گیری
ابزارها و داشبوردهای تعریف و ارزیابی SLO/SLI
چگونگی پایش مداوم و نگهداری داده‌های SLI

فصل 3. مفهوم و کارکرد Error Budget

تعریف Error Budget و نحوه محاسبه آن
نقش Error Budget در ایجاد توازن بین توسعه سریع و پایداری سیستم
سناریوهای استفاده از Error Budget در تصمیم‌گیری‌های عملیاتی
سیاست‌های توقف انتشار (Release Freeze) در صورت مصرف Error Budget
پیاده‌سازی سیاست‌های قابل اندازه‌گیری برای مدیریت ریسک

فصل 4. سیاست‌ها و فرآیندهای مدیریت ریسک در SRE

تکنیک‌های ارزیابی ریسک در سیستم‌های IT
اولویت‌بندی ریسک‌ها و تخصیص منابع برای کاهش آن‌ها
یکپارچه‌سازی Error Budget با برنامه‌ریزی تیم توسعه و انتشار
ارتباط مدیریت ریسک با incident response و postmortems

فصل 5. نظارت (Monitoring) در SRE

تفاوت بین Monitoring، Logging، Metrics و Tracing
انواع Monitoring:‌ Infrastructure-level، Application-level، Business-level
ابزارهای Monitoring رایج (مانند Prometheus، Nagios، Datadog)
تعریف آستانه‌ها (Thresholds) و هشدارها (Alerts)
نحوه طراحی داشبوردهای کاربردی برای اپراتورها و مهندسان SRE

فصل 6. قابلیت مشاهده (Observability)

تعریف Observability و تفاوت آن با Monitoring
سه ستون Observability:‌ Logs، Metrics، Traces
استفاده از OpenTelemetry، Jaeger و Zipkin برای Observability
طراحی معماری قابل مشاهده با کمترین اصطکاک
نحوه تعامل Observability با root cause analysis (تحلیل ریشه‌ای مشکلات)

فصل 7. ایجاد و توسعه فرهنگ تصمیم‌گیری مبتنی بر داده

استفاده از داده‌های پایش و خطا برای تصمیم‌گیری فنی
آشنایی با feedback loops در فرآیندهای SRE
نمونه‌هایی از تصمیمات مبتنی بر داده برای انتشار یا rollback
نقش داده‌ها در بازخورد دهی به تیم توسعه برای بهبود کیفیت کد

بخش 3: خودکارسازی و بهینه‌سازی در SRE

فصل 1. اصول خودکارسازی در SRE

تعریف خودکارسازی (Automation) و جایگاه آن در عملیات روزمره SRE
چرا خودکارسازی حیاتی است؟ کاهش خطای انسانی، افزایش سرعت، و تکرارپذیری
بررسی فرآیندهای مناسب برای خودکارسازی
تفاوت بین خودکارسازی واکنشی (Reactive) و پیشگیرانه (Proactive)

فصل 2. ابزارهای رایج خودکارسازی در SRE

معرفی ابزارهای محبوب:
- Ansible: برای پیکربندی سیستم‌ها و اجرای دستورات توزیع‌شده
- Terraform: برای مدیریت زیرساخت به‌عنوان کد (IaC)
- Puppet و Chef: برای مدیریت پیکربندی در محیط‌های پیچیده
بررسی ویژگی‌ها، مزایا و موارد استفاده‌ی هر ابزار
مقایسه ابزارها بر اساس سرعت، پیچیدگی و قابلیت ادغام

فصل 3. خودکارسازی فرآیندهای اصلی در چرخه عمر خدمات

خودکارسازی استقرار (Deployment Automation)
- استفاده از ابزارهایی مانند Jenkins، GitHub Actions، GitLab CI/CD
- استقرار بدون وقفه (Blue/Green Deployment، Canary Release)
خودکارسازی تست (Test Automation)
- اجرای تست‌های واحد، یکپارچه‌سازی، بار و کارایی به‌صورت خودکار
خودکارسازی مانیتورینگ و آلرتینگ (Monitoring & Alerting)
- ایجاد هشدارهای خودکار بر اساس SLI و SLO
- نمونه‌سازی و ایجاد داشبورد خودکار با Prometheus و Grafana

فصل 4. الگوهای طراحی خودکارسازی قابل اطمینان

استفاده از Triggers و Event-Driven Architecture برای اجرای خودکار عملیات
مفهوم Runbooks و استفاده از آن در اجرای Playbookها
بررسی Automation Anti-Patterns و اشتباهات رایج در پیاده‌سازی خودکارسازی

فصل 5. بهینه‌سازی در SRE

تعریف بهینه‌سازی (Optimization) و رابطه آن با پایداری و مقیاس‌پذیری
سنجش عملکرد سیستم‌ها و شناسایی گلوگاه‌ها (Bottlenecks)
استفاده از ابزارهای APM (Application Performance Monitoring) برای بهینه‌سازی
بهینه‌سازی مصرف منابع: CPU، Memory، I/O، Storage، Network
بهینه‌سازی هزینه‌ها در زیرساخت‌های Cloud و Hybrid

فصل 6. طراحی برای مقیاس‌پذیری و تاب‌آوری (Scalability & Resilience)

اصول طراحی سیستم‌های مقیاس‌پذیر (Horizontally Scalable)
تکنیک‌های افزایش تاب‌آوری: Load Balancing، Failover، Replication
بررسی معماری‌های مناسب برای مقیاس‌پذیری بالا (Microservices، Serverless، Event-Driven)
مدیریت منابع در محیط‌های ابری (Cloud Resource Management)

بخش 4: مدیریت بحران و بازسازی سیستم‌ها

فصل 1. مدیریت حوادث (Incident Management)

تعریف حادثه (Incident) در زمینه SRE
انواع حوادث: بحرانی، با تأثیر بالا، متوسط و کم
فرآیندهای شناسایی و طبقه‌بندی حادثه
ابزارهای مدیریت حادثه (مانند PagerDuty، Opsgenie، ServiceNow)
نحوه تعیین اولویت‌ها و اختصاص مسئولیت‌ها
پیاده‌سازی گردش‌کار (Runbook) برای مقابله با حوادث
مستندسازی مراحل پاسخ‌دهی به حادثه

فصل 2. پاسخ به بحران (Incident Response)

مراحل پاسخ‌دهی سریع و مؤثر به حوادث
ارتباطات در حین بحران (داخلی و خارجی)
نقش‌های کلیدی در زمان وقوع بحران (Incident Commander، Communications Lead، Ops Lead و غیره)
استفاده از ابزارهای ارتباطی مانند Slack، Zoom، IRC برای هماهنگی تیم‌ها
کاهش زمان تشخیص و حل بحران (MTTD و MTTR)

فصل 3. Postmortem بدون سرزنش (Blameless Postmortem)

تعریف Postmortem و اهداف آن
اصول “بدون سرزنش” برای تقویت فرهنگ یادگیری
مراحل اجرای Postmortem:
- جمع‌آوری داده‌ها
- بازسازی خط زمانی
- شناسایی دلایل ریشه‌ای (Root Cause Analysis)
- تعیین اقدامات اصلاحی (Corrective Actions)
قالب استاندارد برای مستند Postmortem
اشتراک‌گذاری نتایج و Lessons Learned با تیم‌ها

فصل 4. برنامه‌ریزی برای بازیابی (Recovery Planning)

تعریف برنامه بازیابی (Recovery Plan)
پیاده‌سازی RTO (Recovery Time Objective) و RPO (Recovery Point Objective)
تهیه Backup و سناریوهای Restore
استفاده از ابزارهای بازیابی خودکار (مانند Kubernetes Recovery Operators، Infrastructure-as-Code)
تعریف سیاست‌ها برای rollback یا rollforward

فصل 5. مهندسی آشوب (Chaos Engineering)

معرفی Chaos Engineering و کاربرد آن در SRE
ابزارهای رایج: Chaos Monkey، Gremlin، Litmus Chaos
طراحی آزمایش‌های مقاومتی برای تست تاب‌آوری سیستم
اجرای آزمایش‌های کنترل‌شده در محیط‌های staging و production
اندازه‌گیری نتایج آزمایش و پیاده‌سازی اصلاحات

فصل 6. طراحی سیستم‌های مقاوم و خودترمیم (Resilient & Self-Healing Systems)

استفاده از الگوهای طراحی مقاوم مانند Circuit Breaker، Retry، Bulkhead
پیاده‌سازی Auto-Scaling و Failover برای تحمل خطا
طراحی سیستم‌هایی با قابلیت Self-Recovery (مانند استفاده از health checks و container restarts)
نقش Service Mesh در افزایش تاب‌آوری سیستم

برند	کانفیگ و پشتیبانی سرویس های هاستینگ

نقد و بررسی ها

نقد و بررسی وجود ندارد.

فقط مشتریانی که وارد سیستم شده اند و این محصول را خریداری کرده اند می توانند نظر بدهند.