٪85 تخفیف

دانلود کتاب آموزشی Site Reliability Engineering (SRE) Foundation جلد دوم

Name: دانلود کتاب آموزشی Site Reliability Engineering (SRE) Foundation جلد دوم
SKU: 102856
Availability: InStock

دسته‌بندی: انستیتو دواپس برچسب: ترجمه به زبان فارسی تاریخ به روز رسانی: 28 مهر 1404 تعداد بازدید: 639 بازدید

ویژگی های محصول: پشتیبانی واتساپ

قیمت اصلی: ۲,۰۰۰,۰۰۰ تومان بود.قیمت فعلی: ۳۰۰,۰۰۰ تومان.

بخش 5: فرهنگ و تیم‌های SRE

فصل 1. اهمیت فرهنگ سازمانی در موفقیت SRE

تعریف فرهنگ در چارچوب Site Reliability Engineering
تأثیر مستقیم فرهنگ بر پایداری و نوآوری در عملیات
بررسی فرهنگ‌های سنتی عملیات در مقابل فرهنگ‌های مدرن DevOps و SRE
شاخص‌های یک فرهنگ مطلوب برای پیاده‌سازی موفق SRE

فصل 2. اصول فرهنگی بنیادین در SRE

اصل “Blameless Postmortem”: یادگیری بدون سرزنش
اصل “Service Ownership”: مالکیت کامل سرویس‌ها توسط تیم
اصل “Engineering First”: اولویت با مهندسی به‌جای فرآیند محض
اصل “Error Budget”: ابزار فرهنگی برای تعادل توسعه و پایداری
اصل “Toil Reduction”: حذف کارهای تکراری و بی‌ارزش

فصل 3. نقش همکاری بین تیمی (Dev + Ops = SRE)

ساختن پل بین تیم‌های توسعه و عملیات
جریان ارتباطات موثر و باز بین تیم‌ها
استفاده از ابزارهای مشترک و زبان مشترک در بین تیم‌ها
چالش‌های رایج در همکاری Dev و Ops و راه‌حل‌ها

فصل 4. ساختار تیم‌های SRE

مدل‌های مختلف تیم SRE:
- Embedded SRE
- Dedicated SRE
- Consulting SRE
نقاط قوت و ضعف هر مدل ساختاری
تعیین حدود مسئولیت‌ها بین تیم‌های SRE، توسعه و عملیات

فصل 5. نقش‌ها و مسئولیت‌های کلیدی در تیم‌های SRE

Site Reliability Engineer (SRE)
Incident Commander
Platform Engineer
Observability Engineer
Automation & Tooling Specialist
ارتباط بین این نقش‌ها با سایر بخش‌های سازمان

فصل 6. توسعه مهارت‌های نرم در تیم SRE

مهارت‌های ارتباطی و بین‌فردی
تفکر تحلیلی و تصمیم‌گیری سریع در شرایط بحرانی
مهارت‌های یادگیری مداوم و مستندسازی دانش
هدایت فنی و رهبری بدون اقتدار رسمی (Technical Leadership)

فصل 7. چالش‌های انسانی و فرهنگی در تیم‌های SRE

مقاومت در برابر تغییر فرهنگ سنتی IT
کاهش انگیزه به دلیل فشارهای عملکردی
فشار روانی ناشی از Incidentهای بحرانی
راه‌کارهای مقابله با فرسودگی شغلی (Burnout)

فصل 8. راهبردهای ارتقاء فرهنگ SRE در سازمان

برنامه‌های آموزشی داخلی و خارجی
اجرای تدریجی اصول SRE و همراه‌سازی تیم‌ها
ایجاد حلقه‌های بازخورد و یادگیری سازمانی
فرهنگ‌سازی از طریق رهبران فنی و مدیریت ارشد

بخش 6: ابزارها و فناوری‌های SRE

فصل 1. ابزارهای پایش (Monitoring Tools)

معرفی ابزارهای جمع‌آوری داده‌های عملکردی سیستم‌ها
Prometheus: مانیتورینگ مبتنی بر metrics با زبان query قدرتمند (PromQL)
Grafana: ابزار مصورسازی برای داشبوردهای Prometheus و سایر منابع
Zabbix، Nagios و Sensu: ابزارهای سنتی و ترکیبی برای مانیتورینگ منابع زیرساختی
Datadog و New Relic: ابزارهای تجاری برای مانیتورینگ یکپارچه سیستم، اپلیکیشن و تجربه کاربر
Cloud Monitoring (مانند Google Cloud Monitoring، AWS CloudWatch): مانیتورینگ محیط‌های ابری

فصل 2. ابزارهای Observability و لاگینگ (Observability & Logging)

تفاوت Monitoring با Observability و مزیت observability برای ریشه‌یابی مشکلات
ELK Stack (Elasticsearch، Logstash، Kibana): برای تجمیع، تجزیه و تحلیل لاگ‌ها
Fluentd و Loki: ابزارهای سبک‌وزن برای لاگ‌های توزیع‌شده
Open Telemetry: استانداردسازی برای traceها، metrics و logها
Jaeger و Zipkin: ابزارهای Distributed Tracing برای تحلیل مسیر درخواست‌ها در سیستم‌های توزیع‌شده

فصل 3. ابزارهای Incident Management و پاسخ به حوادث

PagerDuty، Opsgenie، VictorOps: برای مدیریت هشدارها، اطلاع‌رسانی و پیگیری رویدادها
Sentry، Honeybadger: ابزارهای تحلیل خطاها در اپلیکیشن‌ها
Blameless و Fire Hydrant: پلتفرم‌هایی برای مدیریت incident و postmortem

فصل 4. ابزارهای خودکارسازی (Automation Tools)

Ansible: اتوماسیون با YAML و بدون نیاز به Agent
Terraform: Infrastructure as Code (IaC) برای مدیریت منابع Cloud و on-premise
Chef، Puppet: ابزارهای پیکربندی سیستم‌ها با استفاده از کد
Jenkins و GitLab CI/CD: اتوماسیون CI/CD برای تست، build و استقرار خودکار

فصل 5. ابزارهای تست مقاومت و Chaos Engineering

Chaos Monkey: ابزار اصلی نتفلیکس برای وارد کردن اختلالات کنترل‌شده
Gremlin و Litmus Chaos: ابزارهای پیشرفته‌تر برای تست تحمل‌پذیری و مقاوم‌سازی
استفاده از این ابزارها در تست resiliency و تشخیص نقاط شکست در زیرساخت

فصل 6. ابزارهای امنیت و پایداری

Falco: تشخیص تهدیدهای زمان اجرا در کانتینرها
Sysdig، OSSEC: تحلیل امنیتی و بررسی رویدادها
Vault (از HashiCorp): مدیریت امن اطلاعات محرمانه و دسترسی‌ها

فصل 7. ابزارهای جمع‌آوری و تحلیل KPI و SLI/SLO

Nobl9، Sloth، Polaris: ابزارهای مخصوص مدیریت SLO و SLI با پشتیبانی از Prometheus و Datadog
استفاده از SLO Dashboard برای دید کلان از قابلیت اطمینان سرویس‌ها
پیاده‌سازی گزارش‌گیری مبتنی بر Error Budget

بخش 7: ارزیابی و بهبود مستمر

فصل 1. ارزیابی عملکرد SRE

معیارهای کلیدی ارزیابی عملکرد تیم SRE
- Mean Time to Detect (MTTD)
- Mean Time to Resolve (MTTR)
- تعداد و شدت Incidents
- درصد تحقق SLOها در بازه زمانی
تحلیل هزینه و ارزش SRE
- مقایسه هزینه‌های مرتبط با حوادث (Outages) در قبل و بعد از پیاده‌سازی SRE
- بررسی صرفه‌جویی منابع ناشی از Automation
ارزیابی فرآیندهای Incident Management و Blameless Postmortems
- ارزیابی مؤثر بودن جلسات بازبینی
- استخراج اقدامات اصلاحی و اندازه‌گیری تأثیر آن‌ها

فصل 2. ابزارها و داشبوردهای ارزیابی

ایجاد داشبوردهای متمرکز بر SLO و Error Budget
اتصال ابزارهای نظارت مانند Prometheus، Grafana یا Datadog به سیستم ارزیابی
استفاده از ELK Stack، Loki، یا Splunk برای ارزیابی داده‌های لاگ
بررسی روندها با استفاده از تجزیه و تحلیل داده‌ها و الگوریتم‌های هشداردهی هوشمند (Alert Fatigue Reduction)

فصل 3. فرآیند بهبود مستمر (Continuous Improvement)

ایجاد چرخه‌های بازخورد مداوم بین تیم‌های Dev و SRE
طراحی Retrospectiveهای دوره‌ای برای بازبینی سرویس‌ها و عملکرد تیم
به‌روزرسانی مداوم SLOها بر اساس تغییرات بار یا نیازهای مشتریان
تبدیل درس‌آموخته‌ها به اقدامات عملی برای توسعه تیم، فرآیندها یا زیرساخت‌ها

فصل 4. نوآوری در چارچوب SRE

ایجاد فضای آزمایش (Sandbox) برای بررسی ایده‌ها و تکنیک‌های جدید
ارزیابی پیاده‌سازی تکنولوژی‌های نوین:
- Service Mesh
- Intelligent Load Balancing
- Auto Remediation Pipelines
تحلیل رفتار سیستم در شرایط بحرانی با استفاده از Chaos Engineering و در نظر گرفتن نتایج آن در برنامه‌ریزی‌های آتی

فصل 5. پیاده‌سازی شاخص‌های بهبود مستمر

تعریف KPIs ویژه برای پیشرفت تیم SRE
- درصد خودکارسازی فرآیندهای تکراری
- کاهش زمان پاسخ‌دهی به هشدارها
- افزایش دوره‌های بدون Incident
مستندسازی پیشرفت‌ها و به‌روزرسانی سیاست‌ها
بررسی روند توسعه مهارت‌های تیمی و ارزیابی دانش اعضا

اهداف دوره:

درک کامل اصول و شیوه‌های Site Reliability Engineering (SRE)
توانایی پیاده‌سازی SLA/SLO/SLI و مدیریت Error Budget در عملیات IT
تسلط بر ابزارهای نظارت، پایش، و خودکارسازی در SRE
آمادگی برای اخذ گواهینامه SRE Foundation℠
آشنایی با چالش‌ها و فرصت‌ها در پیاده‌سازی SRE در سازمان‌ها

پیش‌نیازها:

آشنایی با مفاهیم پایه‌ای DevOps و عملیات فناوری اطلاعات
آشنایی با مفاهیم مدیریت خدمات IT و ITIL
آشنایی با ابزارهای نظارت و پایش می‌تواند مفید باشد

مخاطبین دوره:

متخصصان IT، مدیران سیستم‌ها، و مهندسان عملیات که قصد دارند به SRE بپردازند
افرادی که به دنبال اخذ گواهینامه SRE Foundation℠ هستند
مدیران و رهبران تیم‌های فناوری اطلاعات که می‌خواهند به بهبود قابلیت اطمینان و عملکرد سیستم‌های خود بپردازند

مزایای این گواهینامه:

یادگیری بهترین شیوه‌ها و اصول SRE برای بهبود قابلیت اطمینان و عملکرد سیستم‌ها
آمادگی برای ارتقاء شغلی و دریافت گواهینامه رسمی از DevOps Institute
تقویت مهارت‌ها در طراحی و پیاده‌سازی SLA/SLO/SLI و مدیریت عملیات IT

برند	کانفیگ و پشتیبانی سرویس های هاستینگ

نقد و بررسی ها

نقد و بررسی وجود ندارد.

فقط مشتریانی که وارد سیستم شده اند و این محصول را خریداری کرده اند می توانند نظر بدهند.