Google Cloud Platform Japan 公式ブログ: SLO

エラーバジェットの使い過ぎが意味するもの : CRE が現場で学んだこと

2018年7月18日水曜日

CRE が現場で学んだことCRE（顧客信頼性エンジニアリング）何にエラーバジェットを費やしているか

ほとんどのエラーがバイナリリリースの際に発生している場合は、リリースの頻度を控えたり、エラーを起こりにくくしたり、エラーが発生しても影響があまり出ないようにしたりといった対策が必要です。そうしないと、エラーバジェット内に収めることは難しいでしょう。

断続的なアプリケーション障害によってずっと同じようなエラーが発生し、それがエラーバジェットの大半を占めている場合は、アプリケーションに根本的な欠陥があるということです。ログを掘り下げて問題のクエリを探し、エンジニアと協力して根本的原因を特定したうえで、直接対処するか、もしくは次のプロジェクトの計画サイクルで修正しなくてはなりません。

“configuration pushes” や過度の負荷、“queries-of-death” が原因でサービスの大半が何分間にもわたって停止するような大規模アプリケーション障害が発生し、そこにエラーバジェットの大半が費やされている場合は、効果的な事後分析を実施して根本的原因を突き止め、障害を緩和させるべきでしょう。開発エンジニアの力を借りて、事後分析で優先順位トップとされた事項に対応する必要があります。したがって、機能の開発やリリースはおのずと後回しになります（これについては別の記事で詳しく説明します）。

クリティカルなバックエンドやコンピューティングプラットフォームのような制御対象以外との依存関係によって多くのエラーバジェットが消費されている場合は、その依存関係を見直すか、プラットフォームのオーナーと直接交渉し、SLI を示したうえで、サービスの信頼性を向上させる方法や予期される障害モードへの耐性を高める方法について話し合ってみましょう。

シグナルを正しく査定しているかユーザーエクスペリエンスが低下してもユーザーは耐えられるかユーザーエクスペリエンスが明確でないケースパート 2SRE の原則をサービスのデプロイや管理に適用する方法関連コンテンツ

優れた SLO を策定するには : CRE が現場で学んだこと

SLO 違反への対処 : CRE が現場で学んだこと

* この投稿は米国時間 6 月 28 日、Adrian Hilton、Alec Warner、および Alex Bramley によって投稿されたもの（投稿はこちら）の抄訳です。- By Adrian Hilton, Alec Warner and Alex Bramley

エスカレーションポリシーの適用 : CRE が現場で学んだこと

2018年2月26日月曜日

サービスレベル目標（SLO）違反のエスカレーション方法実際の文書例

基準値 1 : SLO が影響を受ける可能性があると SRE に通知される。

基準値 2 : SLO を保つには支援が必要だと SRE が判断し、開発者にエスカレーションする。

基準値 3 : 30 日間のエラーバジェットが消費されたものの根本的原因が判明していない。SRE はリリースを停止し、さらなるサポートを開発チームに要請する。

基準値 4 : 90 日間のエラーバジェットが消費されたものの根本的原因が判明していない。SRE は、より多くの開発時間を信頼性向上に充ててもらうよう、幹部にエスカレーションする。

シナリオ 1 : 短時間だが重大な障害が根本的原因となり、すぐに依存関係の問題が発生したシナリオ 2 : 短時間だが重大な障害が発生し、根本的原因がはっきりしないシナリオ 3 : 誤った根本的原因により、エラーバジェットが徐々に消費されるシナリオ 4 : 繰り返し発生する、一時的なサービスレベル指標（SLI）の逸脱まとめ* この投稿は米国時間 2 月 8 日、Site Reliability Engineer の Will Tipton と、Customer Reliability Engineer の Alex Bramley によって投稿されたもの（投稿はこちら）の抄訳です。- By Will Tipton, Site Reliability Engineer and Alex Bramley, Customer Reliability Engineer

SLO のエスカレーションポリシー : CRE が現場で学んだこと

2018年2月6日火曜日

前回のブログ記事エスカレーションポリシーの目的

根本的原因を突き止め、関連する一連の問題を修復する

自動修復によって手作業による介入が必要なくなった

一連の問題が、今後その発生頻度や深刻度によって将来的に SLO を脅かす可能性が極めて低い場合は、とりあえず 1 週間待つ

エスカレーションポリシーの基準値基準値 1 : SLO が影響を受ける可能性があると SRE に通知される基準値 2 : SRE が開発者にエスカレーションする

支援がなければサービスの SLO を保つことは困難だと SRE が判断した

求められるユーザーエクスペリエンスを SLO が表していることを、SRE と開発の両チームとも認めている

SRE と開発チームのオンコール担当者は根本的原因の修復を優先し、バグを日々更新する

SRE が開発チームのリーダーにエスカレーションし、必要に応じて可視化や追加の支援を要請する

既知の問題に対して継続的に呼び出しがかかるのを避けるため、アラートの基準値を緩める一方で、さらなる不具合に対しては引き続き対策を講じる

SRE がアラートの変更を元に戻す

SRE が事後報告を作成することもある

求められるユーザーエクスペリエンスを SLO が正確に表していない場合、SRE、開発チーム、プロダクトチームは SLO を変更もしくは撤回することに同意する

基準値 3 : SRE が機能リリースを一時的に停止させ、信頼性向上に努める

最低でも 1 週間は以前の基準値を満たしている

サービスはまだ SLO の規定内に戻っていない

30 日分のエラーバジェットを使い切った

根本的原因が判明した不具合を対象に、入念にチェックした修正パッチのみを本番環境にプッシュしてみる

SRE が自分の上司や開発チームのマネージャーにエスカレーションし、緊急でない仕事はすべて後回しにして根本的原因を探し出し修復するように開発メンバーに依頼する

日々の更新を “エスカレーション” のメーリングリストとして発信してみる（幹部を含め、さまざまな人員に障害の情報を知らせるため）

通常のバイナリリリースを再開する

SRE が事後報告を作成する

チームメンバーが再び通常のプロジェクトを優先することも可能になる

基準値 4 : SRE が幹部にエスカレーションする、またはサポートをやめる

最低でも 1 週間は以前の基準値を満たしている

サービスはまだ SLO の規定内に戻っていない

90 日分のエラーバジェットを使い切ったか、機能開発を中止して信頼性の回復に努めることを開発チームが拒否している

問題解決に専念する人員を増やすため、SRE が幹部にエスカレーションする可能性がある

SRE が SLO やサービスのサポートを取りやめ、関連するアラートをリダイレクトしたり停止したりすることもある

エスカレーションとインシデントレスポンスリリースの停止

一般に、安定した状態で最もエラーバジェットが消費されるのはリリースのプッシュ配信時です。すでにエラーバジェットを使い切っている場合、新たなリリース配信をやめてしまえば、安定した状態でのバジェット消費率が下がり、サービスをより迅速に SLO 規定内に戻すことができます。

リリースの停止により、新たなコード内のバグが原因で今後予期しない SLO 違反が発生するリスクを抑えることができます。根本的原因の修復パッチを新リリースに対してロールアウトするのではなく、現在のリリースに適用すべきなのは、これが理由です。

リリースの停止は制裁処置ではないものの、開発チームにとって非常に気になるリリース速度に直接影響を及ぼします。つまり、SLO 違反と開発速度の低下を結びつけることで、SRE と開発チーム双方のインセンティブにつながるのです。SRE はサービスを SLO の規定内に収めることを望みますが、それに対して開発チームは新機能を迅速に構築したいと考えます。この 2 つは同時に実現するか、双方とも実現しないかのどちらかです。

まとめ* この投稿は米国時間 1 月 19 日、Customer Reliability Engineer である Alex Bramley と、Site Reliability Engineer である Will Tipton によって投稿されたもの（投稿はこちら）の抄訳です。- By Alex Bramley, Customer Reliability Engineer; Will Tipton, Site Reliability Engineer

SLO 違反への対処 : CRE が現場で学んだこと

2018年1月24日水曜日

サービスの可用性を数値化することの重要性CRE が現場で学んだことサービスレベル目標（SLO）を使って管理する方法SLO がしっかりしていれば機能 vs. 信頼性丸い形をした SRE インフレクションポイント誰も責めることのない事後分析 SLO 違反がもたらすものSLO 違反の可能性や実際の違反を通知する開発チームに SLO 違反をエスカレーションするサービス変更のリスク軽減で、SLO にさらなる影響を与えるサービスのサポートを取り消すまとめ* この投稿は米国時間 1 月 3 日、Customer Reliability Engineer である Alex Bramley によって投稿されたもの（投稿はこちら）の抄訳です。- By Alex Bramley, Customer Reliability Engineer

優れた SLO を策定するには : CRE が現場で学んだこと

2017年11月8日水曜日

CRE シリーズSLO、SLI、SLA について考えるSRE 本 SLO の意義SLO はサービスレベル契約（SLA）ではない

SLO は、チームがやるべきことについて意味のある疑念を解決する便利なツールとなります。「この課題には絶対取り組まなくては」ということと、「この課題には取り組まなくていいかもしれない」ということの間に線引きすることこそが目標なのです。したがって、SLO のターゲットを必要以上に高く設定しないようにしましょう。現在たまたまその目標値を満たしているとしても、いったん設定してしまうと今後何か変更する際に柔軟性が損なわれるおそれがあります。たとえば、信頼性を犠牲にしても開発速度を上げるべきかということを考える際に、柔軟性が制限されてしまうのです。

SLO にクエリをグループ分けするときには、特定の製品要素や内部実装の詳細ではなく、ユーザーエクスペリエンスによって分けましょう。たとえば、ユーザーの行動に対する直接的なレスポンスは、バックグラウンドや付随的なレスポンス（サムネイルなど）とは別の SLO にグループ分けすべきです。同様に、（製品を閲覧するというような）「読み込み」の操作は、（精算するという操作のように）頻度は低いものの、より重要な「書き込み」の操作とは別グループに入れるべきです。それぞれの SLO においては、可用性やレイテンシの目標値が異なります。

SLO の範囲と、それがどこまでをカバーするのか（どのクエリ、どのデータオブジェクトまでをカバーするのか）、さらにはどういった条件で SLO が提供されるのかを明確にしておきましょう。無効なユーザーリクエストをエラーとして数えるのか数えないのか、また、あるクライアントから多数のリクエストを送られるといったスパムに見舞われたらどうするか、ということについても検討してください。

最後に、上記内容とは若干綱引きの状態になってしまいますが、SLO は簡潔かつ明確なものにしておきましょう。SLO では、本当に気になる部分を曖昧にするのではなく、重要でない操作までカバーしないようにするほうがよいのです。規模の小さい SLO で経験を積んでください。まずはリリースして繰り返すのです。

SLO の例可用性可用性 :可用性 :可用性 :レイテンシレイテンシ : レイテンシ : パーセンテージの理由 100 % の場合は話が別リスクを容認 SLO のレポートSLO 四半期サマリーの例

SLO

目標値

第 2 四半期

第 3 四半期

ウェブの可用性

99.95 %

99.92 %

99.96 %

モバイルの可用性

99.9 %

99.91 %

99.97 %

レイテンシ 250 ミリ秒以下

50 %

74 %

70 %

レイテンシ 3000 ミリ秒以下

99 %

99.4 %

98.9 %

まとめSRE 本* この投稿は米国時間 10 月 23 日、Customer Reliability Engineer である Robert van Gent と Stephen Thorne、および Site Reliability Engineer である Cody Smith によって投稿されたもの（投稿はこちら）の抄訳です。- By Robert van Gent and Stephen Thorne, Customer Reliability Engineers and Cody Smith, Site Reliability Engineer

SLO、SLI、SLA について考える : CRE が現場で学んだこと

2017年2月21日火曜日

前回CRE が現場で学んだことなぜ SLO があるのかシェイクスピアサービス SLO を決めるとそれがユーザーの期待値にSRE 本 SLA は SLO とは違うまとめ

信頼性のあるサービスを提供したいのであれば、まず「信頼性」を定義してください。実際には、信頼性は可用性を意味することがほとんどです。

サービスの信頼性を把握したいのであれば、成功クエリと失敗クエリの率を測定する必要があります。これが SLI の基となります。

サービスの信頼性が上がれば上がるほど、運用コストも高くなります。何とかやっていける最低レベルの信頼性を定義し、それを SLO としましょう。

SLA がなければ、サービスの信頼性を高めるべきか（コストが増加し開発速度が落ちます）、信頼性をより低くするべきか（開発速度が上がります）、チームも関係者も原理的な判断ができません。

ユーザーに課金するのであれば、SLA が必要となるでしょう。SLA は、SLO より少し緩めに設定しましょう。

注 :Google Cloud Next '17ご登録* この投稿は米国時間 1 月 31 日、Customer Reliability Engineers である AJ Ross と Adrian Hilton、および Director of Customer Reliability Engineering である Dave Rensin によって投稿されたもの（投稿はこちら）の抄訳です。- By AJ Ross and Adrian Hilton, Customer Reliability Engineers, and Dave Rensin, Director of Customer Reliability Engineering

Google Cloud Platform Japan Blog

エラーバジェットの使い過ぎが意味するもの : CRE が現場で学んだこと

エスカレーションポリシーの適用 : CRE が現場で学んだこと

SLO のエスカレーションポリシー : CRE が現場で学んだこと

SLO 違反への対処 : CRE が現場で学んだこと

優れた SLO を策定するには : CRE が現場で学んだこと

SLO、SLI、SLA について考える : CRE が現場で学んだこと

12 か月間のトライアル

Labels

Archive

Feed

Company-wide

製品・サービス

デベロッパー

Google Cloud Platform Japan Blog

エラー バジェットの使い過ぎが意味するもの : CRE が現場で学んだこと

エスカレーション ポリシーの適用 : CRE が現場で学んだこと

SLO のエスカレーション ポリシー : CRE が現場で学んだこと

SLO 違反への対処 : CRE が現場で学んだこと

優れた SLO を策定するには : CRE が現場で学んだこと

SLO、SLI、SLA について考える : CRE が現場で学んだこと

12 か月間のトライアル

Labels

Archive

Feed

Company-wide

製品・サービス

デベロッパー

エラーバジェットの使い過ぎが意味するもの : CRE が現場で学んだこと

エスカレーションポリシーの適用 : CRE が現場で学んだこと

SLO のエスカレーションポリシー : CRE が現場で学んだこと