Google Cloud Platform Japan 公式ブログ: SRE

※この投稿は米国時間 2018 年 10 月 11 日に Google Cloud blog に投稿されたものの抄訳です。SRE（Site Reliability Engineering）SRE の原則Google Stackdriverこちらシステムの信頼性に光を当てる Stackdriver IRM

包括的なデータ収集とアナリティクスによるインシデントの徹底的なライフサイクル管理

SRE の経験から生まれた緊急応答プロトコルに基づく効率的な多応答者インシデント管理のための体系化されたプロセス

知見を引き出し、重要情報にスポットライトを当てるとともに、精査プロセスを迅速化し、障害から復旧にかかる時間を短縮する最新 Stackdriver データの自動相関化

状況を重視し、事後分析生成プロセスを向上させるために頻繁に使われる非公式な慣習的手順（問題点の追跡手順など）の構造化

可視性や柔軟性の向上を支援する新しいパートナー広範なリソースBlue MedoraこちらのフォームGrafana Labsこちら

今後に向けてサインアップこちら- Post by Melody Meckfessel, VP of Engineering

クラウド時代のトラブルシューティング : 解決に役立つプロバイダーとのコミュニケーション（前編）

2018年7月6日金曜日

編集部注 : 今回の記事は、数年前に SRE（サイト信頼性エンジニアリング）の本を出した（本当に！）Google エキスパートチームが執筆してくれました。実際に手を動かして学ぶ同書の姉妹書『The Site Reliability Workbook』も発売に向けて準備が進んでいるようです。ここでは、多くの IT チームにとって重要な SRE の一分野である、クラウドコンピューティング時代のトラブルシューティングについて取り上げます。今回は 2 回連載の前編です。本稿を読み終えたら、クラウドプロバイダーとのコミュニケーション方法をテーマにした後編もぜひご覧ください。書籍『Site Reliability Engineering』の中後編クラウドプロバイダーのサポートワークフローを把握する

サポートに対する典型的なイシューレポートのライフサイクルはどうなっているか？

問題が複雑もしくは重大な場合の社内のエスカレーションプロセスはどうなっているか？

<サービス名>の社内サービスレベル目標（SLO）はあるか？　ある場合、その内容はどうなっているか？

プレミアムサポートとしてどのようなタイプのものを利用できるのか？

クラウドプロバイダーのサポート担当との効率的なコミュニケーション基本情報の提供4 つの必須情報時刻製品位置具体的な識別子

太平洋夏時間 2017 年 9 月 8 日 15 時 13 分から 5 分後まで～が観察されました

2017 年 9 月 10 日以降、間欠的に 2～5 回観察されたことですが、～

太平洋夏時間 2017 年 9 月 8 日 15 時 13 分以降ずっと～

太平洋夏時間 2017 年 9 月 8 日 15 時 13 分から同 22 時 22 分まで～

ISO 8601 形式認知的負荷

今日早く : 十分に特定できていません。

昨日 : 連絡を受け取った側が暗黙の日付を明らかにしなければなりません。特に日付変更線をまたがる場合は曖昧になります。

9/8 : 曖昧です。米国では 9 月、他の地域では 8 月だと解釈される恐れがあります。明確にするために ISO 8601 形式を使いましょう。

REST API がエラーを返しました。

データマイニングのクエリインターフェースがハングアップしています。

仮想マシンを作成できません。仮想マシンをどのようにして作ろうとしたのかがはっきりしません。エラーモードがどうなっているのかもわかりません。

CLI コマンドがエラーを返します。

エラーの内容を具体的に書き、コマンドの構文を明示して、他の人も実行できるようにしましょう。
より良い書き方 : “mktool create my-instance --zone us-central1” を実行したところ、次のようなエラーメッセージが返ってきました。

us-east1 において～

リージョン eu-west-1 と eu-west-3 で試したところ～

プロジェクト 123412341234 または my-project-id で～

複数のプロジェクト（123412341234 が含まれます）にわたって～

社内のゲートウェイ 56.56.56.56 からクラウドの対外 IP 218.239.8.9 に接続するとき～

弊社インスタンスの 1 つにつながりません : 曖昧すぎます。

インターネットから接続できません : 曖昧すぎます。

5W1H 問題発生の影響と回答に対する要望の明確化期待する優先順位希望する回答期限後編関連コンテンツ

SRE vs. DevOps

SRE の教訓 : Google におけるインシデント管理とは

エスカレーションポリシーの適用 : CRE が現場で学んだこと

Special thanks to Ralph Pearson, J.C. van Winkel, John Lowry, Dermot Duffy and Dave Rensin* この投稿は米国時間 5 月 31 日、Luke Stone と Jian Ma によって投稿されたもの（投稿はこちら）の抄訳です。- By Luke Stone and Jian Ma

エスカレーションポリシーの適用 : CRE が現場で学んだこと

2018年2月26日月曜日

サービスレベル目標（SLO）違反のエスカレーション方法実際の文書例

基準値 1 : SLO が影響を受ける可能性があると SRE に通知される。

基準値 2 : SLO を保つには支援が必要だと SRE が判断し、開発者にエスカレーションする。

基準値 3 : 30 日間のエラーバジェットが消費されたものの根本的原因が判明していない。SRE はリリースを停止し、さらなるサポートを開発チームに要請する。

基準値 4 : 90 日間のエラーバジェットが消費されたものの根本的原因が判明していない。SRE は、より多くの開発時間を信頼性向上に充ててもらうよう、幹部にエスカレーションする。

シナリオ 1 : 短時間だが重大な障害が根本的原因となり、すぐに依存関係の問題が発生したシナリオ 2 : 短時間だが重大な障害が発生し、根本的原因がはっきりしないシナリオ 3 : 誤った根本的原因により、エラーバジェットが徐々に消費されるシナリオ 4 : 繰り返し発生する、一時的なサービスレベル指標（SLI）の逸脱まとめ* この投稿は米国時間 2 月 8 日、Site Reliability Engineer の Will Tipton と、Customer Reliability Engineer の Alex Bramley によって投稿されたもの（投稿はこちら）の抄訳です。- By Will Tipton, Site Reliability Engineer and Alex Bramley, Customer Reliability Engineer

SLO のエスカレーションポリシー : CRE が現場で学んだこと

2018年2月6日火曜日

前回のブログ記事エスカレーションポリシーの目的

根本的原因を突き止め、関連する一連の問題を修復する

自動修復によって手作業による介入が必要なくなった

一連の問題が、今後その発生頻度や深刻度によって将来的に SLO を脅かす可能性が極めて低い場合は、とりあえず 1 週間待つ

エスカレーションポリシーの基準値基準値 1 : SLO が影響を受ける可能性があると SRE に通知される基準値 2 : SRE が開発者にエスカレーションする

支援がなければサービスの SLO を保つことは困難だと SRE が判断した

求められるユーザーエクスペリエンスを SLO が表していることを、SRE と開発の両チームとも認めている

SRE と開発チームのオンコール担当者は根本的原因の修復を優先し、バグを日々更新する

SRE が開発チームのリーダーにエスカレーションし、必要に応じて可視化や追加の支援を要請する

既知の問題に対して継続的に呼び出しがかかるのを避けるため、アラートの基準値を緩める一方で、さらなる不具合に対しては引き続き対策を講じる

SRE がアラートの変更を元に戻す

SRE が事後報告を作成することもある

求められるユーザーエクスペリエンスを SLO が正確に表していない場合、SRE、開発チーム、プロダクトチームは SLO を変更もしくは撤回することに同意する

基準値 3 : SRE が機能リリースを一時的に停止させ、信頼性向上に努める

最低でも 1 週間は以前の基準値を満たしている

サービスはまだ SLO の規定内に戻っていない

30 日分のエラーバジェットを使い切った

根本的原因が判明した不具合を対象に、入念にチェックした修正パッチのみを本番環境にプッシュしてみる

SRE が自分の上司や開発チームのマネージャーにエスカレーションし、緊急でない仕事はすべて後回しにして根本的原因を探し出し修復するように開発メンバーに依頼する

日々の更新を “エスカレーション” のメーリングリストとして発信してみる（幹部を含め、さまざまな人員に障害の情報を知らせるため）

通常のバイナリリリースを再開する

SRE が事後報告を作成する

チームメンバーが再び通常のプロジェクトを優先することも可能になる

基準値 4 : SRE が幹部にエスカレーションする、またはサポートをやめる

最低でも 1 週間は以前の基準値を満たしている

サービスはまだ SLO の規定内に戻っていない

90 日分のエラーバジェットを使い切ったか、機能開発を中止して信頼性の回復に努めることを開発チームが拒否している

問題解決に専念する人員を増やすため、SRE が幹部にエスカレーションする可能性がある

SRE が SLO やサービスのサポートを取りやめ、関連するアラートをリダイレクトしたり停止したりすることもある

エスカレーションとインシデントレスポンスリリースの停止

一般に、安定した状態で最もエラーバジェットが消費されるのはリリースのプッシュ配信時です。すでにエラーバジェットを使い切っている場合、新たなリリース配信をやめてしまえば、安定した状態でのバジェット消費率が下がり、サービスをより迅速に SLO 規定内に戻すことができます。

リリースの停止により、新たなコード内のバグが原因で今後予期しない SLO 違反が発生するリスクを抑えることができます。根本的原因の修復パッチを新リリースに対してロールアウトするのではなく、現在のリリースに適用すべきなのは、これが理由です。

リリースの停止は制裁処置ではないものの、開発チームにとって非常に気になるリリース速度に直接影響を及ぼします。つまり、SLO 違反と開発速度の低下を結びつけることで、SRE と開発チーム双方のインセンティブにつながるのです。SRE はサービスを SLO の規定内に収めることを望みますが、それに対して開発チームは新機能を迅速に構築したいと考えます。この 2 つは同時に実現するか、双方とも実現しないかのどちらかです。

まとめ* この投稿は米国時間 1 月 19 日、Customer Reliability Engineer である Alex Bramley と、Site Reliability Engineer である Will Tipton によって投稿されたもの（投稿はこちら）の抄訳です。- By Alex Bramley, Customer Reliability Engineer; Will Tipton, Site Reliability Engineer

SLO 違反への対処 : CRE が現場で学んだこと

2018年1月24日水曜日

サービスの可用性を数値化することの重要性CRE が現場で学んだことサービスレベル目標（SLO）を使って管理する方法SLO がしっかりしていれば機能 vs. 信頼性丸い形をした SRE インフレクションポイント誰も責めることのない事後分析 SLO 違反がもたらすものSLO 違反の可能性や実際の違反を通知する開発チームに SLO 違反をエスカレーションするサービス変更のリスク軽減で、SLO にさらなる影響を与えるサービスのサポートを取り消すまとめ* この投稿は米国時間 1 月 3 日、Customer Reliability Engineer である Alex Bramley によって投稿されたもの（投稿はこちら）の抄訳です。- By Alex Bramley, Customer Reliability Engineer

事後分析を外部と共有することの意義 : CRE が現場で学んだこと

2017年12月15日金曜日

事後分析CRE が現場で学んだこと外部向け事後分析の事例過去の事例を調べ、分析内容を読み解くこのようなインシデントレポート

GitLab.com が誤って PostgreSQL データベースを削除、しかもバックアップがないことが判明した

CloudFlare のエッジサーバーでメモリリークが発生した

Honeycomb.io で Kafka のバグが利用された

災害復旧テストGoogle Cloud PlatformCRESLO

ビジネスに関連する SLO を包括的に定義する

お客様が自社の監視プラットフォームで SLO に準拠しているかを測定できるようにする（サービスのエラーバジェットがどれだけ使われているかを把握できるようにする）

Google のサポートおよびプロダクト担当 SRE チームとの間で生の SLO 情報を共有する（これは共有監視と呼ばれる）

SLO 違反をお客様と共同で監視し対応する（運用上の宿命を共有する）

お客様と共同で SRE を実施してください

エラーバジェットは合計でどれだけ使われたのか

なぜインシデントが起こったのか

同じインシデントが再発しないように、できること、やるべきことは何か

外部向け事後分析の基礎となるもの標準的な方法事後分析テンプレート外部向け事後分析を誰に公開するべきかどこまで共有するか、なぜ共有するかを決める

障害の再発防止を検討するにあたり、事後分析の詳細がどれだけ重要か

障害によってお客様のサービスはどれほどの損害を被ったか。つまり、どれだけエラーバジェットを使ったのか

事後分析の内容

なぜインシデントが発生したのか？

よりひどくなる可能性はあったのか？

どうすればもう発生しないと確信が持てるのか？

記載してはいけないこと

人の名前 : 「John Smith さんが誤ってサーバーを蹴飛ばしてしまった」とするのではなく、「ネットワークエンジニアが誤ってサーバーを蹴飛ばしてしまった」と書きましょう。Google 社内では人の役割を人名ではなく役職で表現するようにしています。こうすることで、誰も責めることのない事後分析カルチャーが保たれています。

内部システムの名称 : 内部システムの名称はユーザーに公表しておらず、それがどう組み合わさっているのかを把握することもユーザーにとっては困難です。たとえば、Google では Chubby のことを社外の人に話す機会がありますが、外部向け事後分析には「われわれのグローバル分散ロックシステム」と記載しています。

お客様固有の情報 : 内部向け事後分析にはおそらく「x 時 x 分に Acme 社から問題が発生したことを知らせるサポートチケットが発行された」と記載されていると思いますが、こうした詳細は報告した企業（この場合は Acme 社）に過度の負担がかかる可能性があるため、外部と共有するのは控えるべきです。ここでは簡単に、「x 時 x 分にお客様から ……」としておきます。1 社以上のお客様について記載する場合は、お客様 A、お客様 B などとして区別しましょう。

その他、気をつけるべきこと便利な指標運が果たす役割

「適切な人がオンコール担当だった」ということは、作戦ノートに記載すべき部門知識が存在しているということです。災害復旧テストでもその内容を実施する必要があります。

「（バッチプロセスやユーザーアクションなど）他のことが同時に起こっていなかった」ということは、ピーク時の負荷を処理するのに十分な容量がシステムに備わっていないということです。リソースの追加を検討すべきでしょう。

「インシデントの発生が業務時間内だった」ということは、自動アラートや 24 時間ページャーで呼び出せるようなオンコール体制が必要だということです。

「すでに監視モニターを見ているところだった」ということは、積極的に監視していなくても似たような最先端のインシデントを見つけられるよう、アラートのルールを調整する必要があるということです。

1 年で最も忙しい日にサービス停止が発生した

問題は修復していたものの、他の理由により、まだロールアウトしていなかった

天候が原因で停電が発生した

不運だった点過去の障害や実験により、本番環境にさまざまな矛盾が生じていた。それが適切に処理されておらず、本番環境の状態を判断するのが困難だった。まとめ* この投稿は米国時間 11 月 27 日、Customer Reliability Engineer である Adrian Hilton と Gwendolyn Stockman によって投稿されたもの（投稿はこちら）の抄訳です。- By Adrian Hilton and Gwendolyn Stockman, Customer Reliability Engineers

優れた SLO を策定するには : CRE が現場で学んだこと

2017年11月8日水曜日

CRE シリーズSLO、SLI、SLA について考えるSRE 本 SLO の意義SLO はサービスレベル契約（SLA）ではない

SLO は、チームがやるべきことについて意味のある疑念を解決する便利なツールとなります。「この課題には絶対取り組まなくては」ということと、「この課題には取り組まなくていいかもしれない」ということの間に線引きすることこそが目標なのです。したがって、SLO のターゲットを必要以上に高く設定しないようにしましょう。現在たまたまその目標値を満たしているとしても、いったん設定してしまうと今後何か変更する際に柔軟性が損なわれるおそれがあります。たとえば、信頼性を犠牲にしても開発速度を上げるべきかということを考える際に、柔軟性が制限されてしまうのです。

SLO にクエリをグループ分けするときには、特定の製品要素や内部実装の詳細ではなく、ユーザーエクスペリエンスによって分けましょう。たとえば、ユーザーの行動に対する直接的なレスポンスは、バックグラウンドや付随的なレスポンス（サムネイルなど）とは別の SLO にグループ分けすべきです。同様に、（製品を閲覧するというような）「読み込み」の操作は、（精算するという操作のように）頻度は低いものの、より重要な「書き込み」の操作とは別グループに入れるべきです。それぞれの SLO においては、可用性やレイテンシの目標値が異なります。

SLO の範囲と、それがどこまでをカバーするのか（どのクエリ、どのデータオブジェクトまでをカバーするのか）、さらにはどういった条件で SLO が提供されるのかを明確にしておきましょう。無効なユーザーリクエストをエラーとして数えるのか数えないのか、また、あるクライアントから多数のリクエストを送られるといったスパムに見舞われたらどうするか、ということについても検討してください。

最後に、上記内容とは若干綱引きの状態になってしまいますが、SLO は簡潔かつ明確なものにしておきましょう。SLO では、本当に気になる部分を曖昧にするのではなく、重要でない操作までカバーしないようにするほうがよいのです。規模の小さい SLO で経験を積んでください。まずはリリースして繰り返すのです。

SLO の例可用性可用性 :可用性 :可用性 :レイテンシレイテンシ : レイテンシ : パーセンテージの理由 100 % の場合は話が別リスクを容認 SLO のレポートSLO 四半期サマリーの例

SLO

目標値

第 2 四半期

第 3 四半期

ウェブの可用性

99.95 %

99.92 %

99.96 %

モバイルの可用性

99.9 %

99.91 %

99.97 %

レイテンシ 250 ミリ秒以下

50 %

74 %

70 %

レイテンシ 3000 ミリ秒以下

99 %

99.4 %

98.9 %

まとめSRE 本* この投稿は米国時間 10 月 23 日、Customer Reliability Engineer である Robert van Gent と Stephen Thorne、および Site Reliability Engineer である Cody Smith によって投稿されたもの（投稿はこちら）の抄訳です。- By Robert van Gent and Stephen Thorne, Customer Reliability Engineers and Cody Smith, Site Reliability Engineer

SRE との “壁” を取り除くには : CRE が現場で学んだこと

2017年7月24日月曜日

パート 2パート 1 サポート担当の準備

教育 : 技術トークや討論会、“Wheel of Misfortune”（不運のルーレット）のシナリオなどを通じて、新サービスをチームの他のメンバーに紹介する。

ページャー担当を少し体験 : 1 週間にわたって開発者とページャーを共有し、アラートごとにその重要度（ユーザーに影響を与える問題がサービスで発生していることを示すアラートかどうか）と、対応の可能性（オンコール担当者が問題を根本的に解決するにあたって明確な方法があるかどうか）を評価する。これにより、SRE チームはサービスの運用負荷がどれくらいなのかを定量的に測定できる。

オンコールの同時担当 : オンコールの第 1 担当者である開発者と SRE を同時に呼び出します。この段階での緊急対応の責任者は開発者だが、開発者と SRE は協力してデバッグや問題解決に努める。

成功かどうかの判断基準Q : サービスのサポートを SRE に引き継ぐためにさまざまな努力をしてきました。時間を割く価値があったのかどうかをどうやって評価するのですか？

呼び出しの数や停止の数が絶対的に減少した。

（拡張中の）サービスの規模や複雑さに比べて、呼び出しの数や停止の数の割合が減少した。

グローバルにデプロイする新コードのテストに合格した時点から、時間や労力が減少し、ロールバックの比率は変わらない（または減少している）。

（CPU、メモリ、ディスクなどの）予約済みのリソースを活用することが増えた。

ページャー担当を引き継ぐQ : すばらしいですね。これで開発者はページャーの電源を切ってもいいんですよね？ページャー担当を元に戻すという究極の選択

S1 の変更率を減らし、S1 の呼び出し率を以前の値にまで下げる。

S1 のアラートを調整し、ほとんどのアラートは呼び出しがかからないようにする。

S2 と S3 のサービスについては SRE を担当から外し、全体の呼び出し率を一定に保つ。

S1 のサポートから SRE を外す。

SRE チームと開発チームの融合まとめ* この投稿は米国時間 7 月 7 日、Customer Reliability Engineer である Adrian Hilton によって投稿されたもの（投稿はこちら）の抄訳です。- By Adrian Hilton, Customer Reliability Engineer

SRE へのサポート移行で失敗しないために : CRE が現場で学んだこと

2017年7月19日水曜日

パート 1 サポート移行前のレビュー Q : SRE がサポートを担当したほうがよいと思われる新しいアプリケーションがあります。とりあえず SRE チームに渡して、「はいどうぞ。これからこのサービスを担当してください。がんばってね」と言えばよいのでしょうか？Customer Reliability Engineering

SRE entrance review（SRE による事前レビュー）: 開発者がサポートしているサービスを SRE チームが担当すべきかどうか、また担当するにあたっての条件は何かを SRE チームが評価する。

SRE onboarding/takeover（SRE への担当引き継ぎ）: SRE チームがサービス運用の第 1 責任者となることに開発チームと SRE チームの双方が原則として合意し、SRE への移行に備えて詳しい条件の交渉を始める（いつ、どのような形で SRE がサービスのサポートを開始するか、など）。

開発者はサービスのサポートを誰かに任せ、できるだけうまく稼働させたいと考えています。サービスが適切に稼働しているとエンドユーザーに感じてもらいたいためです。うまく稼働していなければ、ユーザーは別のサービスに移ってしまいます。

SRE チームは、サポートしにくいサービスを押しつけられたわけではないことを示したいので、稼働中のサービスをより使いやすく強固なものにしたいと考えています。

企業の経営陣は、開発に時間をかけすぎない範囲で、サービスの停止といったみっともない事態の回数を減らしたいと考えています。

SRE による事前レビュー

SRE チームがサポートを担当することでどのような効果が見込まれるかを評価する。

SRE チームが担当する際に障壁となるようなサービスの設計、実装、運用上の欠陥を特定する。

SRE チームがサポートを担当したほうがよいという結論に至った場合、サポートを担当する前に修復しておくべきバグやプロセスの変更、サービス上必要な動作などを特定する。

サービスレベル目標

どんなサービスなのか。

日々サービスがどのように稼働しているか（トラフィックの変動、リリースの数、実験管理、設定のプッシュ配信など）。

サービスはどういった状況下で停止する傾向にあるのか、それがどのようにアラートで示されるのか。

モニタリングやアラートの粒度は均等に保たれているか。

サービス設定において SRE チームのやり方と異なる点があるか。

サービスにおける重大な運用リスクがあるか。

サービスが SRE チームのベストプラクティスに沿っているか、もしそうでない場合はどうやって改良するか。

サービスをどのようにして SRE チームの既存ツールやプロセスと統合するか。

望ましい関与モデルと、SRE チームと SWE チームの責任分担はどうあるべきか。稼働中に重要な問題が発生してデバッグする際に、オンコール担当の SRE はどの段階で開発チームのオンコール担当を呼び出すべきなのか。

SRE への担当引き継ぎ実在するバグ信頼性自動化モニタリング / アラートTreynor

タスクの再スタートやディスク容量が 80 % に達したなど、本質的に重要でないことでもページャーが鳴ること。こうした場合、（重要でないものは）ページャーをバグと見なすか、完全になくしてしまいましょう。症状ベース（ユーザーが実際に問題に直面している、など）でモニタリングすれば、この状況は改善できます。

小規模なインシデントや停止によって多くのアラートが発生し、ページャーの嵐に見舞われること。1 つのインシデントに関連するアラートは単独の障害としてグループ化し、システム停止の指標を明確に把握しましょう。

システムが真の問題を数多く抱えていること。このようなケースでは、すぐに SRE へと担当を変更することはないと考えられます。ただし、問題の根本的原因を診断し、解決することを SRE が支援できるかもしれません。

ロードシェディングやリリースプロセス、設定のプッシュ配信など、標準的な SRE ツールやプラティクスをサービスに統合する。

開発チームの知識に依存しすぎないよう、戦略を充実させ改善する。

サービスの設定を SRE チームの一般的な言語やインフラに合わせる。

スムーズな移行に向けて* この投稿は米国時間 6 月 29 日、Customer Reliability Engineer である Adrian Hilton によって投稿されたもの（投稿はこちら）の抄訳です。- By Adrian Hilton, Customer Reliability Engineer

SRE のサポートを受けるべきアプリとは？ : CRE が現場で学んだこと

2017年7月7日金曜日

編集部注 : 社内で多くのアプリケーションやサービスが稼働するようになると、SRE（や運用）チームのサポートが追いつかないケースが出てきます。今回の『CRE が現場で学んだこと』シリーズでは、企業内のアプリケーションやサービスの中で何を SRE にサポートしてもらうかを、うまく原則に基づいて防御的に決める方法について見ていきます。Q : どうすれば自社の SRE チームが限界に達しているとわかるのですか？どうすればサポートすべきアプリケーションをうまく選べるのでしょう？ SRE チームはいつアプリケーションのサポートを止めるべきなのでしょうか？SRE によるサポートの実質的な限界Q : エンジニアが 12～16 人いれば、開発チームが作成したアプリケーションすべてを確実にサポートできることになりますよね？

サービスがきちんと稼働し続けるために必要な通常の運用タスク。たとえば、リリース、バグフィックス、緊急性のないアラートやバグなどがこれに相当します。自動化することで、こうしたタスクは（なくすことはできないものの）軽減できるでしょう。

予定外で重要度の低いリクエストによる「割り込み」。これを減らそうと努力しても無駄であることがわかっています。一番効率的な対処法は、頻繁にやって来るリクエストの 50～70 % をセルフサービスツールに任せることです。

緊急アラートへの対応、インシデント管理、その後のフォローアップ。これらに割く時間を減らす一番の方法は、サービスの信頼性を高め、アラートの精度を調整することです（アラートが発動したときは、サービスで実際に起こっている問題をきちんと示すようにするとよいでしょう）。

Q : 6 週間のうち 4 週間は SRE が運用作業を行っていないことになります。その時間を使って、SRE チームがサポートするサービスの量を増やせないでしょうか？SRE のサポートに限界が来たらどうするのかQ : では、開発者に作ってもらいたいと考えている次のアプリケーションの扱いはどうしましょう？現在のアプリケーションをサポートすることで手一杯なのではないですか？どのアプリケーションをサポートするべきかQ : いい考えだと思います。つまり、ビジネスへの影響度に応じて優先順位を付ける方法が常に正しいということですよね？

モニタリングと測定基準 : たとえば、レスポンスのレイテンシ、エラー、未対応となっているクエリの率、リソースの利用率がピークに達しているかどうかなどを検知することです。

緊急対応 : 交代でオンコールに対応することや、トラフィックが落ちたことの検知、第 1 担当者や第 2 担当者およびエスカレーション、作戦を練ること、“Wheel of Misfortune”（不運のルーレット）などです。

キャパシティプランニング : 四半期ごとの予測や、突然の持続的なスパイクへの対応、稼働率向上プロジェクトの実施などです。

サービス速度の上げ下げ : さまざまな場所で稼働しているサービスの場合、（エンドユーザーのレイテンシを低減するなどの理由から）場所に応じて対応速度を上げたり下げたりするスケジュールの計画を立て、そのプロセスを自動化することでリスクや運用負荷を軽減させます。

変更管理 : カナリアリリース、1 % experiments、ローリングアップグレード、不具合発生時の迅速なロールバック、エラーバジェットの査定などです。

パフォーマンス : ストレステストや負荷テスト、リソース利用の効率性監視と最適化のことです。

データの完全性 : 再構成できないデータを、読み込み時に復元性かつ可用性の高い状態で保存しておくこと。これには、バックアップから迅速に復元できるようにすることも含まれます。

* この投稿は米国時間 6 月 23 日、Customer Reliability Engineer である Adrian Hilton によって投稿されたもの（投稿はこちら）の抄訳です。- By Adrian Hilton, Customer Reliability Engineer

カナリアのおかげで命拾い : CRE が現場で学んだこと

2017年4月18日火曜日

前回の投稿

Photo taken by David Carroll

John Scott Haldaneロールバックが安全に実施できるクライアントでのカナリアリリース

ごく少数のユーザーにだけ新バージョンをデプロイするにはどうすればよいのか。

新バージョンがクラッシュを繰り返したり、トラフィックを落としたり、ユーザーエラーを表示したりしたときは、どうやって検知するのか（クエリが発生していないことに対するモニター音はどうするのか）。

アプリケーションパッケージファイルウェブクライアントAndroid APK のリリース段階的にロールアウト

更新の対象となるユーザーが、実際にいつ更新を確認するかはわかりません。ユーザーが適切にネット接続できる状況にあれば、通常は 24 時間以内でしょう。ただ、携帯電話や WiFi データサービスが低速だったり、バイト単位の費用が高額だったりするような国では、そうとも限りません。

ユーザーがモバイルデバイスで更新を許諾するかどうかもわかりません。特に新リリースにおいて追加の許可が必要な場合は、ここが課題となります。

リリースの割合を段階的に増やす

（カナリアの）最初の段階では、監視やロギングによって問題が明確になるように十分なトラフィックを生成する必要があります。ユーザー数がどれだけなのかにもよりますが、だいたい全ユーザーの 1 % ～ 10 % 程度と考えるとよいでしょう。

各段階で手動の作業が数多く発生し、全体のリリースは遅れます。1 日 3 % ずつ段階的に作業すると、完全にリリースするまで 1 か月かかります。

一気に割合を増加させると（たとえば 10 % から 100 % にするなど）、小規模なトラフィックでは生じなかったトラフィックの大問題が発生する可能性があります。こうした懸念がある場合は、各段階で更新をかけるユーザー数を 2 倍以上増やさないようにしましょう。

新バージョンに問題がないときは、大半のユーザーにすぐにでも使ってもらいたいと考えるのが普通です。ロールバックする場合は、新しいリリースを出すときよりも 100 % 速くロールバックするようにしましょう。

トラフィックのパターンは、通常は日中に最も混雑するなど 1 日を通して変化するものです。そのため、リリース後のトラフィック負荷のピークを把握するには、最低でも 24 時間が必要です。

モバイルアプリの場合、ユーザーが新リリースを取り入れ、有効にして使い出すまでに時間がかかると考えましょう。

段階的アップデート

まとめ

ロールバックは早期に行い、頻繁に行うこと : この哲学に従うようにサービスを持っていけば、サービスの平均修復時間（MTTR）を削減できます。

ロールアウトではカナリアを使うこと : どれだけテストや QA を実施したとしても、実稼働のトラフィック上でバイナリリリースに問題が見つかることは少なくありません。効果的なカナリア戦略を取り入れ、正しく監視することで、問題の平均検知時間（MTTD）が短縮でき、影響を受けるユーザー数も大幅に削減できます。

* この投稿は米国時間 3 月 31 日、Customer Reliability Engineer である Adrian Hilton によって投稿されたもの（投稿はこちら）の抄訳です。- By Adrian Hilton, Customer Reliability Engineer

信頼性の高いリリースとロールバック : CRE が現場で学んだこと

2017年4月10日月曜日

編集部注 : サービス停止の原因としてよくあることの 1 つに、サービスバイナリの新リリースが挙げられます。どれだけテストや QA をきちんと行っていても、一部のバグは、その影響を受けるコードが稼働するまで表面に出てこないものなのです。Google の Site Reliability Engineering（SRE）チームは、リリースに起因するサービス停止を長きにわたって数多く見てきており、今ではすべての新リリースに 1 つ以上のバグが含まれていると考えています。

新しいリリースが実際にいつ壊れたのかを把握する

壊れたリリースから、修正された「であろう」リリースへとユーザーを安全に移行させる

最初の段階で壊れたリリースの影響を受けるクライアントの数を抑えるようにする（「カナリアリリース」を実施する）

nginxSRE の書籍Hierarchy of Reliability検知あるないロールバック

簡単に実行できる

低リスクであると確信できる

ロールバックのテスト互換性のない変更

バイナリ v+1 をリリースする

データベースのスキーマをアップグレードする

バイナリ v+2 をリリースする

まとめ* この投稿は米国時間 3 月 24 日、Customer Reliability Engineer である Adrian Hilton によって投稿されたもの（投稿はこちら）の抄訳です。- By Adrian Hilton, Customer Reliability Engineer

Google Cloud Platform Japan Blog

SRE チームの評価に役立つレベル別チェックリスト

Stackdriver IRM のリリースと新たなパートナーシップ ―― インフラストラクチャのさらなる信頼性向上を目指して

クラウド時代のトラブルシューティング : 解決に役立つプロバイダーとのコミュニケーション（前編）

エスカレーションポリシーの適用 : CRE が現場で学んだこと

SLO のエスカレーションポリシー : CRE が現場で学んだこと

SLO 違反への対処 : CRE が現場で学んだこと

事後分析を外部と共有することの意義 : CRE が現場で学んだこと

優れた SLO を策定するには : CRE が現場で学んだこと

SRE との “壁” を取り除くには : CRE が現場で学んだこと

SRE へのサポート移行で失敗しないために : CRE が現場で学んだこと

SRE のサポートを受けるべきアプリとは？ : CRE が現場で学んだこと

カナリアのおかげで命拾い : CRE が現場で学んだこと

信頼性の高いリリースとロールバック : CRE が現場で学んだこと

12 か月間のトライアル

Labels

Archive

Feed

Company-wide

製品・サービス

デベロッパー