decobisu記

適当な日々のやっていき

障害対応の話

久しぶりに障害対応な1日だった。

自分はインフラ的なチームにいて、システムでなにか起こるとよく連絡がくる。 大抵はアラート検知の報告から始まり、放っておけば治るような障害もあれば、やばいレベルの障害もある。 「なんか遅いんです」とか「動かないから取りあえずインフラに」みたいな雑な感じで話が来る時もあって、そういうのは問題になっているレイヤーが微妙に違う場合が多い。SQLのチューニングがクソみたいな話から、ネットワークの輻輳による遅延だったり、端末のブラウザのバージョンが古かったり、手続きミスでアカウントが退職扱いにされてたりと幅広いので、もうちょっとなんとかならんのかという事も感じている。

最近、大規模障害の話を良く聞くような気がする。ANAのDB停止とか、GCEのネットワーク障害とか、冗長化組んで色々想定していても起こるときは起こるものなので、何か起きた時には冷静な判断ができるよう精神を落ち着かせることが大事。 新人研修とかで、メンタルヘルスの話をやったことがあるけど軽く流さないでちゃんと学んだ方が良い。熊本地震もあったけど、ずっと地震の情報を追い続けていると精神的にしんどくなってくるので、時折アニメとか見て心を落ち着かせることが大事。

明鏡止水

明鏡止水といえばこれが浮かぶ世代。勝利確定。


我が心 明鏡止水~されどこの掌は烈火の如く