インフラエンジニアについて調べる

達人が語る,インフラエンジニアの心得(全23回)

http://gihyo.jp/admin/serial/01/eng_knowhow

 第1回は、トラブルコールの心構えの話。インフラの担当者なので障害発生時は電話がかかってくるみたいだ。障害対応は自分の成長のチャンスだとポジティブに捉えて成長できれば、だんだん余裕も出てくるみたい。ネガティブに捉えると対応が雑になったり、障害対応能力の向上も望めなかったり、睡眠不足も相まって、逃げてしまう・・・という状況も容易に想像できる。だからこそ第1回に大切なこととして書いてあるんだと思う。

 第2回は、トラーブルコール対応の実際的な話。fsckというLinuxコマンドを初めて知った。ファイルシステムチェックの略かな。ファイル・システムの検査と修復を行うコマンドらしい。えらいざっくりとした説明だ。もちろん万能ではないので修復前にはバックアップしましょうとのこと。サービスを復旧するためには「原因を突き止めるスキル」と「解決するスキル」が必要とのこと。プログラムの障害対応と似てる。プログラムの場合はログを追う..ということはあまりなく、状況から原因を推測してローカル環境で試すということが多かった気がする。人数が多いプロジェクトだと問題の切り分け、担当の割り当て、という流れだったかな。障害票みたいなのを発行してたな。今はバックログとかRedMineとかが主流なのかな。dfコマンドでファイルシステムの使用量や空き容量を調べられるらしい。原因はすぐわかることの方が多いらしい。うん、これもプログラミングと同じだ。障害対応を究めてくるとなぜか障害の原因を思いつくという領域に達するらしい。空間的思考と書かれているが、それは単に言語化のプロセスを省いているだけな気がする。うまくいくと気持ちが良いがPDCAサイクルが回らなくなるので、非常によくない状態だと思う。自分もそういう癖があるのでわかる。トラブル対応の時に身に着けると役に立つ武器としてtcpdumpとstraceが挙げられている。パケットとシステムコールの流れを見るコマンドらしい。良く分からないけど、武器ってなんんか憧れる。スキルよりも集中力、責任感、ゾーンに入る感覚、トラブル解決への執念みたいなものが大事らしい。トラブル解決は大好きなので、わりと向いてるかもしれない。