運用じゃない人にわかって欲しい運用の話
sunnyと申します。サーバ運用チームの運用をやっています。糖質制限ダイエットで3キロ痩せました。
9年程サーバ運用に携わっていますが、運用を業務にしている人とそうでない人のギャップのようなものを感じることがあり、それについて書きたいと思います。
運用ってなに
“運用”を初めに定義をしたいと思います。本記事で扱う”運用”は弊社フルマネージドホスティングサービス(以下FMH)のシフト業務を指すこととします。そもそもFMH is 何という方は、こちら を参照頂ければ幸いですが、かいつまんで言いますと 24時間365日オンプレのサーバを守るサービスです。特徴としてはお預かりしているお客様のサーバの rootアカウント(管理者権限) を弊社で保有してサーバ内で起こりうる全ての事柄に対してサポートをさせて頂くことです。サービス開始当初は「お客様がシステム管理者を採用する必要はありません」というようなコピーがあった気がします。今となっては他社でも同様のサービスが多く存在するようですが、事業立ち上げ当初は「ホスティング会社がrootを保有するなんて…!」というセンセーショナルなサービスだったようです。
そんなFMHですが常に5名前後の運用チーム(自社インフラエンジニア)と協力会社2〜3名が常駐することで業務を回しております。主な仕事としては以下のものがあります。
- 監視システムによるサーバ監視
- サーバ不具合/障害の対応
- お客様からのメール/電話でのご相談対応
- アプリケーションの導入/チューニング
これらの業務を24/365で遂行することを”運用”と定義します。
運用は止まれない
今はほぼ現場を離れていますが、この運用を7年間やっていました。そして少なくとも私が入社してから今の今まで対応する人間が居ない時間は1秒たりとも存在していません。今この時も常に誰かしらのエンジニアが数千に及ぶサーバで発生しうる障害や、多数のお客様の要望に対応するために構えています。なぜそうする必要があるかというと、もちろんサーバの障害はいつ発生するかわからないですし、お客様の希望に常に応える必要があるためです。
ハードウェアの故障はもちろんのこと、お客様が誤って削除してしまったDBデータの復旧、予期せぬアクセス過多、発見される脆弱性。耐障害性を考慮した環境構築や防止策など設計で対応することも実施してはいるものの、それでも障害は発生します。100%発生する事象を予測することは不可能です。そのためインターネットが今日も動き続けている以上、運用は止まることはできません。運用が止まるときは24時間営業のコンビニエンスストアがシャッターを下ろすときと同じ、つまりFMHというサービスが終了する時のみです。一方で運用に携わるスタッフが0になっても強制的にサービスが終了します。そのためインフルエンザなどの感染症が運用チームで流行してしまう=サービス継続の危機となるため、冬場は加湿を行うなどオフィス環境の整備も充実させなくてはなりません。
運用の責任は成果でなく時間
(※これから述べる事柄は障害やご要望に対処できるフローや手順といった業務環境、またある程度の障害予測が出来ている上、さらに相応の技術力をスタッフが有していることが前提です。)
前述のとおり運用は止まる事が出来ません。私はこのような運用に従事するスタッフの責任は”時間”にあると考えています。プログラマのように何かを開発したりですとか、営業のように売上の数字をあげることではなく、運用スタッフはただデスクに座って目に見えない何かに備えることこそが、最大の仕事の責任であるということです。これが今回私のもっとも伝えたかった”運用じゃない人にわかって欲しい運用の話”になります。
FMHの運用チームは基本的に会議がありません。ありませんと言いますか、出来ないというのが正しいのです。時折、他部署のメンバーがなんとなしに運用チームのスタッフに「ちょっと時間ありますか」と仕事の相談しようと話しかけて「無いです」と一蹴される場面を見かけますが、その時間にそこに居て備えることが責務なので当然といえば当然なのです。時間をとられては職務を全う出来ないのです。そのため運用に関わる周知事項や課題などは私の所属する”運用チームの運用チーム”が取りまとめて、他の部署と連携を取るように基本的にはなっていたり、後からでも参照可能なslack等のテキストコミュニケーションを活用しています。
少し極端に書いたかもしれませんが、運用とはこのような仕事であると運用じゃない人にご理解頂ければ幸いです。
運用のやりがい
ここまでの話だと運用がとてもストイックと感じられてしまいそうなので、運用のやりがいについて述べさせて締めたいと思います。FMHのサービスは前述のとおり、お客様のサーバのrootアカウントを弊社で保有させて頂いているため、ホスティングさせて頂いている当社側のサーバー管理権限の制約がありません。そのため、調査範囲もお客様のサーバの全体となっています。そんな環境だからこそ、未知の障害や難しいご要望に対して、最適な対応方法を少ない時間の中、頭の中で描けた瞬間と、またそれがうまく解決に導けた時にエンジニアとしてのやりがいを感じることができるのです。もちろんチームで動いていますので、1人でどうしようも無くなった際もエンジニア同士で相談しあい問題を解決した場合は、また違ったやりがいを感じることもあります。
テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!
Follow @twitter2007年に未経験で入社。LANケーブルを作成するところから始め、今はサーバ運用の業務設計や企画をしています。休日は2次元アイドルのライブも行ったりアニソンでDJをしたりしています。
Recommends
こちらもおすすめ
-
事例でわかる!AWS利活用の勘所~移行と運用最適化~ セミナー開催レポート
2019.8.19
Special Topics
注目記事はこちら
データ分析入門
これから始めるBigQuery基礎知識
2024.02.28
AWSの料金が 10 %割引になる!
『AWSの請求代行リセールサービス』
2024.07.16