【土日・深夜確定?】システムエンジニアのリリースが地獄な話

皆さんシステムエンジニアってどんな仕事をしているイメージでしょうか。謎のコードを書いて、アプリを作っているイメージでしょうか。
システムエンジニアと言っても設計を行う人、開発を行う人、試験をする人、スマホのアプリを作る人、企業が使うアプリを作る人など仕事内容はさまざまです。そんなアプリを作るシステムエンジニアに共通して発生するのが作成したアプリのリリースです。このリリース作業はシステムの規模や内容によってはとても大変で、特に問題が起きた時は地獄です。私もついこの間システムのリリースを行ったのでその時の話を踏まえて、システムエンジニアには地獄の数日間があるという話をしたいと思います。

システムのリリースって?

そもそもシステムのリリースとは何でしょうか。
皆さんになじみのあるスマートフォンのアプリで説明すると、アプリがアップデートするために特定の時間繋がらなくなり、アップデートが終わったら新しい機能等が増えていると思います。その繋がらない時間に実施しているのがシステムのリリースです。
そしてシステムのリリース後は最も障害が発生しやすい状況になります。皆さんもアプリのアップデートを行った直後に操作したら挙動がおかしい、うまくつながらないという体験をした事があると思います。この時、システムエンジニアがこのシステム障害を直すために深夜や休日を返上して対応を行うわけです。
私はこの前、某会社の業務システムのリリースを行いました。某会社に依頼されて私の会社でシステムを作っているのですが、そのシステムをリリースし某会社の人が使ったら障害が発生しました。その際、システムエンジニアはどのような対応を行うのか次の「障害が起きたらどうなる」編でお話しします。

障害が起きたらどうなる

ここでは実際に障害が起きたらどうなってしまうのかお話ししたいと思います。私の実体験ですがシステムの規模や用途、顧客などさまざまな要因で変わってくる話なのであくまで1例としてお聞きください。

①障害発生直後
私が作っているシステムにはシステム動作時のログ取得機能があります。そこでエラーが起きた場合は特定のログ(エラーログ)が出力されるのでそれを監視してエラーが発生したらその原因を調べます。ログを調べた結果、システムの障害と特定できた場合は障害対応を行います。システムの障害でない場合(ユーザーの不正操作等)もありますので切り分けは必要です。
ログ以外にもシステムの挙動が想定と違うなどの問い合わせを受けることもあります。この問い合わせで障害が発覚することもあります。(スマホアプリで言うと、ユーザーである私たちが使っておかしな動きをしているという問い合わせ)

②障害対応
障害の原因が判明したら障害対応に入ります。
障害対応は即日対応や週末対応、次回リリース時対応などの判断によってスケジュールが変わってきます。もちろん即日対応はその日のうちに対応するので一番きついです。私の現場で発生した今回の障害対応は即日対応となったので、その日のうちに障害個所の修正、試験、リリース、リリース後の確認まで行いました。これはかなりきついですし、現場もピリピリします。

③障害報告
ここは②の障害対応と並行して行うことが多いです。私が開発しているシステムは実際に使用しているお客さん(某会社)がいるので、お客さんに障害の報告を早々に行います。報告した結果、即日対応や週末対応などの判断がされますのでそれに合わせて②障害対応を行います。
障害報告には一次切り分けや速報版、確定版など会社によってさまざまです。最終的には確定版として資料にまとめて報告するのは一緒かなと思います。

まとめ

システムによってリリース対応やその後の障害対応はさまざまですが、システムエンジニアには切っても切り離せない作業です。システムの規模によっては本当につらい数日間が待っていることがありますので、システムエンジニアを目指す皆さんは頭に入れておいてほしいです。
また障害は複数同時に起こることも良くあります。そうなったときはもう。。。

スポンサーリンク

コメント

タイトルとURLをコピーしました