1%の確率で起こるシステム障害

東京 冬の青空

東京 冬の青空

1%以下の確率で起こるシステム障害と復旧を経験した。

事前にサーバー会社の公式マニュアルを読み、Kijiの経験でシステム障害が起きても数分で復旧できると考えていました。
ところが不具合は起きた。そして約90分で復旧できました。

  • サーバー会社の公式マニュアル通りにデータベースをバージョンアップした。似た状況のシステムでも操作を試した
  • 想定する不具合が起きて、公式マニュアル通りに復旧作業したが解決しない
  • 生成AIを利用し最終手段を実践したことでWordPressとホームページを復旧した


過去に経験したことがないシステムのエラーでした。
そして復旧作業は技術書ではなく生成AIを使って行った。
サーバーやデータベースに関する専門用語を理解しながら、地味な作業は続く。

説明を納得しながら実行し、10回以上復旧に失敗。

元の状態に戻しても復旧しないが正直つらかった。
なのでデータベースをバージョンダウンして復旧したのです。
サーバーエンジニアの技術と経験がないので、復旧を優先したわけです。

命に関わるコンテンツが掲載されるホームページなので急いで作業しました。
90分もかかってしまい、準備不足が露呈して申し訳なかったです。
原因もわかったのでこれからシステム刷新を考えます。そして、より安定したシステム運用を実現していきます。

スキルアップ個人レッスン エンジニア きぢ
イラスト きぢ

チームで力を合わせましょう。

自分の成果を上げるスキルアップレッスン by Kiji

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

きぢのイラスト(さとり)