株式会社CaSy
障害対応の迅速化と費用対効果のバランス。運用自動化の最適解

株式会社CaSy
代表取締役COO 池田裕樹 様
システム開発部 ご担当者 様

- 株式会社CaSy
- 情報通信業
- 株式会社CaSy(カジー)は、「時間」が欲しいユーザーとサービス提供者を結び、家事支援サービスを展開しています。創業当初からITマッチングを活用し、ユーザーインターフェースから業務運営までを一貫してデジタル化。最短3時間後の利用・1時間2,790円〜の低価格を実現し、誰もが安心・手軽に使える仕組みを構築。2022年には業界初の上場も果たしました。
導入理由障害対応の即時性向上を低コストで実現
御社の事業内容と、ご担当者様の業務内容について教えてください。
弊社CaSy(カジー)では、家事代行サービスを展開しています。具体的には、家事代行を依頼したいユーザーと、サービス提供者である「キャスト」さんとをマッチングするプラットフォームの運営です。
私はエンジニアとして、サーバーサイド・フロントエンド問わず、全体的に開発・運用に関わっています。
ロボシュタインを導入された背景を教えてください。
昨年末にインフラ障害が連続して発生したことを受け、障害対応の体制を見直す必要性を強く感じました。
当時はSlackによるワンショットの通知のみで対応しており、特に深夜や休日などの非稼働時間帯では通知に気づきにくく、対応が属人化しているという課題がありました。
実際に対応が5〜6時間遅れるケースも発生しており、インフラ障害に対する一次対応の即時性を高める必要があると痛感した次第です。
サービスの選定にあたって、どのような点を重視されましたか?
本課題への対応策として「オンコール」の導入が有効だと考え、Web検索を通じて関連するキーワードで調査を行いました。
その結果、ロボシュタインを含む複数のサービスが候補として挙がり、その中からWebサイトの分かりやすさや情報の取得をしやすい5社の製品を比較検討したうえで最終的には2社に絞り込みました。
2社の中からどのような理由でロボシュタインを選定されたのでしょうか?
正直に申し上げると最重要視したのは価格です。
比較対象のもう一方のサービスはマニュアルを見た限りではエンジニアフレンドリーな印象がありましたが、我々の要件に対する価格面ではロボシュタインに劣っていました。
自動化したい内容についてはそこまで複雑なものではないので、費用対効果の観点から価格の優先度が高く、まずはロボシュタインをトライアルし、機能や使用感に問題がなければ本導入、もし期待に合わなければもう一方の製品を再検討する方針を取りました。
ロボシュタインのトライアルを実際に試された際の印象はいかがでしたか?
オンラインマニュアルが整っており、検証時のサポートの対応も丁寧だったので、導入は非常にスムーズに進みました。今回は「障害を検知したら輪番制で電話通知を行う」という比較的シンプルなユースケースだったこともあり、迷うことなく設定ができました。
導入効果深夜障害時の即応性向上と、確実なアラート通知体制の構築
実際にどのような自動化を実現されたのか教えてください。
弊社のインフラはAWSを利用しており、AWS CloudWatchでメトリクスを監視しています。閾値を超えるとアラートが発生する仕組みです。
ロボシュタイン導入後は、このCloudWatchのアラートをロボシュタインが受け取り、あらかじめ設定したルールに従って、緊急度の高いものをフィルタリングし、エンジニアに電話で通知する仕組みを構築しました。ロボシュタイン設定の学習コストが高くなかったため、非常にスムーズに構築することができました。
この仕組みにより、輪番制で24時間365日対応可能な体制を実現できました。
通知件数としてはどの程度ですか?
電話通知は月5~10件以内に収まる程度です。
ロボシュタインには1日に20件程度アラートメールが届くこともありますが、すべてを電話通知にせず、緊急度に応じて通知の有無を設定しています。通知の取捨選択ができることで、必要なものだけをエンジニアに確実に届けられるのが大きな利点です。
導入前後での変化を教えてください。
最も大きな変化は、深夜の障害発生時に即対応が可能になったことです。
以前は障害に気づかず、5〜6時間放置されるケースもありましたが、導入後は即時に電話がかかってくるため、すぐにサーバーの調査と対応に入れるようになりました。現在はすでに本番環境での運用にも活用しており、安定した対応体制を実現できています。
展望スクリプト連携による一次対応の完全自動化を目指して
今後の展望がございましたらお聞かせください。
現在、「部署の社員のアラートに対する感度を高めること」と「一次対応の自動化」の2点に取り組みたいと考えています。
まずは、アラートに誰かが必ず気付けるという状態を確立することを目標としております。
さらに、その次の段階として「一次対応の自動化」も構想しています。たとえば、特定の障害に対してはスクリプトによる自動リカバリが可能なので、そうした対応をロボシュタイン経由で自動実行できれば、さらなる運用の効率化や属人化の解消につながると考えています。