大手小売グループ情報システム子会社
属人化していた監視運用を一本化!”真の”エージェントレス監視製品としてパトロールクラリスを評価
課題各運用担当の属人管理からの脱却
「パトロールクラリス」を導入した背景をお聞かせください。
パトロールクラリス導入前、弊社ではサーバやネットワークの監視がまだ確立されておらず、運用担当者は自分が担当しているサーバーやネットワークをそれぞれZabbixなどのオープンソースを複数使って監視していました。そのため会社全体のサーバ・ネットワーク統合監視というのが以前から課題となっており、それらを一元的に管理できないかということで製品を探していたところ、他社からの紹介を受けてパトロールクラリスの導入検討に至りました。
導入理由他社製品を圧倒的に上回る“真の”エージェントレス監視
「パトロールクラリス」を選ぶ決め手となったポイントを教えてください。
一番の決め手はやはりエージェントレスだった点です。
以前まで利用していたZabbixではエージェントを入れる必要があり、それらを頻繁にアップデートしなければならなず人的工数がかかっていました。アップデートせずに放置している監視サーバもあったので監視レベルをあげることができないという課題もあり、その二の舞にならないようエージェントがないものが良いということで探していました。
その後、検証を実施し、監視性能面でまるで問題がなかったため、パトロールクラリス以外検討することなく導入を決めました。
▲ パトロールクラリスはエージェントのインストール作業やバージョンアップ等のメンテナンスが不要!稼働中のシステムを止めずに導入が可能です。
導入当時はエージェントレス製品はパトロールクラリス以外はあまり見受けられなかったのですが、最近では他社の製品でもエージェントレスを謳っている製品は見受けられますが、他社のエージェントレス製品はよくよく調査すると、一定の監視項目はエージェントが必要な場合もあり、エージェントレスという観点ではやはりパトロールクラリスが一番優れていると感じています。
導入効果既存の監視スクリプトまでも統合したチャット監視
パトロールクラリスを導入して、効果として実感したことがあれば教えてください。
当然の機能といえば当然の機能ですが、細やかに監視ができて、関係者全員が障害状況を把握できるようになったのが一番です。パトロールクラリス導入前は自分が担当している範囲しか見えてなかったという課題があったのですが、パトロールクラリスによる統合監視を実現してからは、何か障害アラートが上がった際は通知が全員に来て、情報共有が密に行えるようになったため、今まで属人化していた運用が改善されました。
監視項目についてはどのようなものを監視していますか?
監視項目に関しては、以前まではそもそも監視が不完全だったので、まず何を監視できていて、何が監視できていないのか、という点の洗い出しから始めました。パトロールクラリスは当時でも50種類を超える監視項目を有しており、その監視項目を見比べて「これも監視したいね」というものが出てきたというような感じです。
対象機器については、全てのサーバはまず基本的なリソース監視を行っています。その他だとチャット監視を活用しています。
チャット監視を使われているのですね。どういった使い方をしているのでしょうか。
自前でつくった監視スクリプトの実行結果を監視しています。
弊社では自社以外にグループ会社のサーバ・ネットワーク監視も行っており、パトロールクラリス導入前は自前で監視スクリプトを作成して監視していたのですが、それを再利用するかたちでパトロールクラリスのチャット監視を利用し、パトロールクラリスの管理画面上で一元管理を行っています。
パトロールクラリスはチャット監視の使い勝手が良いので、何かのスクリプトの動きを監視し、定期的にきちんと動いているかを確認するのによく使っています。
▲ チャット監視・・チャット形式での監視を行います。各OS、ルータ、スイッチ等にログインし、指定されたコマンドの返り値での監視をおこないます。
「パトロールクラリス」について、活用していく上でのご要望などはございますか。
機能面に関してですが、弊社ではお客様環境の監視を行っており、直接アクセスできないサーバーがいくつかあります。そのため直接アクセスできないサーバーに、踏み台を使って監視ができるようになれば、より利便性が上がると感じております。
例えばWebサーバーはインターンネット越しに監視ができるのですが、その下にあるデータベースサーバは監視が出来ないという状態です。
そのため、Webサーバを踏み台にしてデータベースサーバを監視できたらいいなと思っています。
展望アラート対応の省人化から自動化へ
ありがとうございます。今後の開発方針の参考にさせて頂きます。
最後に今後の構想について、お聞かせください。
現在は上がってくるアラートのうち、本格的に人の手で対処しなければならないものが1割~2割ありますが、残りの8割~9割の静観アラートや簡易な対処をどうにか省人化していきたいと思っています。
静観アラートについてはパトロールクラリスの通知機能にエラー無視回数の設定があるのでこれをうまく活用できればと思っています。
弊社では「ロボシュタイン」という運用自動化プラットフォームも開発・販売しており、上がってきた監視アラートの一時切り分けを完全自動化する事例も増えていますので、今後ご提案できればと思います。
ありがとうございます。
アラートの仕分けに関しては、今はアラートの飛んできたメールを見て実際にサーバにアクセスし、状況を見てから判断しています。
省人化以前にそもそもアラートを上げないような設定も必要ですが、省人化に向けては是非コムスクエアさんの運用自動化ソリューションも検討していければと考えています。