アマゾン、トモダチ。って、仮面ライダーファンの皆さんこんにちは。アマゾン見てませんでしたごめんなさい。
オンラインショッピングサイトのAMAZONが、サーバの誤作動か何かでほぼ丸一日アフィリエイトの人に30分毎にメールを送り付ける状態になっていたとか。
u-kiさんの日記で知ったのだが、ほぼ一日放置ってのは尋常でない。ポートを閉じる、デーモンを殺すなど、対応策はいくらでもあったはずだが、内部動作の関係で止めるに止められなかったのか。
もっとも、通信網管理の世界では、24時間365日の安定性を要求されるものの、「特定の機能だけ止めること」は意外と難しい。特に、システムを構成する一部のプロセスがダウンした場合、無理やり再開させて「落ちない」作りになっているので、今回のアマゾン(変換したらamazon.co.jp/が出た。びっくりしたな、もう。)の事例で慌ててメールデーモンを殺したとしても、こうしたプラットホームだと何回でも生き返ってしまう。マシンの電源をぶっつり行っても、別系統のサーバが立ち上がってしまったりする。
リスク管理の観点から、昔の機械には赤いボタンがついていたものだ。いわゆる緊急停止ボタン。何が起きたとしても、このボタンを押せば、とりあえず沈黙する最終兵器。クラスタリングされ、あるいはネットワーク上に予備系がスタンバイし、あるいは分散オブジェクトとしてどこで実体が動いているのかすぐには判らないような高信頼システムが信頼に欠ける動作をはじめた場合の緊急停止ボタンを、どうやって用意するべきか、ちょっとだけ考えさせられた。
オンラインショッピングサイトのAMAZONが、サーバの誤作動か何かでほぼ丸一日アフィリエイトの人に30分毎にメールを送り付ける状態になっていたとか。
u-kiさんの日記で知ったのだが、ほぼ一日放置ってのは尋常でない。ポートを閉じる、デーモンを殺すなど、対応策はいくらでもあったはずだが、内部動作の関係で止めるに止められなかったのか。
もっとも、通信網管理の世界では、24時間365日の安定性を要求されるものの、「特定の機能だけ止めること」は意外と難しい。特に、システムを構成する一部のプロセスがダウンした場合、無理やり再開させて「落ちない」作りになっているので、今回のアマゾン(変換したらamazon.co.jp/が出た。びっくりしたな、もう。)の事例で慌ててメールデーモンを殺したとしても、こうしたプラットホームだと何回でも生き返ってしまう。マシンの電源をぶっつり行っても、別系統のサーバが立ち上がってしまったりする。
リスク管理の観点から、昔の機械には赤いボタンがついていたものだ。いわゆる緊急停止ボタン。何が起きたとしても、このボタンを押せば、とりあえず沈黙する最終兵器。クラスタリングされ、あるいはネットワーク上に予備系がスタンバイし、あるいは分散オブジェクトとしてどこで実体が動いているのかすぐには判らないような高信頼システムが信頼に欠ける動作をはじめた場合の緊急停止ボタンを、どうやって用意するべきか、ちょっとだけ考えさせられた。