2004年08月24日
久々にハードな鯖落ち
一部ながらケータイ版復活して1週間、時々重い事があったり私が作業してたりとかがあっても比較的順調に動いていたが、久々にハードに鯖落ち。
原因は、セッション管理等の部分から徐々にPostgreSQLに乗り換えつつあるが、MySQLと違いPostgreSQLは追記式のDBなので、データを「論理的」に削除しても「物理的」には削除されないので、パフォーマンスを維持するには定期的にデータ領域を開放する必要があるにも関わらず、その必要性に気付いていなかったのが原因だ。
頻繁に更新されるセッションテーブルで領域を開放しないまま1週間も運用してれば、そりゃ止まりますわな。
一旦セッションテーブルを空にしようとDELETEをかけても、「論理的」には4000件そこそこしか入っていないのテーブルの全件削除に、完全にWebサーバも落として削除以外の負荷を完全になくしても、20分近い時間がかかったのには泣けてきた。
領域開放にさらに10分。
4000件でほぼ半日分のセッションデータなので、多分1週間分の6万件近いセッションデータの残骸が残っていたのだろう。
合計30分+αくらいは、Webサーバを完全に止めてた。
ここしばらく、負荷で接続しにくくなってたり、更新反映のために再起動かけたりといった事はあっても、Webサーバを止めた事はなかったので、ちょっと悔しかった。
というか、後ろでユーザがイラついているのが判るので、最初はサービスを止めないようWebサーバ動かしつつ作業して、無理だと判ればとりあえずGoogleだけ止めて、それでも無理と判ればWebサーバを止めて…という感じで段階的に簡易な対応で何とかできないか、と探りつつ対応するわけだけど、まあその結果対応にかかる総時間は延びる訳で、本当に焦って焦って生きた心地がしない。
技術のマスターにかけられるお金も時間も限られてるし、完全に問題のない技術を身に付けてから取りかかったのでは何時になるか判らないので、責任の生じる商用サービスでもないという甘えもあって?綱渡り運営するしかないんだけど、今回感じた精神的な焦りで、前の会社でのサービスインしてリアルタイム稼動中システム上での不具合改善デスマーチを思い出してしまった。
あれはきつかった…システムの納入先自体が物理的に遠かった事もあって、鹿児島、滋賀、香川と、3箇所の現場を何日も徹夜泊まり込みで作業しつつ、飛行機での移動中に寝てまた次の現場で徹夜…といった感じの生活が数ヶ月。
動いているシステム上での不具合対処ってのは、ほんとやるもんじゃないね。寿命が縮む。
といったって、「動いている」からこそ「不具合対処」はやらなきゃいけないわけだけど。
しかしそういう「動き始めてからの不具合対処」をしないためにも、「動き始める前」に十分な設計や開発、技術調査の時間やコストをかけなければいけないのは当然なんだが、その辺を判らずに設計・開発・技術導入部分で時間やお金を削るのがコストダウンだと考えている連中はほんとむかつく。
結局そういう連中って、最後にこう言うデスマーチで悲惨な状況になっても、何もできるわけじゃないから見てるだけで何の責任も取らない、ケツ拭くのは結局技術屋だしね。
あーあ。損な役回りっすよ。
Posted with ecto
![[ここギコ!]](http://kokogiko.net/logo.png)



・国連人権委、アイヌ・琉球文化の保護を日本に勧告(ほるほる)
・3Dどきゅめんと…って何?点字文書?(building2008)
・3Dどきゅめんと…って何?点字文書?(building2008)
・Vodafone 3GのUserAgent問題:その後(Igroktectonick)
・GoogleMapsと連動したいならPostGISの他にmysqlという選択肢も出てきた あとジオメディアサミット関西も(okumula)
・人員がクラスタ化できている職場と言うのはうらやましい そろそろ限界です(「ま」のつく人)
・もうAmazonクレジットカードは使いません...楽天カード一本で。(名無し)
・ジオメディア忘年会 新年会から始まり東京1、2、関西と続いたジオメディア2008の締めくくり(ぴかぴか)
・GoogleMapsと連動したいならPostGISの他にmysqlという選択肢も出てきた あとジオメディアサミット関西も(kokogiko)