Hadoopでデータノードが突然ダウンする障害

Picture large978 4 87311 652 5

取引先でHadoopのデータノードがダウン

取引先のHadoopクラスタにおいて、データノードが突然ダウンする障害が発生しました。
以下のコマンドでDead datanodeのサーバーを検知しました。

Hadoop fsckコマンドの結果

デットノードとなったsn03などで#sudo -u hdfs hadoop fsck /コマンドを実行した結果、以下のようなExceptionが吐かれていました。

Out Of Memoryエラー

datanode03,datanode04でそれぞれOutOfMemoryエラーが発生していることを確認しました。ただし、ログが一部しか取れていないため、各発生事象の行全体のメッセージや、事象発生の正確な時間は不明です。

・datanode03のエラー
以下の行でOutOfMemory(すべてGC overhead limit exceeded)が発生
前後のログから時間帯はおおよそ「2013-09-19 13:31:59,444」~「2013-09-19 15:43:03,223」の間と推測。

対処法

現状ではDatanodeのメモリ量を増やすことによって一時的に問題は解決しました。しかし、なぜ原因が発生したか分からず…。発生バージョンはClouderaのCDH4.3.0です。とりあえず、hadoop dfsadmin -reportコマンドを利用したDataNode生死監視を入れて監視を続けようと思います。