TECH · HOMELAB · PROXMOX

Proxmox の NUC が ramdisk 直後に落ちる — 犯人は熱でも BIOS でもなく AC アダプタだった

Proxmox の NUC が 1 台だけ online から落ち、BIOS は通るのに Loading initial ramdisk 直後に電源が落ちる症状。熱でも BIOS 故障でもなく犯人は劣化した AC アダプタでした。負荷依存の電源断の読み方と切り分けの定石をまとめます。

tech 2026-06-03 25 min read by ちらりんの飼い主
cover · 1024×1024

はじめに

BIOS は通るのに OS 起動の入り口で電源が落ちる。CMOS クリアの直前で、ダメ元の AC アダプタ交換が一発で当たりました。

自宅の Proxmox クラスタ(Intel NUC 3 台構成)で、ある日 1 台だけがクラスタから消えていました。電源ボタンを押せば通電はする。BIOS 画面までは出る。ところが OS 起動に進んで Loading initial ramdisk が表示された直後に、電源がストンと落ちる。これを延々と繰り返していました。

最初は熱暴走か BIOS の破損を疑いました。結論から言うと、どちらも外れです。犯人は劣化した AC アダプタでした。この記事は、その「どこで落ちるか」から容疑者を絞り込んだ切り分けの記録です。


症状 — BIOS は通るのに、OS 起動の入り口で落ちる

クラスタの状態を見ると、3 台あるうちの 1 台が online=0 になっていました。ping も SSH も通りません。物理的に見に行くと、症状はこうです。

  • 電源ボタンを押すと電源は入る(ファンも回る)
  • POST は通り、BIOS 画面までは正常に到達する
  • そこから OS 起動に進み、Loading initial ramdisk が表示された直後に電源がストンと落ちる
  • 再起動がかかり、また BIOS → ramdisk 直後で落ちる、を繰り返す

Loading initial ramdisk というのは、ブートローダがカーネル本体と初期 RAM ディスク(initramfs)をメモリに読み込む段階の表示です。つまり「BIOS は通過したが、OS が本格的に動き出すまさにその瞬間」で落ちている。ここが今回の切り分けの起点になりました。

もう一つの違和感 — 監視欄が消えていた

BIOS 画面をよく見ると、もう一つおかしな点がありました。普段なら表示されているはずの CPU 温度・FAN 回転数の監視欄が、まるごと消えていたのです。

このときの私は、これを見て「BIOS 設定が壊れたか、最悪 BIOS チップ自体が逝ったか」と疑いました。後から振り返ると、この違和感こそが真因を指していたのですが、その時点では別の方向に解釈していました。


切り分けの背骨 — 「どこで落ちるか」が容疑者を絞る

トラブルシュートで一番効くのは、闇雲に対策を試すことではなく、症状から容疑者を絞ることです。今回の症状は、容疑者を絞るうえで非常に都合のよい形をしていました。

ポイントは「BIOS は通るが、ramdisk 直後で落ちる」という落ち方です。これを消費電力の観点で読み替えます。

  • BIOS / POST の段階: ハードウェアの初期化が中心で、CPU はほとんど本気を出していません。消費電力は低い。
  • カーネル起動(ramdisk 以降): CPU が全コアで本格的に動き始め、消費電力が一気に跳ね上がる局面です。

低消費電力の BIOS は通過できるのに、消費電力が急増するカーネル起動で落ちる。これは 「負荷が上がった瞬間に落ちる=負荷依存の電源断」 と読むのが自然です。負荷依存で落ちるなら、まず疑うべきは熱か電源。この 2 つです。

逆に言うと、この落ち方は BIOS 設定の破損やストレージの故障とは噛み合いません。BIOS が壊れていれば BIOS 画面の表示自体がおかしくなるはずですし、ストレージが死んでいれば ramdisk を読みに行く前後でエラーメッセージが出て止まるのが普通で、電源がストンと落ちることにはなりにくい。

症状と容疑者の対応を整理すると、こうなります。

観察された症状何を意味するか優先して疑う対象
BIOS は通るが ramdisk 直後で落ちる負荷急増の瞬間に落ちる=負荷依存電源・熱(最優先)
電源がストンと落ちる(エラー表示なし)保護回路による強制断の挙動に近い電源
BIOS の温度・FAN 監視欄が消えるセンサー周りの初期化不全電源・EC 系(後述)

ここで学んだのは、「どこで落ちるか」は無料で手に入る最強のヒントだということです。再現する症状の発生タイミングを消費電力の高低に対応づけるだけで、いきなり OS 再インストールや CMOS クリアに走らずに済みます。


やったこと — 放電 → CMOS クリア手前で、ダメ元のアダプタ交換

容疑者を「電源・熱」に絞ったうえで、低コストな手から順に試しました。

1. AC 完全放電

まずは定番の完全放電です。電源ケーブルを抜き、電源ボタンを長押しして基板に残った残留電荷を抜きます。マザーボード上のコンデンサに溜まった電荷が悪さをしているケースを切り分けるための、リスクゼロの一手です。

結果は効果なし。放電後も同じく ramdisk 直後で落ちました。

2. CMOS クリアに進もうとした、その直前

次に考えたのは CMOS クリアです。NUC10 系は、基板上の 黄色い “S”(Security)ジャンパ を使って BIOS 設定を初期化する方式になっています。BIOS の監視欄が消えていたこともあり、「設定が壊れているなら CMOS クリアで戻るかもしれない」と踏んでいました。

ところが、筐体を開けてジャンパに手をかける直前、ふと思い直しました。容疑者の本命は電源だったはずだ、と。同じクラスタに同型の NUC がもう 2 台あります。ダメ元で、別の AC アダプタに差し替えてみました。

3. アダプタ交換で一発復旧

これが当たりでした。劣化を疑っていたアダプタを、別の健全なアダプタに交換しただけで、Loading initial ramdisk を素通りして OS が普通に起動しました。そのまま Proxmox が立ち上がり、クラスタにも online で復帰。BIOS の温度・FAN 監視欄も、いつも通り表示されるようになっていました。

CMOS クリアは不要でした。BIOS リカバリも、OS 再インストールも、結局どれも必要ありませんでした。


辻褄合わせ — なぜ AC アダプタだったのか

ここからは推測を含みます。観察された事実と矛盾しないように、起きていたことを組み立て直します。

劣化した AC アダプタは、定常状態の軽い負荷なら供給できても、瞬間的に大きな電流を要求される局面で電圧を維持できなくなることがあります。今回でいえば、

  • 起動時の突入電流(電源投入直後に各部品が一斉に電気を要求する瞬間)
  • カーネル起動で CPU が本格稼働し、消費電力が跳ね上がる瞬間

この 2 つが、まさに電力をたくさん要求する局面です。劣化したアダプタはここで電圧をドロップさせ、マシン側の保護回路が「電源異常」と判断して即座にシャットダウンした。だから BIOS(軽負荷)は通り、カーネル起動(重負荷)で毎回落ちていた、と考えると症状とぴったり噛み合います。

そして最大の伏線だった「BIOS の温度・FAN 監視欄が消えていた」件。あれも、電圧が不足して EC(Embedded Controller)が正常に初期化できていなかったためと考えると辻褄が合います。EC は温度センサーやファン制御を司る小さなコントローラで、これがまともに立ち上がらなければ BIOS 画面の監視欄も出てこない。BIOS チップが壊れていたわけではなく、EC が電力不足で本調子を出せていなかっただけ、という読み筋です。

整理すると、私が最初に疑った 2 つの容疑者は、どちらもシロでした。

  • BIOS 故障ではなかった — だから CMOS クリアも BIOS リカバリも不要だった
  • 熱暴走でもなかった — むしろ温度欄が出ないこと自体が電源側のサインだった

余談ですが、ノード復旧後にサービスを端から端まで確認したら、自動復活したコンテナ群の中に 1 つだけ上がってこないものがありました。これは restart policy の設定漏れという別の話なので、ここでは触れません。電源の切り分けと、再起動耐性の設計は、まったく別のレイヤーの問題です。


教訓 — homelab の電源切り分けの定石

今回の一件から持ち帰れる定石は、次の 3 つです。

  • 「BIOS は通るのに OS 起動で落ちる」は負荷依存の落ち方。負荷が上がった瞬間に落ちるなら、まず電源と熱を疑う。いきなり CMOS クリアや OS 再インストールに行かない。順番を間違えると、シロの容疑者を取り調べて時間を溶かします。
  • BIOS の監視欄(温度・FAN)が消えるのは、電源・EC 周りを疑うサイン。「BIOS が壊れた」と決めつけない。センサーが出ないこと自体が、電力が足りていない可能性を語っていることがあります。
  • 24/365 通電し続ける小型機にとって、AC アダプタは消耗品。同型機が複数あるなら、健全な予備アダプタに差し替えるだけで電源を即座に切り分けられる。これがクラスタを組んでいる最大の隠れたメリットかもしれません。

トラブルシュートは、対策を何個試したかではなく、容疑者を正しい順番で絞れたかで速さが決まります。今回は「どこで落ちるか」という一点が、電源という本命に最短で連れて行ってくれました。筐体を開けてジャンパに手をかける前に、もう一度「この症状は何を指しているか」を読み直す。そのひと呼吸が、無駄な分解と冤罪を防いでくれます。

· · ·

コメント