PCが突然再起動する問題(0x116 VIDEO_TDR_FAILURE)の原因調査記録

自作・BTO構成のデスクトップPCが、数か月にわたって突然シャットダウン(実際には強制再起動)する症状に悩まされてきました。原因の切り分けに時間がかかったので、同じ症状で困っている方の参考になればと、これまで試したことを時系列でまとめておきます。

症状

使用中に画面が消え、勝手に再起動する(体感は「突然のシャットダウン」)。
必ずしも高負荷時ではなく、動画再生やスリープ復帰など軽い場面でも発生。
イベントビューアーで確認すると、毎回まったく同じエラー:
- バグチェック 0x116 (VIDEO_TDR_FAILURE)
- 第3パラメータ = 0xC000009A (STATUS_INSUFFICIENT_RESOURCES)
- 再起動直後に必ず付随イベント:Kernel-PnP 219「ドライバー \Driver\WUDFRd を読み込めませんでした(ROOT\DISPLAY\0000)」

つまり「グラフィックドライバーが応答を停止 → Windowsの復帰処理(TDR)にも失敗 → 強制再起動」という、原因が単一の非常に一貫したパターンでした。

PC構成

CPU	Intel Core i7-13700F(Raptor Lake)
マザーボード	ASRock B760 Pro RS/D4
グラフィックボード	NVIDIA GeForce RTX 4070
ディスプレイ	4K / リフレッシュレート 59Hz

これまで試したこと(時系列)

① NVIDIAドライバーを疑う → ダウングレード

最初に疑ったのはグラフィックドライバー。DDU(Display Driver Uninstaller)でクリーンアンインストールしてから、新しい 596.36 から 591.74(ファイルバージョン 32.0.15.9174)へダウングレードしました。さらにWindows Updateが勝手にドライバーを上書きしないよう、ドライバー自動更新も無効化。

結果:改善せず。同じ署名のクラッシュが再発したため、特定バージョン固有のバグではないと判明。

② CPU(Raptor Lake)の劣化を疑う → BIOSアップデート

13世代/14世代Intel CPUで話題になった電圧起因の劣化問題を疑い、BIOSを2023年版から最新の 13.01(2025-09)へ更新(Intelマイクロコード 0x12F の緩和策入り)。

あわせて Cinebench 2026 を3回連続で完走(4367〜4403pts)。CPUに持続負荷をかけても落ちないことを確認。

結果:改善せず。CPU劣化が主原因ではないと判断。

③ 電源管理まわりを疑う

高速スタートアップを無効化(HiberbootEnabled = 0)
ハードウェアアクセラレーションによるGPUスケジューリング(HAGS)を無効化(レジストリ HwSchMode = 1)
TDRのタイムアウトを延長(TdrDelay = 8 秒)

結果:HAGS無効化のあと、明らかに頻度が低下。約4週間ほぼ無症状になり、「直った」と思っていました。

そして再発

約1か月の小康状態のあと、1日に3回連続で同じ0x116クラッシュ(crash loop)が発生。「またドライバーが勝手に更新されたのでは?」と疑いましたが、確認するとドライバーは 591.74 のまま、更新されていませんでした。つまり問題は一度も完全には解決しておらず、HAGS無効化で頻度が下がっていただけだった、というのが実情でした。

再発が「初夏(6月)」に始まったのも気になるポイントで、室温の上昇=電源・発熱マージンの悪化と一致します。

切り分け:ファンの故障ではない

「グラボのファンが2つとも止まっている」のに気づき故障を疑いましたが、これはセミファンレス(ゼロRPM)機能による正常動作でした。実際、温度が60℃を超えるとファンは正しく回り始めることを確認。アイドル時のGPU温度はやや高め(約58℃)でしたが、クラッシュは低温・軽負荷時に起きており、過熱クラッシュ(80〜90℃で落ちる)とは症状が異なるため、ファン故障・過熱は原因から除外しました。

現在の検証:GPUの電力制限テスト

ソフト的な対策(ドライバー・BIOS・高速スタートアップ・HAGS・TDR延長)をすべて行っても再発するため、残る本命は電源(PSU)や電力周りのハードウェア要因。瞬間的な電力スパイクで電圧が落ちてGPUが脱落している可能性を検証するため、GPUの電力上限を標準200Wの80%=160Wに制限しました。

MSI Afterburnerなどは使わず、NVIDIA標準の nvidia-smi だけで設定できます。

電力上限を160Wに設定:

nvidia-smi -pl 160

このPCはクラッシュのたびに再起動するため、再起動後も自動で再適用されるようタスクスケジューラに登録(管理者権限で実行):

schtasks /create /tn GPU_PowerLimit_160W /tr "nvidia-smi -pl 160" /sc onstart /ru SYSTEM /rl HIGHEST /f

現在の設定を確認:

nvidia-smi --query-gpu=power.limit,power.default_limit,temperature.gpu --format=csv

元に戻したい場合:

nvidia-smi -pl 200
schtasks /delete /tn GPU_PowerLimit_160W /f

この状態で約1週間、普段どおり使って様子を見ます。

クラッシュが止まれば → 原因は電力/電源(PSU)/発熱とほぼ確定。160W常用、または電源ユニットの交換を検討。
それでも落ちれば → 電力が原因ではない。次は nvidia-smi -lgc でGPUクロックを固定し、アイドル時のクロック変動による不安定を検証する予定。

まとめ:0x116 の切り分けで分かったこと

0x116 + STATUS_INSUFFICIENT_RESOURCES が毎回同じ署名なら、原因は単一。あれこれ同時に壊れているわけではない。
ドライバー更新・BIOS更新・各種ソフト設定で直らないなら、ハードウェア(特に電源・GPU)を疑う段階。
グラボのファン停止は多くの場合ゼロRPMの正常動作。負荷をかけて回り始めるなら故障ではない。
追加ソフトを入れなくても nvidia-smi だけで電力制限テストができる。

続きはまた、この電力制限テストの結果が出たら追記します。