Hung JVM消耗100％的CPU

Question

我們在Linux 32位（CentOS）上運行Sun JRE 6u20上的JAVA服務器。 我們將Server Hotspot與CMS收集器一起使用，並使用以下選項（我只提供了相關的選項）：

-Xmx896m -Xss128k -XX:NewSize=384M -XX:MaxPermSize=96m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC

有時，在運行一段時間后，JVM似乎陷入掛起狀態，即使我們沒有向應用程序發出任何請求，CPU也繼續以100％旋轉（我們有8個邏輯CPU，所以看起來就像只有一個CPU一樣旋轉）。 在這種狀態下，JVM不響應SIGHUP信號（kill -3），我們無法通過jstack正常連接它。 我們可以用“jstack -F”連接，但輸出很狡猾（我們可以看到很多來自JStack的NullPointerExceptions顯然是因為它無法“走”某些堆棧）。 所以“jstack -F”輸出似乎沒用。

我們已經從“gdb”運行了堆棧轉儲，並且我們能夠匹配旋轉CPU的線程ID（我們發現使用“top”和每個線程視圖 - “H”選項）並且線程堆棧出現在gdb結果中，它是這樣的：

Thread 443 (Thread 0x7e5b90 (LWP 26310)):
#0  0x0115ebd3 in CompactibleFreeListSpace::block_size(HeapWord const*) const () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#1  0x01160ff9 in CompactibleFreeListSpace::prepare_for_compaction(CompactPoint*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#2  0x0123456c in Generation::prepare_for_compaction(CompactPoint*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#3  0x01229b2c in GenCollectedHeap::prepare_for_compaction() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#4  0x0122a7fc in GenMarkSweep::invoke_at_safepoint(int, ReferenceProcessor*, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#5  0x01186024 in CMSCollector::do_compaction_work(bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#6  0x011859ee in CMSCollector::acquire_control_and_collect(bool, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#7  0x01185705 in ConcurrentMarkSweepGeneration::collect(bool, bool, unsigned int, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#8  0x01227f53 in GenCollectedHeap::do_collection(bool, bool, unsigned int, bool, int) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#9  0x0115c7b5 in GenCollectorPolicy::satisfy_failed_allocation(unsigned int, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#10 0x0122859c in GenCollectedHeap::satisfy_failed_allocation(unsigned int, bool) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#11 0x0158a8ce in VM_GenCollectForAllocation::doit() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#12 0x015987e6 in VM_Operation::evaluate() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#13 0x01597c93 in VMThread::evaluate_operation(VM_Operation*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#14 0x01597f0f in VMThread::loop() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#15 0x015979f0 in VMThread::run() () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#16 0x0145c24e in java_start(Thread*) () from /usr/java/jdk1.6.0_20/jre/lib/i386/server/libjvm.so
#17 0x00ccd46b in start_thread () from /lib/libpthread.so.0
#18 0x00bc2dbe in clone () from /lib/libc.so.6

似乎JVM線程在進行一些與CMS相關的工作時正在旋轉。 我們檢查了盒子上的內存使用情況，似乎有足夠的可用內存，系統沒有交換。 有人遇到過這樣的情況嗎？ 它看起來像JVM錯誤嗎？

UPDATE

我已經獲得了有關此問題的更多信息（它在已運行超過7天的服務器上再次發生）。 當JVM進入“掛起”狀態時，它會保持2小時，直到手動重啟服務器。 我們已經獲得了進程的核心轉儲和gc日志。 我們也試圖獲得堆轉儲，但“jmap”失敗了。 我們嘗試使用jmap -F但是在程序中止之前只寫了一個4Mb的文件，但有異常（某些內存位置無法訪問）。 到目前為止，我認為最有趣的信息來自gc日志。 似乎GC日志記錄也停止了（可能在VM線程進入長循環時）：

657501.199: [Full GC (System) 657501.199: [CMS: 400352K->313412K(524288K), 2.4024120 secs] 660634K->313412K(878208K), [CMS Perm : 29455K->29320K(68568K)], 2.4026470 secs] [Times: user=2.39 sys=0.01, real=2.40 secs] 
657513.941: [GC 657513.941: [ParNew: 314624K->13999K(353920K), 0.0228180 secs] 628036K->327412K(878208K), 0.0230510 secs] [Times: user=0.08 sys=0.00, real=0.02 secs] 
657523.772: [GC 657523.772: [ParNew: 328623K->17110K(353920K), 0.0244910 secs] 642036K->330523K(878208K), 0.0247140 secs] [Times: user=0.08 sys=0.00, real=0.02 secs] 
657535.473: [GC 657535.473: [ParNew: 331734K->20282K(353920K), 0.0259480 secs] 645147K->333695K(878208K), 0.0261670 secs] [Times: user=0.11 sys=0.00, real=0.02 secs] 
....
....
688346.765: [GC [1 CMS-initial-mark: 485248K(524288K)] 515694K(878208K), 0.0343730 secs] [Times: user=0.03 sys=0.00, real=0.04 secs] 
688346.800: [CMS-concurrent-mark-start]
688347.964: [CMS-concurrent-mark: 1.083/1.164 secs] [Times: user=2.52 sys=0.09, real=1.16 secs] 
688347.964: [CMS-concurrent-preclean-start]
688347.969: [CMS-concurrent-preclean: 0.004/0.005 secs] [Times: user=0.00 sys=0.01, real=0.01 secs] 
688347.969: [CMS-concurrent-abortable-preclean-start]
 CMS: abort preclean due to time 688352.986: [CMS-concurrent-abortable-preclean: 2.351/5.017 secs] [Times: user=3.83 sys=0.38, real=5.01 secs] 
688352.987: [GC[YG occupancy: 297806 K (353920 K)]688352.987: [Rescan (parallel) , 0.1815250 secs]688353.169: [weak refs processing, 0.0312660 secs] [1 CMS-remark: 485248K(524288K)] 783055K(878208K), 0.2131580 secs] [Times: user=1.13 sys
=0.00, real=0.22 secs] 
688353.201: [CMS-concurrent-sweep-start]
688353.903: [CMS-concurrent-sweep: 0.660/0.702 secs] [Times: user=0.91 sys=0.07, real=0.70 secs] 
688353.903: [CMS-concurrent-reset-start]
688353.912: [CMS-concurrent-reset: 0.008/0.008 secs] [Times: user=0.01 sys=0.00, real=0.01 secs] 
688354.243: [GC 688354.243: [ParNew: 344928K->30151K(353920K), 0.0305020 secs] 681955K->368044K(878208K), 0.0308880 secs] [Times: user=0.15 sys=0.00, real=0.03 secs]
....
....
688943.029: [GC 688943.029: [ParNew: 336531K->17143K(353920K), 0.0237360 secs] 813250K->494327K(878208K), 0.0241260 secs] [Times: user=0.10 sys=0.00, real=0.03 secs] 
688950.620: [GC 688950.620: [ParNew: 331767K->22442K(353920K), 0.0344110 secs] 808951K->499996K(878208K), 0.0347690 secs] [Times: user=0.11 sys=0.00, real=0.04 secs] 
688956.596: [GC 688956.596: [ParNew: 337064K->37809K(353920K), 0.0488170 secs] 814618K->515896K(878208K), 0.0491550 secs] [Times: user=0.18 sys=0.04, real=0.05 secs] 
688961.470: [GC 688961.471: [ParNew (promotion failed): 352433K->332183K(353920K), 0.1862520 secs]688961.657: [CMS

我懷疑這個問題與日志中的最后一行有關（我添加了一些“....”以便跳過一些不感興趣的行）。 服務器停留在掛起狀態2小時（可能嘗試GC和壓縮老一代）的事實對我來說似乎很奇怪。 此外，gc日志突然停止顯示該消息，並且不再有任何其他內容被打印，可能是因為VM線程進入某種無限循環（或需要2個多小時的事情）。

Answer 1

它看起來像GC調整問題，可能是由內存泄漏引發的。 我建議您添加打開GC日志記錄的JVM參數，看看是否能為您提供任何見解。

它看起來像JVM錯誤嗎？

不是我

當堆空間不足時（例如，由於存儲泄漏），通常會看到GC運行越來越頻繁並且使用越來越大的CPU百分比。 您可以設置一些JVM參數來避免這種情況，但它們會導致您的JVM更快地使用OOME。 （這可能聽起來很奇怪，但在很多情況下這是一件好事，因為它會縮短系統重啟之前的時間並且能夠再次正常運行。）

Answer 2

我在Linux 64bit Fedora15上也遇到了這個問題。 我在端口80上使用JSVC運行tomcat。有時jvm掛起占用100％的CPU。 但是當我跑步的時候

jmap -F -histo [tomcat-pID]

一切都恢復正常。

我閱讀http://mail-archives.apache.org/mod_mbox/tomcat-users/200305.mbox/%3C3EB7FC4D.7040306@sfw.com.br%3E

但是這個問題在代碼庫沒有任何變化的情況下突然發生。

Hung JVM消耗100％的CPU

問題描述

2 個解決方案

解決方案1
2 2011-02-03 10:15:15

解決方案2
0 2012-11-11 04:54:17

Hung JVM消耗100％的CPU

問題描述

2 個解決方案

解決方案1 2 2011-02-03 10:15:15

解決方案2 0 2012-11-11 04:54:17

解決方案1
2 2011-02-03 10:15:15

解決方案2
0 2012-11-11 04:54:17