部署到 Digital Ocean 的 Meteor 應用程序卡在 100% CPU 和 OOM

Question

我有一個使用 Meteor Up to Digital Ocean 部署的 Meteor (0.8.0) 應用程序，它一直卡在 100% CPU 上，只會因內存不足而崩潰，然后以 100% CPU 重新啟動。 在過去的 24 小時內，它一直像這樣卡住。 奇怪的是沒有人在使用服務器，而meteor.log 沒有顯示太多線索。 我為數據庫提供了帶有 oplog 的 MongoHQ。

數字海洋規格：

1GB 內存 30GB SSD 磁盤紐約 2 Ubuntu 12.04.3 x64

顯示問題的屏幕截圖：

在此處輸入圖片說明

請注意，屏幕截圖是昨天捕獲的，並且一直保持在 100% cpu，直到它因內存不足而崩潰。 日志顯示：

致命錯誤：疏散分配失敗 - 進程內存不足錯誤：永遠檢測到的腳本被信號殺死：SIGABRT 錯誤：永遠重新啟動腳本 5 次

頂部顯示：

26308 流星 20 0 1573m 644m 4200 R 98.1 64.7 32:45.36 節點

它是如何開始的：我有一個應用程序，它通過 csv 或 mailchimp oauth 接收電子郵件列表，通過他們的批處理調用將它們發送給 fullcontact http://www.fullcontact.com/developer/docs/batch/然后更新Meteor 會根據響應狀態進行相應的收集。 來自 200 響應的片段

if (result.statusCode === 200) {
            var data = JSON.parse(result.content);
            var rate_limit = result.headers['x-rate-limit-limit'];
            var rate_limit_remaining = result.headers['x-rate-limit-remaining'];
            var rate_limit_reset = result.headers['x-rate-limit-reset'];
            console.log(rate_limit);
            console.log(rate_limit_remaining);
            console.log(rate_limit_reset);
            _.each(data.responses, function(resp, key) {
                var email = key.split('=')[1];
                if (resp.status === 200) {
                    var sel = {
                        email: email,
                        listId: listId
                    };
                    Profiles.upsert({
                        email: email,
                        listId: listId
                    }, {
                        $set: sel
                    }, function(err, result) {
                        if (!err) {
                            console.log("Upsert ", result);
                            fullContactSave(resp, email, listId, Meteor.userId());                            
                        }
                    });
                    RawCsv.update({
                        email: email,
                        listId: listId
                    }, {
                        $set: {
                            processed: true,
                            status: 200,
                            updated_at: new Date().getTime()
                        }
                    }, {
                        multi: true
                    });
                }
                });
                }

在本地運行 Vagrant 的 Windows 筆記本電腦上，我一次處理數十萬封電子郵件沒有任何性能問題。 但是在 Digital Ocean 上，它似乎甚至無法處理 15,000（我已經看到 CPU 飆升至 100%，然后因 OOM 而崩潰，但在它出現后通常會穩定下來……這次不是）。 讓我擔心的是，盡管應用程序上沒有/很少活動，但服務器根本沒有恢復。 我已經通過查看分析驗證了這一點 - GA 在 24 小時內總共顯示了 9 個會話，所做的只是點擊 / 和彈跳，MixPanel 在同一時間范圍內僅顯示 1 個登錄用戶（我）。 自從最初失敗以來，我所做的唯一一件事就是檢查facts包，其中顯示：

mongo-livedata 觀察多路復用器 13 觀察驅動程序 13

oplog-watchers 16 個觀察句柄 15 個時間花費在查詢階段

87828 time-spent-in-fetching-phase 82 livedata

invalidation-crossbar-listeners 16 個訂閱 11 個會話 1

Meteor APM 也沒有顯示任何異常，meteor.log 除了 OOM 和重啟消息之外沒有顯示任何流星活動。 MongoHQ 沒有報告任何運行緩慢的查詢或大量活動 - 平均 0 次查詢、更新、插入、刪除從盯着他們的監控儀表板看。 據我所知，24 小時內沒有太多活動，當然也沒有任何密集活動。 從那以后，我嘗試安裝 newrelic 和 nodetime，但都不是很有效 - newrelic 沒有顯示任何數據，並且meteor.log 有一個 nodetime 調試消息

加載 nodetime-native 擴展失敗。

因此，當我嘗試使用 nodetime 的 CPU 分析器時，它變為空白並且堆快照返回錯誤：未加載 V8 工具。

在這一點上，我基本上沒有想法，而且由於 Node 對我來說還很陌生，所以感覺就像我在這里的黑暗中進行了瘋狂的刺殺。 請幫忙。

更新：四天后服務器仍保持在 100%。 即使 init 6 也不做任何事情 - 服務器重新啟動，節點進程啟動並跳回到 100% cpu。 我嘗試了其他工具，如 memwatch 和 webkit-devtools-agent，但無法讓它們與 Meteor 一起工作。

以下是strace輸出

strace -c -p 6840

附加進程 6840 - 中斷退出

^CProcess 6840 分離

% time seconds usecs/call 調用錯誤系統調用

77.17 0.073108 1 113701 epoll_wait

11.15 0.010559 0 80106 39908 mmap

6.66 0.006309 0 116907 讀取

2.09 0.001982 0 84445 futex

1.49 0.001416 0 45176 寫

0.68 0.000646 0 119975 蒙圖

0.58 0.000549 0 227402 時鍾獲取時間

0.10 0.000095 0 117617 rt_sigprocmask

0.04 0.000040 0 30471 epoll_ctl

0.03 0.000031 0 71428 gettimeofday

0.00 0.000000 0 36 保護

0.00 0.000000 0 4

100.00 0.094735 1007268 39908 總計

所以看起來node進程大部分時間都花在epoll_wait上。

Answer 1

我有一個類似的問題。 我不需要 Oplog，有人建議我添加流星包“disable-oplog”。 所以我做了，CPU使用率降低了很多。 如果您沒有真正利用 Oplog，那么禁用它可能會更好，所以 Meteer meteor add disable-oplog看看會發生什么。

我希望這有幫助。

Answer 2

- 你在使用 Meteor-up 嗎？ 我也用紐約 2

在我使用 ubuntu 服務器虛擬機的本地環境中，只有 512 Mb 和 1 個核心才能正常工作。

我在 DigitalOcean 4 Gb RAM、2 核 VPS + Meteorup（當然還有我的應用程序）上遇到了同樣的問題。

LOCAL ENVIROMENT on virtualbox - 1 CORE - 512 MB - New York 2 - ubuntu 14.04 x86.
-------------------------------------
>Meteor.js = 0.8.0,
>Node = 0.10.26,
>MongoDB shell version = 2.4.10,

>%CPU = 20.8 avg,
>%MEM = 27.4 avg

DIGITALOCEAN 4 GB RAM - 2 CPUS - ubuntu 14.04 x64.
-------------------------------------
>Meteor.js = 0.8.0,
>Node = 0.10.26,
>MongoDB shell version = 2.4.10,

>%CPU = 101.8 avg,
>%MEM = 27.4 avg

> PID meteoru+  20   0 1644244 796692   6228 R **102.2** **32.7**  84:47.08 node

此外，我的應用程序與您的應用程序類似。 我使用來自大氣的CFS包和 node-csv 來讀取我上傳的 CSV。 上傳效果很好，node-csv 也很好用....但我可以確認你是否有問題，它似乎是在 DigitalOcean 上運行的 NODE。 我的 MongoDB 也很好用...

Answer 3

我是 VPS 新手，我嘗試做的第一件事就是運行我的腳本。 問題是我用node和pm2啟動了同一台服務器幾次。

解決方案

運行pm2 kill以pm2 kill進程管理器運行的所有進程
運行killall node - 如果還有剩余，則killall node所有正在運行的進程
運行pm2 start <your_server>.js - 再次運行你的服務器

部署到 Digital Ocean 的 Meteor 應用程序卡在 100% CPU 和 OOM

問題描述

3 個解決方案

解決方案1
2 2014-05-11 17:05:39

解決方案2
0 2014-04-30 03:30:41

解決方案3
0 2021-01-03 18:01:48

部署到 Digital Ocean 的 Meteor 應用程序卡在 100% CPU 和 OOM

問題描述

3 個解決方案

解決方案1 2 2014-05-11 17:05:39

解決方案2 0 2014-04-30 03:30:41

解決方案3 0 2021-01-03 18:01:48

解決方案1
2 2014-05-11 17:05:39

解決方案2
0 2014-04-30 03:30:41

解決方案3
0 2021-01-03 18:01:48