繁体   English   中英

Tensorflow 在本地 GPU 上比 LSTM 上的 Colab GPU 慢

[英]Tensorflow slower on Local GPU than Colab GPU on LSTM

Colab GPU 速度较慢有很多问题,但在我的情况下,情况正好相反。 我尝试使用 tensorflow 2.4.0 训练 LSTM -

  1. 我的本地 GPU - NVIDIA 1660Ti(计算能力 - 7.5)
  2. Colab GPU - Tesla K80(计算能力 - 3.7)

在 colab 上,单个 epoch 大约需要 3.5 分钟,而在我的 gpu 上需要 10.5 分钟。 现在,我看到基准表明 1660Ti 应该比 Tesla K80 快得多,所以我无法弄清楚是什么导致了这里的问题。 我试过各种版本的nvidia驱动,cudnn和cuda,但是好像没什么区别

基准测试: http://ai-benchmark.com/ranking.html

Model 说明:

Model: "model_2"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
==================================================================================================
input_2 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, None, 50)     1659000     input_2[0][0]                    
__________________________________________________________________________________________________
input_3 (InputLayer)            [(None, 64)]         0                                            
__________________________________________________________________________________________________
input_4 (InputLayer)            [(None, 64)]         0                                            
__________________________________________________________________________________________________
lstm_2 (LSTM)                   (None, None, 64)     29440       embedding_1[1][0]                
                                                                 input_3[0][0]                    
                                                                 input_4[0][0]                    
__________________________________________________________________________________________________
lstm_3 (LSTM)                   [(None, None, 64), ( 33024       lstm_2[1][0]                     
__________________________________________________________________________________________________
dense (Dense)                   (None, None, 33180)  2156700     lstm_3[1][0]                     
==================================================================================================
Total params: 3,878,164
Trainable params: 2,219,164
Non-trainable params: 1,659,000

colab有优化版的tensorflow吗? 或者这是否与操作系统有关,因为我使用的是 Windows。 请帮我解决一下这个。

来自评论

我认为 GPU 比较没有意义,您本地的 GPU 是笔记本电脑,而 Tesla K80 是数据中心 GPU,具有非常不同的热曲线,计算核心数是 K8 的三倍多。 所有基准测试都近似于一个人可能使用的工作负载,因此这个基准测试中的工作负载偏向于包括 K80 不太好的 INT8 也就不足为奇了,但训练神经网络是在 FP32 中完成的。 最后,K80 是一款比您的笔记本电脑快得多的 GPU。

我也很怀疑,但是我的 gpu 对于 CNN 的运行速度比 Tesla K80(mnist 示例)快,这就是我问这个问题的原因。

当然,MNIST CNN 并没有真正告诉你关于性能的太多信息(模型太小),我的观点是没有像 GPU A 总是比 GPU B 快的一般性陈述,这完全取决于工作负载,而你只是找到了工作负载K80的速度要快得多。 考虑到它有 3 倍以上的计算元素,这并不奇怪。

(从史努比博士转述)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM