[英]How to copy dynamic matrix to device memory in CUDA?
在我的代碼中,我有動態矩陣。
int ** file_data = (int **)malloc(TRANSACTIONS * sizeof(int *));
file_data[0] = (int *)malloc((a_size+1) * sizeof(int));
file_data[1] = (int *)malloc((a_size+1) * sizeof(int));
file_data[2] = (int *)malloc((a_size+1) * sizeof(int));
................................................................
我只想將其復制到設備全局內存一次。
我用過:
__device__ int raw_data[][];
...................................
...................................
...................................
cudaMemcpyToSymbol(raw_data[i], file_data[i], (a_size+1)*sizeof(int));
但這是行不通的。
我該怎么做?
如果首先只使用矩形矩陣,則建議始終始終像這樣存儲矩陣,但是無論哪種方式,都需要先將其轉換為這種形式,然后再嘗試將這些數據推送到設備內存中。
template<typename T>
class Matrix {
std::vector<T> _data;
size_t rows, columns;
public:
Matrix(size_t rows, size_t columns) :rows(rows), columns(columns) {
_data.resize(rows * columns);
}
T & operator()(size_t row, size_t column) & {
return _data.at(row * columns + column); //Row-Major Ordering
}
T const& operator()(size_t row, size_t column) const& {
return _data.at(row * columns + column);
}
T operator() size_t row, size_t column) const {
return _data.at(row * columns + column);
}
T * data() & {
return _data.data();
}
T const* data() const& {
return _data.data();
}
std::pair<size_t, size_t> size() const {
return {rows, columns};
}
size_t flat_size() const {
return rows * columns;
}
size_t byte_size() const {
return flat_size() * sizeof(T);
}
};
int ** file_data = (int **)malloc(TRANSACTIONS * sizeof(int *));
file_data[0] = (int *)malloc((a_size+1) * sizeof(int));
file_data[1] = (int *)malloc((a_size+1) * sizeof(int));
file_data[2] = (int *)malloc((a_size+1) * sizeof(int));
//................................................................
Matrix<int> flat_data(TRANSACTIONS, a_size + 1);
for(size_t row = 0; row < TRANSACTIONS; row++) {
for(size_t column = 0; column < a_size + 1; column++) {
flat_data(row, column) = file_data[row][column];
}
}
//ALTERNATIVE: use this instead of your manual mallocs in the first place!
cudaMemcpyToSymbol(flat_data.data(), /*buffer name*/, flat_data.byte_size());
這樣做的主要優點是您不必將每一行分別復制到它們自己的緩沖區中,您可以將所有行放到內存中,從而節省了內存並減少了需要進行的API調用次數。 當您嘗試在原始代碼中手動處理所有指針管理時不可避免地犯了一個錯誤時,專門為處理您的功能而設計的類將不會中斷。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.