[英]How to speed up a function that returns a pointer to object in c++?
我是机械工程师,所以请理解我没有接受正确的编码培训。 我有一个有限元代码,它使用网格来制作构成模型的元素。 该元素对这个问题并不重要,因此我省略了。 元素和网格从文件中读取,并且该部分正常工作。
class Grid
{
private:
int id;
double x;
double y;
double z;
public:
Grid();
Grid(int, double, double, double);
int get_id() { return id;};
};
Grid::Grid() {};
Grid::Grid(int t_id, double t_x, double t_y double t_z)
{
id = t_id; x = t_x; y = t_y; z = t_z;
}
class SurfaceModel
{
private:
Grid** grids;
Element** elements;
int grid_count;
int elem_count;
public:
SurfaceModel();
SurfaceModel(int, int);
~SurfaceModel();
void read_grid(std::string);
int get_grid_count() { return grid_count; };
Grid* get_grid(int);
};
SurfaceModel::SurfaceModel()
{
grids = NULL;
elements = NULL;
}
SurfaceModel::SurfaceModel(int g, int e)
{
grids = new Grid*[g];
for (int i = 0; i < g; i++)
grids[i] = NULL;
elements = new Element*[e];
for (int i = 0; i < e; i++)
elements[i] = NULL;
}
void SurfaceModel::read_grid(std::string line)
{
... blah blah ...
grids[index] = new Grid(n_id, n_x, n_y, n_z);
... blah blah ....
}
Grid* SurfaceModel::get_grid(int i)
{
if (i < grid_count)
return grids[i];
else
return NULL;
}
当我需要实际使用网格时,我使用get_grid可能是这样的:
SurfaceModel model(...);
.... blah blah .....
for (int i = 0; i < model.get_grid_count(); i++)
{
Grid *cur_grid = model.get_grid(i);
int cur_id = cur_grid->get_id();
}
我的问题是,对get_grid的调用似乎比我认为简单地返回我的对象要花费更多的时间。 我在代码上运行了gprof,发现在进行非常大的模拟时,get_grid被调用了约40亿次,并且使用x,y,z进行的另一操作大致相同。 该运算会进行一些乘法。 我发现get_grid和数学运算大约花费相同的时间(约40秒)。 看来我做错了什么。 有没有更快的方法让那个物体离开那里?
我认为您忘记设置grid_count
和elem_count
。
这意味着它们将具有未初始化的( 不确定的 )值。 如果循环使用这些值,则可以轻松地循环大量迭代。
SurfaceModel::SurfaceModel()
: grid_count(0),
grids(NULL),
elem_count(0),
elements(NULL)
{
}
SurfaceModel::SurfaceModel(int g, int e)
: grid_count(g),
elem_count(e)
{
grids = new Grid*[g];
for (int i = 0; i < g; i++)
grids[i] = NULL;
elements = new Element*[e];
for (int i = 0; i < e; i++)
elements[i] = NULL;
}
然而,我建议您要摆脱该程序中new
的每个实例(并为网格使用向量)
在现代CPU上访问内存通常比进行乘法需要更长的时间。 在现代系统上获得良好性能往往意味着更多地关注优化内存访问而不是优化计算。 因为您将网格对象存储为动态分配的指针数组,所以网格对象本身将不连续存储在内存中,并且在尝试访问它们时可能会遇到许多缓存未命中的情况。 在此示例中,通过将网格对象直接存储在数组或向量中,您可能会看到明显的加速,因为您将访问循环中的连续内存,因此可以获得良好的缓存利用率和有效的硬件预取。
一微秒40亿次(在许多情况下这是一个相当可接受的时间)可以提供4 000秒。 而且由于您只能得到大约40秒(如果我做对了),因此我怀疑这里是否存在严重错误。 如果任务仍然很慢,我会考虑使用并行计算。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.