簡體   English   中英

從python傳遞到C ++的數組中未映射的內存訪問

[英]unmapped memory access in array passed from python to c++

我正在使用pybind11將C ++類暴露給python。

它在其構造函數中使用numpy.array ,並獲取指向其內部數據的指針。 它不會復制數據 )。

#include <pybind11/pybind11.h>
#include <pybind11/numpy.h>
#include <iostream>

namespace py = pybind11;

struct Data
{
    Data(const py::array_t<double, py::array::c_style| py::array::forcecast>& arr)
        : p(arr.data())
    {
        std::cout << "arr=" << p    << std::endl;
        std::cout << "[0]=" << p[0] << std::endl;
    }
    const double* p;
};

我還有另一個接受const Data& ,從而可以訪問數組數據。

struct Manager
{
    Manager(const Data& data)
        : data_(data)
    {
        const double* p = data_.p;

        std::cout << "data.arr=" << p    << std::endl;
        std::cout << "data.[0]=" << p[0] << std::endl;
    }
    const Data& data_;
};

這里,這兩個類使用pybind11暴露給python:

PYBIND11_MODULE(foo, m)
{
    py::class_<Data>(m, "Data")
        .def(py::init<const py::array_t<double, py::array::c_style| py::array::forcecast>&>());

    py::class_<Manager>(m, "Manager")
        .def(py::init<const Data&>());
}

這運作良好。 我可以導入我的模塊,從numpy.array創建一個Data實例,然后將其傳遞給Manager

>>> import pandas
>>> import numpy
>>> import foo

>>> df = pandas.DataFrame(data = numpy.random.rand(990000, 7))
>>> d = foo.Data(df.values)
>>> c = foo.Manager(d)

我的腳本運行良好,您可以看到我的C ++代碼訪問numpy.array數據並將其地址和第一個元素打印到stdout:

arr=0x7f47df313010
[0]=0.980507
data.arr=0x7f47df313010
data.[0]=0.980507

我為創建MCVE而創建的所有上述內容,旨在說明我在下面遇到的問題。

但是,現在,我加載了一個熊貓DataFrame泡菜文件( 這是該泡菜文件的下載鏈接 ):

>>> import pandas
>>> import foo

>>> df = pandas.read_pickle('data5.pk') 
>>> a = df.values
>>> d = foo.Data(a)
>>> c = foo.Manager(d)

並且我的C ++代碼在嘗試訪問數組數據時崩潰。

這是標准輸出:

arr=0x7f8864241010
arr[0]=7440.7
data.arr=0x7f8864241010
<dumps core>

因此,指向數組的指針在Manager是相同的,但是嘗試取消引用指針會導致SEGV。

通過Valgrind的運行它,Valgrind的報告Access not within mapped region at address 0x7f8864241010 (即:地址numpy.array )。

Python對我的pickle文件非常滿意:

>>> import pandas

>>> df = pandas.read_pickle('data5.pk')
>>> df.shape
 (990000, 7) 
>>> df
  ABCDE \\ 10000 7440.695240 15055.443905 14585.542158 3647.710616 8139.777981 10001 7440.607794 15055.356459 14585.454712 3647.623171 8139.690536 10002 7441.155761 15055.904426 14586.002679 3648.171138 8140.238503 10003 7440.430209 15055.178874 14585.277127 3647.445585 8139.512950 10004 7440.418058 15055.166724 14585.264977 3647.433435 8139.500800 10005 7440.906603 15055.655268 14585.753521 3647.921979 8139.989344 10006 7440.525167 15055.273832 14585.372085 3647.540543 8139.607908 ... 

我一輩子都無法弄清楚我的泡菜銼刀出了什么問題。

  • 我嘗試創建一個numpy.array和酸洗,這很好
  • 我嘗試創建一個pandas.DataFrame和腌制,效果很好
  • 我將“無效”數據框切成薄片,可以得到一個工作正常的子集

我的數據中有一些令python滿意的東西,但在C ++中導致SEGV。

我該如何診斷?

泡菜很好。 是您的代碼有誤。 您無需執行任何操作即可指向數組數據的指針,以確保該數據實際上與使用它的對象一樣長。

您需要保留對陣列的引用並執行關聯的引用計數管理。 pybind11可能具有某種機制來表示Python引用並為您處理引用計數。 從快速瀏覽一下文檔 ,它看起來像你的代碼也許應該采取array_t的價值,而不是常引用(作為array_t已經代表一個Python參考),並將其存儲到array_t實例變量。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM