繁体   English   中英

PyArray_Check使用Cython / C ++提供Segmentation Fault

[英]PyArray_Check gives Segmentation Fault with Cython/C++

谢谢大家。

我想知道#include所有numpy标头的正确方法是什么,以及使用Cython和C ++解析numpy数组的正确方法是什么。 以下是尝试:

// cpp_parser.h 
#ifndef _FUNC_H_
#define _FUNC_H_

#include <Python.h>
#include <numpy/arrayobject.h>

void parse_ndarray(PyObject *);

#endif

我知道这可能是错的,我也尝试了其他选择,但没有一个可行。

// cpp_parser.cpp
#include "cpp_parser.h"
#include <iostream>

using namespace std;

void parse_ndarray(PyObject *obj) {
    if (PyArray_Check(obj)) { // this throws seg fault
        cout << "PyArray_Check Passed" << endl;
    } else {
        cout << "PyArray_Check Failed" << endl;
    }
}

PyArray_Check例程抛出Segmentation Fault。 PyArray_CheckExact不会抛出,但它不是我想要的。

# parser.pxd
cdef extern from "cpp_parser.h": 
    cdef void parse_ndarray(object)

并且实现文件是:

# parser.pyx
import numpy as np
cimport numpy as np

def py_parse_array(object x):
    assert isinstance(x, np.ndarray)
    parse_ndarray(x)

setup.py脚本是

# setup.py
from distutils.core import setup, Extension
from Cython.Build import cythonize

import numpy as np

ext = Extension(
    name='parser',
    sources=['parser.pyx', 'cpp_parser.cpp'],
    language='c++',
    include_dirs=[np.get_include()],
    extra_compile_args=['-fPIC'],
)

setup(
    name='parser',
    ext_modules=cythonize([ext])
    )

最后是测试脚本:

# run_test.py
import numpy as np
from parser import py_parse_array

x = np.arange(10)
py_parse_array(x)

我用上面的所有脚本创建了一个git repo: https//github.com/giantwhale/study_cython_numpy/

快速修复 (请继续阅读以获取更多详细信息和更复杂的方法):

您需要通过调用import_array()在每个使用numpy-stuff的cpp文件中初始化变量PyArray_API

//it is only a trick to ensure import_array() is called, when *.so is loaded
//just called only once
int init_numpy(){
     import_array(); // PyError if not successful
     return 0;
}

const static int numpy_initialized =  init_numpy();

void parse_ndarraray(PyObject *obj) { // would be called every time
    if (PyArray_Check(obj)) {
        cout << "PyArray_Check Passed" << endl;
    } else {
        cout << "PyArray_Check Failed" << endl;
    }
}

也可以使用_import_array ,如果不成功则返回负数,以使用自定义错误处理。 有关 import_array定义, 请参见此处

警告:正如@ isra60所指出的那样,只有在初始化Python之后,即在Py_Initialize()之后,才能调用_import_array()/import_array() 对于扩展,情况总是如此,但如果嵌入了python解释器,情况并非总是如此,因为numpy_initializedmain -starts之前被初始化。 在这种情况下,不应该使用“初始化技巧”,而是在Py_Initialize()之后调用init_numpy() Py_Initialize()


先进的解决方案:

建议的解决方案很快,但如果使用numpy有多个cpp,则会有很多PyArray_API初始化的实例。

如果PyArray_API未定义为静态,则可以避免这种情况,但除了一个转换单元外,它都是extern 对于那些翻译单元,必须在包含numpy/arrayobject.h之前定义NO_IMPORT_ARRAY宏。

然而,我们需要一个定义了这个符号的翻译单元。 对于此转换单元,不得定义宏NO_IMPORT_ARRAY

但是,如果不定义宏PY_ARRAY_UNIQUE_SYMBOL我们将只获得一个静态符号,即对其他转换单元不可见,因此链接器将失败。 原因是:如果有两个库并且每个人都定义了一个PyArray_API那么我们将有一个符号的多重定义,并且链接器将失败,即我们不能将这两个库一起使用。

因此,通过定义PY_ARRAY_UNIQUE_SYMBOL作为MY_FANCY_LIB_PyArray_API之前每包括numpy/arrayobject.h我们有我们自己的PyArray_API -name,这不会与其他库发生冲突。

把它们放在一起:

答: use_numpy.h - 包含numpy-functions的头,即numpy/arrayobject.h

//use_numpy.h

//your fancy name for the dedicated PyArray_API-symbol
#define PY_ARRAY_UNIQUE_SYMBOL MY_PyArray_API 

//this macro must be defined for the translation unit              
#ifndef INIT_NUMPY_ARRAY_CPP 
    #define NO_IMPORT_ARRAY //for usual translation units
#endif

//now, everything is setup, just include the numpy-arrays:
#include <numpy/arrayobject.h>

B: init_numpy_api.cpp - 用于初始化全局MY_PyArray_API的翻译单元:

//init_numpy_api.cpp

//first make clear, here we initialize the MY_PyArray_API
#define INIT_NUMPY_ARRAY_CPP

//now include the arrayobject.h, which defines
//void **MyPyArray_API
#inlcude "use_numpy.h"

//now the old trick with initialization:
int init_numpy(){
     import_array();// PyError if not successful
     return 0;
}
const static int numpy_initialized =  init_numpy();

C:只要你需要numpy就包含use_numpy.h ,它将定义extern void **MyPyArray_API

//example
#include "use_numpy.h"

...
PyArray_Check(obj); // works, no segmentation error

警告:不应忘记,为了使初始化技巧起作用,必须已经调用Py_Initialize()


你为什么需要它 (由于历史原因保存):

当我使用调试符号构建扩展时:

extra_compile_args=['-fPIC', '-O0', '-g'],
extra_link_args=['-O0', '-g'],

并使用gdb运行它:

 gdb --args python run_test.py
 (gdb) run
  --- Segmentation fault
 (gdb) disass

我可以看到以下内容:

   0x00007ffff1d2a6d9 <+20>:    mov    0x203260(%rip),%rax       
       # 0x7ffff1f2d940 <_ZL11PyArray_API>
   0x00007ffff1d2a6e0 <+27>:    add    $0x10,%rax
=> 0x00007ffff1d2a6e4 <+31>:    mov    (%rax),%rax
   ...
   (gdb) print $rax
   $1 = 16

我们应该记住, PyArray_Check只是一个定义

#define PyArray_Check(op) PyObject_TypeCheck(op, &PyArray_Type)

看起来, &PyArray_Type以某种方式使用了未初始化的PyArray_API的一部分(值为0 )。

让我们看看预处理器之后的cpp_parser.cpp (用标志-E编译:

 static void **PyArray_API= __null
 ...
 static int
_import_array(void)
{
  PyArray_API = (void **)PyCapsule_GetPointer(c_api,...

所以PyArray_AP我是静态的并且是通过_import_array(void)初始化的,这实际上可以解释我在构建期间得到的警告, _import_array()已定义但未使用 - 我们没有初始化PyArray_API

因为PyArray_API是一个静态变量,所以必须在每个编译单元中初始化它,即cpp-file。

所以我们只需要这样做 - import_array()似乎是官方的方式。

由于您使用Cython,numpy API已经包含在Cython Includes中。 它在jupyter笔记本中是直截了当的。

cimport numpy as np
from numpy cimport PyArray_Check

np.import_array()  # Attention!

def parse_ndarray(object ndarr):
    if PyArray_Check(ndarr):
        print("PyArray_Check Passed")
    else:
        print("PyArray_Check Failed")

我相信np.import_array()是一个关键,因为你调用了numpy API。 评论并尝试,也会出现崩溃。

import numpy as np
from array import array
ndarr = np.arange(3)
pyarr = array('i', range(3))
parse_ndarray(ndarr)
parse_ndarray(pyarr)
parse_ndarray("Trick or treat!")

输出:

PyArray_Check Passed
PyArray_Check Failed
PyArray_Check Failed

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM