将 Python 3 Unicode 转换为 std::string 的简洁方法

Question

我使用 Python 2 API 包装了很多 C++（由于各种技术原因，我不能使用 swig 或 boost.python 之类的东西）。 当我必须将一个字符串（通常是一个路径，总是 ASCII）传递到 C/C++ 中时，我使用这样的东西：

std::string file_name = PyString_AsString(py_file_name); 
if (PyErr_Occurred()) return NULL;

现在我正在考虑更新到 Python 3，其中PyString_*方法不存在。 我找到了一个解决方案，说我应该做这样的事情：

PyObject* bytes = PyUnicode_AsUTF8String(py_file_name);
std::string file_name = PyBytes_AsString(bytes); 
if (PyErr_Occurred()) return NULL; 
Py_DECREF(bytes);

然而，这是行数的两倍，看起来有点难看（更不用说如果我忘记了最后一行，它可能会导致内存泄漏）。

另一种选择是重新定义 python 函数来操作bytes对象，并像这样调用它们

def some_function(path_name):
    _some_function(path_name.encode('utf8'))

这并不可怕，但它确实需要每个函数的 python 端包装器。

有没有更干净的方法来处理这个问题？

Answer 1

看起来解决方案存在于 python 3.3 中，带有char* PyUnicode_AsUTF8(PyObject* unicode) 。 这应该与 Python 2 中的PyString_AsString()函数完全相同。

Answer 2

如果你知道（当然，你可以用断言或类似的东西来检查）它都是 ASCII，那么你可以简单地像这样创建它：

std::string py_string_to_std_string(PyUnicode_string py_file_name)
{
    len = length of py_file_name;     // Not sure how you write that in python. 
    std::string str(len); 
    for(int i = 0; i < len; i++)
        str += py_file_name[i]; 
    return str;
}

Answer 3

提供已接受答案的改进版本，而不是使用PyUnicode_AsUTF8(...)更好地使用PyUnicode_AsUTF8AndSize(...) 。

因为字符串可能在中间的某处包含空字符（0 代码点），那么如果您使用PyUnicode_AsUTF8(...) ，则生成的std::string将包含完整字符串的截断版本。

Py_ssize_t size = 0;
char const * pc = PyUnicode_AsUTF8AndSize(obj, &size);
std::string s;
if (pc)
    s = std::string(pc, size);
else
    // Error, handle!

将 Python 3 Unicode 转换为 std::string 的简洁方法

问题描述

3 个解决方案

解决方案1
5 已采纳 2013-07-08 03:27:36

解决方案2
1 2013-07-07 21:34:58

解决方案3
1 2021-01-13 12:42:21

将 Python 3 Unicode 转换为 std::string 的简洁方法

问题描述

3 个解决方案

解决方案1 5 已采纳 2013-07-08 03:27:36

解决方案2 1 2013-07-07 21:34:58

解决方案3 1 2021-01-13 12:42:21

解决方案1
5 已采纳 2013-07-08 03:27:36

解决方案2
1 2013-07-07 21:34:58

解决方案3
1 2021-01-13 12:42:21