如何使用boost :: spirit解析csv

Question

我有這個csv線

std::string s = R"(1997,Ford,E350,"ac, abs, moon","some "rusty" parts",3000.00)";

我可以使用boost::tokenizer解析它：

typedef boost::tokenizer< boost::escaped_list_separator<char> , std::string::const_iterator, std::string> Tokenizer;
boost::escaped_list_separator<char> seps('\\', ',', '\"');
Tokenizer tok(s, seps);
for (auto i : tok)
{
    std::cout << i << std::endl;
}

它是正確的，除了令牌“生銹”應該有雙引號被剝離。

這是我嘗試使用boost :: spirit

boost::spirit::classic::rule<> list_csv_item = !(boost::spirit::classic::confix_p('\"', *boost::spirit::classic::c_escape_ch_p, '\"') | boost::spirit::classic::longest_d[boost::spirit::classic::real_p | boost::spirit::classic::int_p]);
std::vector<std::string> vec_item;
std::vector<std::string>  vec_list;
boost::spirit::classic::rule<> list_csv = boost::spirit::classic::list_p(list_csv_item[boost::spirit::classic::push_back_a(vec_item)],',')[boost::spirit::classic::push_back_a(vec_list)];
boost::spirit::classic::parse_info<> result = parse(s.c_str(), list_csv);
if (result.hit)
{
  for (auto i : vec_item)
  {
    cout << i << endl;
   }
}

問題：

不起作用，僅打印第一個令牌
為什么要提升::精神::經典？ 找不到使用Spirit V2的例子
設置是殘酷的...但我可以忍受這個

**我真的想使用boost::spirit因為它往往非常快

預期產量：

1997
Ford
E350
ac, abs, moon
some "rusty" parts

3000.00

Answer 1

有關解析（可選）引用分隔字段的背景信息，包括不同的引號字符（ ' ， " ），請參見此處：

使用boost :: spirit解析引用的字符串

對於一個非常非常完整的示例，完全支持部分引用的值和a
 splitInto(input, output, ' '); 
采用'任意'輸出容器和分隔符表達式的方法，請參見此處：

如何使我的分割只在一個實線上工作，並能夠跳過字符串的引用部分？

解決您的具體問題，假設無論是 或不使用引號字段（域值內沒有局部引號），使用精神V2：

讓我們采用可能有效的最簡單的“抽象數據類型”：

using Column  = std::string;
using Columns = std::vector<Column>;
using CsvLine = Columns;
using CsvFile = std::vector<CsvLine>;

重復的雙引號轉義了雙引號語義（正如我在評論中指出的那樣），你應該可以使用類似的東西：

static const char colsep = ',';

start  = -line % eol;
line   = column % colsep;
column = quoted | *~char_(colsep);
quoted = '"' >> *("\"\"" | ~char_('"')) >> '"';

打印以下完整的測試程序

[1997][Ford][E350][ac, abs, moon][rusty][3001.00]

（注意BOOST_SPIRIT_DEBUG定義以便於調試）。 在科利魯看到它

完整的演示

//#define BOOST_SPIRIT_DEBUG
#include <boost/spirit/include/qi.hpp>

namespace qi = boost::spirit::qi;

using Column  = std::string;
using Columns = std::vector<Column>;
using CsvLine = Columns;
using CsvFile = std::vector<CsvLine>;

template <typename It>
struct CsvGrammar : qi::grammar<It, CsvFile(), qi::blank_type>
{
    CsvGrammar() : CsvGrammar::base_type(start)
    {
        using namespace qi;

        static const char colsep = ',';

        start  = -line % eol;
        line   = column % colsep;
        column = quoted | *~char_(colsep);
        quoted = '"' >> *("\"\"" | ~char_('"')) >> '"';

        BOOST_SPIRIT_DEBUG_NODES((start)(line)(column)(quoted));
    }
  private:
    qi::rule<It, CsvFile(), qi::blank_type> start;
    qi::rule<It, CsvLine(), qi::blank_type> line;
    qi::rule<It, Column(),  qi::blank_type> column;
    qi::rule<It, std::string()> quoted;
};

int main()
{
    const std::string s = R"(1997,Ford,E350,"ac, abs, moon","""rusty""",3001.00)";

    auto f(begin(s)), l(end(s));
    CsvGrammar<std::string::const_iterator> p;

    CsvFile parsed;
    bool ok = qi::phrase_parse(f,l,p,qi::blank,parsed);

    if (ok)
    {
        for(auto& line : parsed) {
            for(auto& col : line)
                std::cout << '[' << col << ']';
            std::cout << std::endl;
        }
    } else
    {
        std::cout << "Parse failed\n";
    }

    if (f!=l)
        std::cout << "Remaining unparsed: '" << std::string(f,l) << "'\n";
}

Answer 2

Sehe的帖子看起來比我的更干凈，但我把它放在一起有點，所以這里反正：

#include <boost/tokenizer.hpp>
#include <boost/spirit/include/qi.hpp>

namespace qi = boost::spirit::qi;

int main() {
    const std::string s = R"(1997,Ford,E350,"ac, abs, moon",""rusty"",3000.00)";

    // Tokenizer
    typedef boost::tokenizer< boost::escaped_list_separator<char> , std::string::const_iterator, std::string> Tokenizer;
    boost::escaped_list_separator<char> seps('\\', ',', '\"');
    Tokenizer tok(s, seps);
    for (auto i : tok)
        std::cout << i << "\n";
    std::cout << "\n";

    // Boost Spirit Qi
    qi::rule<std::string::const_iterator, std::string()> quoted_string = '"' >> *(qi::char_ - '"') >> '"';
    qi::rule<std::string::const_iterator, std::string()> valid_characters = qi::char_ - '"' - ',';
    qi::rule<std::string::const_iterator, std::string()> item = *(quoted_string | valid_characters );
    qi::rule<std::string::const_iterator, std::vector<std::string>()> csv_parser = item % ',';

    std::string::const_iterator s_begin = s.begin();
    std::string::const_iterator s_end = s.end();
    std::vector<std::string> result;

    bool r = boost::spirit::qi::parse(s_begin, s_end, csv_parser, result);
    assert(r == true);
    assert(s_begin == s_end);

    for (auto i : result)
        std::cout << i << std::endl;
    std::cout << "\n";
}

這輸出：

1997
Ford
E350
ac, abs, moon
rusty
3000.00

1997
Ford
E350
ac, abs, moon
rusty
3000.00

值得注意的事情 ：這不會實現完整的CSV解析器。 您還需要查看轉義字符或實現所需的任何其他內容。

另外：如果您正在查看文檔，那么您知道，在Qi中， 'a'等同於boost::spirit::qi::lit('a')和"abc"相當於boost::spirit::qi::lit("abc") 。

關於雙引號：所以，正如Sehe在上面的評論中指出的那樣，並不直接清楚輸入文本中圍繞""的規則意味着什么。 如果您希望所有不在引用字符串中的""實例轉換為" ，那么以下內容將起作用。

qi::rule<std::string::const_iterator, std::string()> double_quote_char = "\"\"" >> qi::attr('"');
qi::rule<std::string::const_iterator, std::string()> item = *(double_quote_char | quoted_string | valid_characters );

如何使用boost :: spirit解析csv

問題描述

2 個解決方案

解決方案1
10 2013-08-21 19:46:16

完整的演示

解決方案2
5 已采納 2013-08-21 19:49:15

如何使用boost :: spirit解析csv

問題描述

2 個解決方案

解決方案1 10 2013-08-21 19:46:16

完整的演示

解決方案2 5 已采納 2013-08-21 19:49:15

解決方案1
10 2013-08-21 19:46:16

解決方案2
5 已采納 2013-08-21 19:49:15