使用带有字符串定界符的boost :: tokenizer

Question

我一直在寻找boost :: tokenizer，并且发现文档非常薄。 是否有可能使它标记化一个字符串，例如“海豚-猴子-狒狒”，并使每个单词成为一个标记，以及使每个双破折号成为一个标记？ 从示例中，我仅看到允许使用单个字符定界符。 库是否不够先进，无法使用更复杂的定界符？

Answer 1

使用iter_split可以使用多个字符标记。 下面的代码将产生以下内容：

海豚
猴
狒狒

#include <iostream>
#include <boost/foreach.hpp>
#include <boost/algorithm/string.hpp>
#include <boost/algorithm/string/iter_find.hpp>

    // code starts here
    std::string s = "dolphin--mon-key--baboon";
    std::list<std::string> stringList;
    boost::iter_split(stringList, s, boost::first_finder("--"));

    BOOST_FOREACH(std::string token, stringList)
    {    
        std::cout << token << '\n';  ;
    }

Answer 2

我知道主题很旧，但是当我搜索“按字符串提升令牌生成器”时，该主题就会显示在Google的顶部链接中

所以我将添加TokenizerFunction的变体，以防万一：

class FindStrTFunc
{
public:
    FindStrTFunc() : m_str(g_dataSeparator)
    {
    }

    bool operator()(std::string::const_iterator& next,
        const std::string::const_iterator& end, std::string& tok) const
    {
        if (next == end)
        {
            return false;
        }
        const std::string::const_iterator foundToken =
            std::search(next, end, m_str.begin(), m_str.end());
        tok.assign(next, foundToken);
        next = (foundToken == end) ? end : foundToken + m_str.size();
        return true;
    }

    void reset()
    {
    }

private:
    std::string m_str;
};

在我们可以创建之后

boost::tokenizer<FindStrTFunc> tok("some input...some other input");

和使用一样，像通常的增强令牌生成器

Answer 3

一种选择是尝试boost :: regex。 与自定义令牌生成器相比，性能不确定。

std::string s = "dolphin--monkey--baboon";

boost::regex re("[a-z|A-Z]+|--");
boost::sregex_token_iterator iter(s.begin(), s.end() , re, 0);
boost::sregex_token_iterator end_iter;

while(iter != end_iter)
{
    std::cout << *iter << '\n';
    ++iter;
}

Answer 4

看来您需要编写自己的TokenizerFunction来完成所需的操作。

使用带有字符串定界符的boost :: tokenizer

问题描述

4 个解决方案

解决方案1
10

解决方案2
2

解决方案3
1

解决方案4
0 已采纳

使用带有字符串定界符的boost :: tokenizer

问题描述

4 个解决方案

解决方案1 10

解决方案2 2

解决方案3 1

解决方案4 0 已采纳

解决方案1
10

解决方案2
2

解决方案3
1

解决方案4
0 已采纳