标签[stringtokenizer] - 堆栈内存溢出

试图删除一个单词的所有非字母部分，但此行从分词器中删除了整个单词“Have” - Trying to delete all non letter parts of a word but this line deletes the whole word '"Have' from the tokenizer

我只是想让这段文字正确分割，现在唯一的问题是这个词： “有另外，如果有人可以提供一种解决方案，将所有这些组合成一条线，那会很好，但我无法让它工作，谢谢 ...

获取 object 的属性名称作为字典<string,string>在 .net</string,string> - Get property names of a object as a Dictionary<string,string> in .net

我正在研究字符串分词器 function。这是样本 object 我需要将属性与值放到 Dictionary<string, string> 上期待结果：这就是我尝试的方式 ...

如何同时使用换行符和逗号作为 StringTokenizer 的分隔符 - How to use both a new line and comma as a delimeter for the StringTokenizer

我希望能够同时使用逗号和新行作为标记的分隔符。这将仅用于逗号： Tokens = new StringTokenizer(line,","); 但我将如何实施它来解释一条新线呢？我试过",\n"和\n,"但它们不起作用。我正在尝试从如下所示的文本文件中提取数据： hello apple, tr ...

如何在 spacy 中处理大型数据集 - How to handle with large dataset in spacy

我使用以下代码来清理我的数据集并打印所有标记（单词）。当我用一个小字符串执行这段代码时，它工作正常。但是当我使用 50 兆字节 csv 时，我收到了消息当我将限制增加到这个大小时，我的计算机出现了难题。我该如何解决这个问题？想要标记这些数据量并没有什么特别的。 ...

NLP 计时器 *如何获取字符串中某些数字的顺序以使用设置计时器？ - NLP Timer *How do I get the order of certain numbers in a string to use setting a timer?

在此代码中，您只能请求 x 小时、x 分钟或 x 秒的计时器，但不能请求它们的组合。我想说将计时器设置为 10 分 45 秒，并让系统知道数字 10 与分钟相关联，而 45 与秒相关联。此外，我对编码是全新的，所以我知道这段代码可能并不漂亮。 ...

使用 Java StringTokenizer 拆分令牌 - Splitting the tokens with Java StringTokenizer

我有一个如下所示的数据集：和以下代码：它实际上是来自官方 apache hadoop 文档的字数，只是对我的数据集进行了一点定制。我收到以下错误：我只是想计算每个抽奖号码的出现次数。如何通过使用我的代码中的 StringTokenizer 来做到这一点？我知道我必须拆分整行，因为标记器是 ...

无法生成 RSA 公钥 - Can't generate RSA public key

我正在尝试了解 rsa 公钥生成。经过一些研究，我创建了一个应该返回公钥的“简单”代码，但我不知道为什么，它没有。谁能告诉我为什么并解释一下？为了测试它，我在“input_text”文件上写了一些随机数字：8,33 6,18 ...

读取文件——将字符串和 int 值配对——使用多条分割线 - Reading a file -- pairing a String and int value -- with multiple split lines

我正在按照以下标准进行练习： “输入由成对的标记组成，其中每对标记以该人购买的机票类型（“长途汽车”、“头等舱”或“折扣”，区分大小写）开头，后跟飞行里程数” 该列表可以配对coach 1500 firstclass 2000 discount 900 coach 3500目前效果很好。但是，当 ...

function退出后char数组变量被销毁 - char array variables are destroyed after exiting from function

我使用strtok()在 function 中标记我的字符串。将值复制到全局char数组后，我打印这些值以确保功能。一切都很好，但是当我想访问它们时，它们被破坏了。这是代码：这是 output 我想将值分配给结构，但它们被遗漏了。 ...

如何在没有任何动态分配的情况下将 string_view 拆分为多个 string_view 对象 - how to split a string_view into multiple string_view objects without any dynamic allocations

下面的片段来自这个答案。现在像这样的缓冲区：我想要一个sting_view （指向缓冲区）并将其传递给标记器 function 并且标记应该通过 out 参数（而不是向量）以std::string_view s 的形式返回，它也会返回提取的令牌数。界面如下所示：如果有人可以实现类似的 tok ...

如何获取存储在字符串流中的字符串数 - How to get the number of strings stored in a stringstream

我需要测试以查看从string_view中提取的string的数量是否等于特定数字（例如4 ），然后执行一些代码。我是这样做的：可以看出，上述代码的缺点之一是，如果计数不等于 4，则意味着foundTokens的构造完全是浪费，因为它不会在代码中稍后使用。有没有办法检查存储在ss中的std:: ...

来自 gcount() 的 output 不一致 - Inconsistent output from gcount()

我编写了以下简单的 MRE，它在我的程序中重新生成了一个错误：这是一个用于标记化的程序（有关完整代码，请参见下面链接中的Compiler Explorer ）。另外，我使用GCC v11.2 。首先，我想避免使用data()因为它的效率有点低。我查看了编译器资源管理器中的程序集，显然， da ...

替换单词列表中的单词 - Replace words from list of words

我有这个数据框和停用词的模式我想通过 ID 中的文本来 go 并从停止模式中删除单词保持单词的顺序很重要。我不想使用合并功能。我试过这个但这给了我一个逻辑字符串向量而不是单词列表。我想得到这个（替换停止模式中的所有单词并保持单词顺序） ...

StringTokenizer 只存储第一个令牌？ - StringTokenizer only storing first token?

我曾尝试使用 StringTokenizer 将字符串拆分为标记，但是当我尝试计算或打印标记时，它只包含第一个单词。任何帮助，将不胜感激。输出：输入字符串：您好，欢迎使用 Java 1 你好 ...

StringTokenizer 上的意外行为 - Unexpected Behaviour on StringTokenizer

我有这个输入字符串：我正在尝试解析字符串以从中提取信息，即： id = "21"; title = "海绵蛋糕"; author = "查理蒙托亚"; 日期 = "2014-10-13"; 我正在使用 StringTokenizer：我的输出是：这里有很多错误：标题前面有 ...

如何将令牌存储到给定数组中它们自己的元素中？ - How do I store tokens into their own element in a given array?

我正在尝试编写一个方法，该方法将使用 StringTokenizer 将用户输入的字符串按一个空格分开，并将每个单词存储到他们自己的数组中。给定的代码是我在卡住 3 小时之前得到的。我试图通过让 for 循环打印出数组的元素来测试代码，但它所做的只是为每个元素返回 null。我究竟做错了什么？ ...

在这种情况下如何使用 java-util-scanner 输入新行字符串？ - How to input new line string using java-util-scanner in this situation?

我正在尝试创建一个简单的字符串计算器，它允许 Add() 方法处理数字之间的新行（而不是逗号）- 以下输入是可以的：“1\n2,3”（将等于 6）以下输入不正确：“1,\n” 我应该如何在其中输入带有 nextline(\n) 的字符串并根据“\n”和“，”进行拆分或标记？我在下面给出了我的 ...

Mapreduce 标记 3 列 - Mapreduce to tokenize 3 columns

我正在写一个需要读取 3 列的 map function。我有一个文本文件：我将如何更改一个简单的字数映射器的 stringtokenizer 以便能够在使用 while 循环时读取 3 行 } ...

Python 查找文本中单词标记的偏移量 - Python find offsets of a word token in a text

我写了这个 function findTokenOffset ，它在预标记文本中找到给定单词的偏移量（作为间隔单词列表或根据某个标记器）。重新进口，json 当标记是单个单词时，此代码可以正常工作但是，应该有像这里这样的多代币方式的代币：由于在不同的标记中重复单词，偏移量无法正常工作：如何添 ...

从管道分隔的文本文件中读取时出现 NoSuchElementException - NoSuchElementException when reading from a pipe-delimited text file

从“|”读取时出现NoSuchElementException （管道）分隔的文本文件。我认为这是导致错误的部分：public void readFromFile(String file) { operas.clear(); //clear the ArrayList try ...