cost 86 ms
试图删除一个单词的所有非字母部分,但此行从分词器中删除了整个单词“Have” - Trying to delete all non letter parts of a word but this line deletes the whole word '"Have' from the tokenizer

我只是想让这段文字正确分割,现在唯一的问题是这个词: “有另外,如果有人可以提供一种解决方案,将所有这些组合成一条线,那会很好,但我无法让它工作,谢谢 ...

如何同时使用换行符和逗号作为 StringTokenizer 的分隔符 - How to use both a new line and comma as a delimeter for the StringTokenizer

我希望能够同时使用逗号和新行作为标记的分隔符。 这将仅用于逗号: Tokens = new StringTokenizer(line,","); 但我将如何实施它来解释一条新线呢? 我试过",\n"和\n,"但它们不起作用。 我正在尝试从如下所示的文本文件中提取数据: hello apple, tr ...

如何在 spacy 中处理大型数据集 - How to handle with large dataset in spacy

我使用以下代码来清理我的数据集并打印所有标记(单词)。 当我用一个小字符串执行这段代码时,它工作正常。 但是当我使用 50 兆字节 csv 时,我收到了消息 当我将限制增加到这个大小时,我的计算机出现了难题。我该如何解决这个问题? 想要标记这些数据量并没有什么特别的。 ...

NLP 计时器 *如何获取字符串中某些数字的顺序以使用设置计时器? - NLP Timer *How do I get the order of certain numbers in a string to use setting a timer?

在此代码中,您只能请求 x 小时、x 分钟或 x 秒的计时器,但不能请求它们的组合。 我想说将计时器设置为 10 分 45 秒,并让系统知道数字 10 与分钟相关联,而 45 与秒相关联。 此外,我对编码是全新的,所以我知道这段代码可能并不漂亮。 ...

使用 Java StringTokenizer 拆分令牌 - Splitting the tokens with Java StringTokenizer

我有一个如下所示的数据集: 和以下代码: 它实际上是来自官方 apache hadoop 文档的字数,只是对我的数据集进行了一点定制。 我收到以下错误: 我只是想计算每个抽奖号码的出现次数。 如何通过使用我的代码中的 StringTokenizer 来做到这一点? 我知道我必须拆分整行,因为标记器是 ...

读取文件——将字符串和 int 值配对——使用多条分割线 - Reading a file -- pairing a String and int value -- with multiple split lines

我正在按照以下标准进行练习: “输入由成对的标记组成,其中每对标记以该人购买的机票类型(“长途汽车”、“头等舱”或“折扣”,区分大小写)开头,后跟飞行里程数” 该列表可以配对coach 1500 firstclass 2000 discount 900 coach 3500目前效果很好。 但是,当 ...

如何在没有任何动态分配的情况下将 string_view 拆分为多个 string_view 对象 - how to split a string_view into multiple string_view objects without any dynamic allocations

下面的片段来自这个答案。 现在像这样的缓冲区: 我想要一个sting_view (指向缓冲区)并将其传递给标记器 function 并且标记应该通过 out 参数(而不是向量)以std::string_view s 的形式返回,它也会返回提取的令牌数。 界面如下所示: 如果有人可以实现类似的 tok ...

如何获取存储在字符串流中的字符串数 - How to get the number of strings stored in a stringstream

我需要测试以查看从string_view中提取的string的数量是否等于特定数字(例如4 ),然后执行一些代码。 我是这样做的: 可以看出,上述代码的缺点之一是,如果计数不等于 4,则意味着foundTokens的构造完全是浪费,因为它不会在代码中稍后使用。 有没有办法检查存储在ss中的std:: ...

来自 gcount() 的 output 不一致 - Inconsistent output from gcount()

我编写了以下简单的 MRE,它在我的程序中重新生成了一个错误: 这是一个用于标记化的程序(有关完整代码,请参见下面链接中的Compiler Explorer )。 另外,我使用GCC v11.2 。 首先,我想避免使用data()因为它的效率有点低。 我查看了编译器资源管理器中的程序集,显然, da ...

如何将令牌存储到给定数组中它们自己的元素中? - How do I store tokens into their own element in a given array?

我正在尝试编写一个方法,该方法将使用 StringTokenizer 将用户输入的字符串按一个空格分开,并将每个单词存储到他们自己的数组中。 给定的代码是我在卡住 3 小时之前得到的。 我试图通过让 for 循环打印出数组的元素来测试代码,但它所做的只是为每个元素返回 null。 我究竟做错了什么? ...

在这种情况下如何使用 java-util-scanner 输入新行字符串? - How to input new line string using java-util-scanner in this situation?

我正在尝试创建一个简单的字符串计算器,它允许 Add() 方法处理数字之间的新行(而不是逗号)- 以下输入是可以的:“1\n2,3”(将等于 6) 以下输入不正确:“1,\n” 我应该如何在其中输入带有 nextline(\n) 的字符串并根据“\n”和“,”进行拆分或标记? 我在下面给出了我的 ...

Python 查找文本中单词标记的偏移量 - Python find offsets of a word token in a text

我写了这个 function findTokenOffset ,它在预标记文本中找到给定单词的偏移量(作为间隔单词列表或根据某个标记器)。 重新进口,json 当标记是单个单词时,此代码可以正常工作 但是,应该有像这里这样的多代币方式的代币: 由于在不同的标记中重复单词,偏移量无法正常工作: 如何添 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM