cost 275 ms
标记撇号和破折号 python - tokenize apostrophe and dash python

我使用正则表达式将以下 function 的句子标记化。 问题是它删除了撇号和破折号之前长度小于三的单词。 例如对于法语单词 如果字长大于三,则 function 可以正常工作。 例如 也就是说,我需要去掉长度小于3的单词,但是如果是撇号和破折号的组合,那么就不需要去掉 ...

没有库的标记化 - tokenizing without libraries

我使用这个网站是为了更好地了解 spacy 库来标记https://machinelearningknowledge.ai/complete-guide-to-spacy-tokenizer-with-examples/ 。 它通过在不删除标点符号的情况下拆分白色文本来进行标记化,而是将标点符号转换 ...

正则表达式(JS 表示法):Select 空格不在 [ []、{}、"" ] 中以标记字符串 - Regex (JS Notation): Select spaces not in [ [], {}, "" ] to tokenize string

因此,我需要通过不在引号之间的所有空格来标记字符串,我在 Javascript 表示法中使用正则表达式。 例如: 成为 然而,对于我的用例,该解决方案应该适用于以下测试设置: https://www.regextester.com/ 所有不在引号内的空格都应在上述设置中突出显示。 如果它们在上述设置 ...

Regex JS:为一行中的多个引号选择不在引号内的所有空格 - Regex JS: Selecting all spaces not within quotes for multiple quotes in a row

所以我需要 select 所有不在引号之间的空格并删除它们,我在 Javascript 表示法中使用正则表达式。 例如: 成为 更新:我正在寻找适用于上述测试设置的解决方案: https://www.regextester.com/ 目标是通过引号中未包含的这些空格有效地标记这个长句子,但我认为上述 ...

elasticsearch 中的 uax_url_email tokenizer 为具有特殊字符的电子邮件生成多个令牌 - uax_url_email tokenizer in elasticsearch generates multiple tokens for emails with special characters

我对索引中的 email 字段使用 uax_url_email 分词器。 它工作完美并为普通电子邮件生成单个令牌,如 johndoe@yahoo.com。 但是,当 email 包含外来字符或特殊字符时,它会生成多个标记。 有解决办法吗? 我不想生成多个令牌PUT email-test-index ...

不确定我是否必须使用 class 属性或实例属性 - Not sure if I have to use class attribute or instance attribute

我是 python 的初学者,所以我已经为这个非常基本的问题道歉。 我有一个作业,我必须从给定的文本创建一个句子和标记列表,并将它们作为属性保存在 class 中。此外,我必须确保标记保存在仍然代表句子的数据结构中(如:我仍然可以看到标记是否位于句子的开头)。 我知道如何创建 class,理论上,我 ...

标记化元组中的短语 - Tokenize phrases in tokenized tuple

我有一个由标记化元组组成的数据集。 我的预处理步骤是首先对单词进行分词,然后对俚语进行规范化。 但是俚语可以由带有空格的短语组成。 我正在尝试进行另一轮标记化,但我想不出办法。 这是我的数据示例。 我正在尝试找出一种生成secondTokenization列的方法。 这是我目前正在处理的代码.... ...

如何设置 Spark NLP 的 Tokenizer() 函数以逗号分割标记? - How to set Tokenizer() function of Spark NLP to split tokens by comma?

我正在 Spark NLP(版本 3.2.1)中构建一个管道,以从一个字符串列创建令牌,该字符串列包含按逗号分隔的搜索词。 但它给了我错误的预期输出。 例如,包含这些搜索词的行 回报: 但我希望它忽略空格并给我以下输出: 我怎样才能达到这个结果? ...

如何将用户定义的词添加到spaCy - How to add user-defined words to spaCy

我是 spaCy 的新手,正在使用 spaCy 处理医学文献。 我发现Tokenizer会把由两个词组成的拉丁名分成两个独立的词,这是不合适的。 另外我还有几千个自定义词,基本都是生物名(一般由两个词组成,比如当归)。 如何将这些自定义单词添加到 spaCy 并让 Tokenizer 将这些多词单 ...

是否有 cl100k_base 分词器的 javascript 实现? - Is there a javascript implementation of cl100k_base tokenizer?

OpenAI 的新嵌入 API 使用cl100k_base词器。 我是从 NodeJS 客户端调用它的,但我看不出有什么简单的方法可以分割我的字符串,这样它们就不会超过 8192 个令牌的 OpenAI 限制。 如果我可以先对字符串进行编码,将其切片到极限,然后对其进行解码并将其发送到 API, ...

在 PostgreSQL 全文搜索中翻译希腊字符 - Translate greek characters in PostgreSQL full-text search

为了全文搜索的目的,我想将希腊字符翻译成它们常见的拉丁字符。 考虑以下: 长版本不匹配,但需要这些符号的用户可能会键入alpha或beta而不是 α 和 β。 是否有一个预定义的字典可以自动将 α 转换为 'a' 和 'alpha'? 如果没有,我怎样才能制作一个? 或者有更好的方法吗? ...

如何使用nltk获取python中某个句子的索引? - How to get an index for a certain sentance in python using nltk?

所以我在从文本中找到包含某些单词的句子并将这些句子及其索引输出时遇到了问题(我的意思是文本中的句子编号) 使用 NLTK 库,我使我的文本在我需要的句子和输出上分开: 代码: Output 还使用 len 我得到了整体句子的编号,但是当我尝试使用索引时,我无法将它们设为 output 它们的索引 ...

自定义分词器在 countvectorizer sklearn 中不起作用 - Custom tokenizer not working in countvectorizer sklearn

我正在尝试使用自定义分词器 function 制作一个 Countvectorizer。我遇到了一个奇怪的问题。 在下面的代码中,temp_tok 是一个包含 5 个值的列表,稍后用作词汇表。 两个函数的文本 output 相同,即 但是当我用这些分词器构建矢量化器时,它为 tokenize2 提供 ...

读取简单配置和创建与我们获取的数据相对应的数据结构的过程的正确术语是什么? - What is the correct terminology for the process of reading a simple config and creating data structures corresponding to the data we acquired?

我的问题是,对于读取简单配置和创建与我们获取、解析或读取的数据相对应的数据结构的过程,正确的术语是什么? 我读了很多关于这种区别的地方,但我自己无法得出结论。 在许多地方,这些术语可以互换使用。 例如: 因此,我对解析(将标记分组为语法元素)和使用我们从解析(解释)中获得的元素创建数据结构有不同的 ...

有没有办法从 rust 中的令牌树或表达式访问令牌(无需字符串化且必须解析) - Is there any way of accessing the tokens from a token tree or expression in rust (without stringifing and having to parse)

所以我的问题有两个方面,我正在尝试制作一个类似于 SymPy 或 Math.NET 符号的计算机代数系统我的想法是使用某种宏来允许这种语法:let symbolic!(fn function(x, a) -> 2/4*x^2 + a*x + 4) function.derive(x) // ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM