cost 284 ms
将 Prodigy JSONL / Spacy Doc 格式转换为 CONLL - Convert Prodigy JSONL / Spacy Doc format to CONLL

我已经搜索了一段时间,但没有找到解决我问题的方法。 对于关系分类任务,我已经使用 prodigy 注释软件注释了几条新闻,例如文本文档。 Prodigy 在 JSONL 文件中输出格式,可以将其转换为 .spacy 文件。 在 JSONL 格式中,每一行代表一篇带有注释的新闻文章。 现在我想将我 ...

for 循环的问题,break 语句没有按照我的预期执行 - Problem with for loop, break statement does not do what I thought it would

这是我第一次在这里发帖,所以请温柔点。 我写了以下代码: 该代码应该从 NER 上的 2003conll-shared 任务中获取数据,并首先将各个标记连接到一个字符串(因为数据是预标记化的),然后将其输入 spaCy 以利用其依赖项解析。 之后,我想写与原始文件中相同的行 + 两个包含依赖关系和各 ...

将 spaCy `Doc` 转换为 CoNLL 2003 示例 - Convert spaCy `Doc` into CoNLL 2003 sample

我打算训练一个 Spark NLP 自定义 NER model ,它使用 CoNLL 2003 格式来训练(这个博客甚至留下了一些训练样本数据来加速后续)。 这个“示例数据”对我没有用,因为我有自己的训练数据来训练 model; 但是,此数据由 spaCy Doc对象列表组成,老实说,我不知道如何进 ...

如果其中一个单元格包含所有大写字符串的列表,则从 Pandas 数据框中删除行 - Removing a rows from pandas data frame if one of its cell contains list of all caps string

我正在使用 conll2003dataset。 它包含来自各种新闻来源的文章等。 它包含句子、这些句子中每个单词的词性标签、这些单词的块 ID 等。 有些句子都是大写的。 我只想从相应的数据框中删除这些行。 这是我尝试过的: 但我收到以下错误: 我哪里出错了? 我该怎么做呢? 这是说明 ...

将.CSV 数据转换为 NER 的 CoNLL BIO 格式 - Convert .CSV data into CoNLL BIO format for NER

我在 a.csv 文件中有一些数据,看起来像这样 我想将该数据转换为 CoNLL 格式的文本文件,如下所示,其中每一列(文本和标签)由制表符分隔,每个句子(或文档)的结尾由空行指示。 我尝试过但未能奏效,它将空行计为有效数据,而不是句子的结尾。 我正在寻找一些帮助来修改或改进我拥有的代码。 ...

使用 NLTK 解析 CoNLL-U 文件 - Parsing CoNLL-U files with NLTK

我知道 Python 中有CoNLL-U解析器。我只想确认NLTK没有本地例程来解析 CoNLL-U(或其他具有依赖语法的 CoNLL 格式)。 查看代码,似乎 HEAD 和 DEP 不属于conll允许的列类型。 这是非常出乎意料的,因为 CoNLL-U 现在非常流行,从大约 15 年以来,依赖语 ...

如何将 Conll 2003 格式转换为 json 格式? - How can I convert Conll 2003 format to json format?

我有一个句子列表,句子的每个单词都在嵌套列表中。 如: 还有另一个列表,其中每个单词对应一个实体标签。 如: 这是基本的 ConLL2003 数据,但实际上我使用的是另一种语言的不同数据。 我只展示了这个作为示例 represantation。 我想将此列表列表转换为 JsonL 格式,格式为: ...

如何解决 ValueError: [E177] 检测到格式错误的 IOB 输入:an? - How to solve ValueError: [E177] Ill-formed IOB input detected: an?

我正在尝试将 conll 格式数据转换为 spacy 的 json 格式以训练模型。 我正在使用 spacy 的转换。 我试过这个命令 我收到一个值错误。 我删除了数据集中所有出现的“in”并再次尝试,然后我得到了同样的错误,但略有变化。 帮我解决这个问题。 我的数据集看起来像这样 ...

如何使用 conllu 库创建 TokenList? - How to create a TokenList using the conllu library?

我正在尝试使用 conllu 库创建一个 CoNLL-U 文件,作为我正在处理的通用依赖标记项目的一部分。 我在 python 列表中有很多句子。 这些包含令牌、词条、POS 标签、特征等的子列表。例如: 我想自动化将这些转换为 CoNLL-U 解析句子的过程,所以我写了以下 function: ...

附加在 for 循环中不适用于存储令牌列表 - Append in for-loop not working for storing the token lists

在下面的 for 循环中,我从文件夹中读取 .dat 文件并解析每个文件以提取令牌列表,然后将其存储在列表中。 我的代码执行此操作,但针对单个文件。 我有 1187 个文件,但 ud_file.append() 只是添加了最新文件中的标记,并忽略了它在早期迭代中附加的标记。 因此,该列表仅包含最新的 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM