我正在 Spark NLP(版本 3.2.1)中构建一个管道,以从一个字符串列创建令牌,该字符串列包含按逗号分隔的搜索词。 但它给了我错误的预期输出。 例如,包含这些搜索词的行 回报: 但我希望它忽略空格并给我以下输出: 我怎样才能达到这个结果? ...
我正在 Spark NLP(版本 3.2.1)中构建一个管道,以从一个字符串列创建令牌,该字符串列包含按逗号分隔的搜索词。 但它给了我错误的预期输出。 例如,包含这些搜索词的行 回报: 但我希望它忽略空格并给我以下输出: 我怎样才能达到这个结果? ...
谁能告诉 Scala 的TFNerDLGraphBuilder() for Spark 的 libraryDependencies 是什么? 它给我错误, Cannot resolve symbol TFNerDLGraphBuilder 我看到它适用于笔记本,如下所示https://github ...
我需要删除重复的标点符号并仅保留最后一次出现。 我有一个如下所示的数据集 我尝试使用正则表达式来删除特定的标点符号,如下所示 但以上不起作用。 谁能告诉如何在 pyspark 中实现这一目标? 以下是所需的输出。 ...
您能告诉我如何在 Google Cloud Vertex AI 工作台 Jupyterlab 笔记本上启动 Spark 会话吗? 顺便说一句,这在 Google Colaboratory 中运行良好。 这里缺少什么? ...
火花 nlp jar,我从https 那里得到它://jar-download.com/artifacts/com.johnsnowlabs.nlp.nlp.12/-m-40.p-11 JAVA_HOME = C:\Program Files\Java\jdk-18.0.1.1 在系统变量和用户 ...
我正在尝试 spark-submit 一个 PySpark 应用程序,但每次我尝试它都会在它尝试从 Spark NLP 下载预训练的 model 时抛出此错误: TypeError: 'JavaPackage' object is not callable 知道是什么原因造成的吗? 此外,有趣的是 ...
我正在使用以下代码从 hdfs 读取火花 dataframe: 和下面的代码使用预训练管道: 我希望合并这两个代码,但两个 spark 会话没有合并或不能同时处理这两个任务。 请帮忙! 我尝试合并两个 spark 会话的 the.config() 选项,但它没有用我也尝试创建两个 spark 会话, ...
我想对从 Kafka 集群获得的消息流执行推文情感分析,然后从 Twitter API v2 获取推文。 当我尝试应用预训练的情绪分析管道时,我收到一条错误消息: Exception: target must be either a spark DataFrame, a list of strin ...
我想获得任何给定句子的 XLNET 预训练句子嵌入。 请提供代码片段以获取嵌入 ...
我正在研究 NER 应用程序,其中我有以下数据格式的数据注释。 有没有办法将其转换为 CONLL 格式? ...
在 SparkNLP 的PipelineModel中,所有阶段都必须是AnnotatorModel类型。 但是,如果其中一个注释器模型需要数据集中的某个列作为输入,并且该输入列是AnnotatorApproach的 output 怎么办? 例如,我有一个训练有素的 model 用于 NER(作为管 ...
我需要训练(微调)NER 标记分类器来识别我们的自定义标记。 我发现最简单的方法是: 使用 W-NUT 新兴实体进行令牌分类 但是现在我遇到了一个问题 - 计划是遵循: Spark NLP 中的 HuggingFace - BERT Sentence.ipynb ,但是当我尝试时: 我收到文件写 ...
我正在使用 sparkNLP 版本 3.2.3 并尝试标记一些文本。 我使用了 spacy 和其他分词器来处理诸如“they're”之类的缩写,将其拆分为“they”和“'re”。 根据这个资源页面 105-107 sparkNLP 也应该以这种方式进行标记: https ://books.goog ...
我正在尝试使用 CoNLL 格式的数据集训练 SparkNLP NerCrfApproach model,该数据集具有产品实体的自定义标签(如 I-Prod、B-Prod 等)。 但是,当使用经过训练的 model 进行预测时,我只得到“O”作为所有标记的分配 label。 当使用相同的 mode ...
在 MLLIB 管道中,如何在词干分析器(来自 Spark NLP)之后链接 CountVectorizer(来自 SparkML)? 当我尝试在管道中同时使用两者时,我得到: 问候, ...
我正在尝试 output 使用 Spark-NLP 创建的练习 NLP model 的结果。 但是,我不断收到以下错误。 有人可以帮我从这里出去吗。 当我尝试 output dataframe 时,.show() 方法在代码的前面起作用。每当我尝试 output model 结果的任何部分时,它都会 ...
根据https://nlp.johnsnowlabs.com/docs/en/licensed_install ,安装 spark-nlp-jsl 的命令如下。 pip install -q spark-nlp-jsl==${version} --extra-index-url https://py ...
I'm using AWS Glue to run some pyspark python code, sometimes it succeeded but sometimes failed with a dependency error: Resource Setup Error: Except ...
这是我在 Google Colab 上使用的代码。 它一直卡在 model.fit 部分并抛出此异常。 我无法在任何地方找到任何解决方案。 memory 在 Colab 上似乎也很高,开始认为 spark nlp 库中存在 memory 泄漏。 错误: ...
我正在使用 pyspark dataframe。 我的 df 看起来像这样: 我需要在array<strings>类型的words列上使用spark NLP中的LanguageDetectorDL ,以便它检测英语并仅保留英语单词并删除其他单词。 我已经使用DocumentAssemb ...