標簽[johnsnowlabs-spark-nlp] - 堆棧內存溢出

[英]How to set Tokenizer() function of Spark NLP to split tokens by comma?

我正在 Spark NLP（版本 3.2.1）中構建一個管道，以從一個字符串列創建令牌，該字符串列包含按逗號分隔的搜索詞。但它給了我錯誤的預期輸出。例如，包含這些搜索詞的行回報：但我希望它忽略空格並給我以下輸出：我怎樣才能達到這個結果？ ...

用於 Scala 的 Spark 的 `TFNerDLGraphBuilder()` 的 libraryDependencies

[英]libraryDependencies for `TFNerDLGraphBuilder()` for Spark with Scala

誰能告訴 Scala 的TFNerDLGraphBuilder() for Spark 的 libraryDependencies 是什么？它給我錯誤， Cannot resolve symbol TFNerDLGraphBuilder 我看到它適用於筆記本，如下所示https://github ...

從 pyspark 數據框中刪除重復的標點符號

[英]Remove the repeated punctuation from pyspark dataframe

我需要刪除重復的標點符號並僅保留最后一次出現。我有一個如下所示的數據集我嘗試使用正則表達式來刪除特定的標點符號，如下所示但以上不起作用。誰能告訴如何在 pyspark 中實現這一目標？以下是所需的輸出。 ...

如何在 Vertex AI 工作台 Jupyterlab 筆記本上啟動 Spark 會話？

[英]How to start Spark session on Vertex AI workbench Jupyterlab notebook?

您能告訴我如何在 Google Cloud Vertex AI 工作台 Jupyterlab 筆記本上啟動 Spark 會話嗎？順便說一句，這在 Google Colaboratory 中運行良好。這里缺少什么？ ...

TypeError: 'JavaPackage' object 不可調用 | 使用來自 spark-nlp-m1_2.12 的 java 11 用於 spark 3.3.0、sparknlp 4.0.1 和 sparknlp jar

[英]TypeError: 'JavaPackage' object is not callable | using java 11 for spark 3.3.0, sparknlp 4.0.1 and sparknlp jar from spark-nlp-m1_2.12

火花 nlp jar，我從https 那里得到它：//jar-download.com/artifacts/com.johnsnowlabs.nlp.nlp.12/-m-40.p-11 JAVA_HOME = C:\Program Files\Java\jdk-18.0.1.1 在系統變量和用戶 ...

Spark NLP 在 PySpark 中不工作：TypeError: 'JavaPackage' object is not callable

[英]Spark NLP is not working in PySpark: TypeError: 'JavaPackage' object is not callable

我正在嘗試 spark-submit 一個 PySpark 應用程序，但每次我嘗試它都會在它嘗試從 Spark NLP 下載預訓練的 model 時拋出此錯誤： TypeError: 'JavaPackage' object is not callable 知道是什么原因造成的嗎？此外，有趣的是 ...

嘗試在 spark dataframe 上使用 johnsnow 預訓練管道，但無法讀取同一 session 中的增量文件

[英]trying to use johnsnow pretrained pipeline on spark dataframe but unable to read delta file in the same session

我正在使用以下代碼從 hdfs 讀取火花 dataframe：和下面的代碼使用預訓練管道：我希望合並這兩個代碼，但兩個 spark 會話沒有合並或不能同時處理這兩個任務。請幫忙！我嘗試合並兩個 spark 會話的 the.config() 選項，但它沒有用我也嘗試創建兩個 spark 會話， ...

是否可以將 Spark-NLP 庫與 Spark Structured Streaming 一起使用？

[英]Is it possible to use the library Spark-NLP with Spark Structured Streaming?

我想對從 Kafka 集群獲得的消息流執行推文情感分析，然后從 Twitter API v2 獲取推文。當我嘗試應用預訓練的情緒分析管道時，我收到一條錯誤消息： Exception: target must be either a spark DataFrame, a list of strin ...

如何獲得預訓練的 XLNET 句子嵌入？

[英]How to get Pre-trained XLNET Sentence embeddings?

我想獲得任何給定句子的 XLNET 預訓練句子嵌入。請提供代碼片段以獲取嵌入 ...

將 Spacy NER 實體格式轉換為 CONLL 格式

[英]Converting Spacy NER entity format to CONLL format

我正在研究 NER 應用程序，其中我有以下數據格式的數據注釋。有沒有辦法將其轉換為 CONLL 格式？ ...

SparkNLP PipelineModel，分階段包含 AnnotatorApproach

[英]SparkNLP PipelineModel which includes AnnotatorApproach in stages

在 SparkNLP 的PipelineModel中，所有階段都必須是AnnotatorModel類型。但是，如果其中一個注釋器模型需要數據集中的某個列作為輸入，並且該輸入列是AnnotatorApproach的 output 怎么辦？例如，我有一個訓練有素的 model 用於 NER（作為管 ...

如何在數據塊上使用帶有火花 nlp 的擁抱面變壓器微調的 NER 模型

[英]How to use NER model fine tuned using hugging face transformers with spark nlp on databricks

我需要訓練（微調）NER 標記分類器來識別我們的自定義標記。我發現最簡單的方法是：使用 W-NUT 新興實體進行令牌分類但是現在我遇到了一個問題 - 計划是遵循： Spark NLP 中的 HuggingFace - BERT Sentence.ipynb ，但是當我嘗試時：我收到文件寫 ...

sparkNLP 合約代幣化

[英]sparkNLP Tokenization of Contractions

我正在使用 sparkNLP 版本 3.2.3 並嘗試標記一些文本。我使用了 spacy 和其他分詞器來處理諸如“they're”之類的縮寫，將其拆分為“they”和“'re”。根據這個資源頁面 105-107 sparkNLP 也應該以這種方式進行標記： https ://books.goog ...

帶有自定義標簽的 SparkNLP 的 NerCrfApproach

[英]SparkNLP's NerCrfApproach with custom labels

我正在嘗試使用 CoNLL 格式的數據集訓練 SparkNLP NerCrfApproach model，該數據集具有產品實體的自定義標簽（如 I-Prod、B-Prod 等）。但是，當使用經過訓練的 model 進行預測時，我只得到“O”作為所有標記的分配 label。當使用相同的 mode ...

在管道中混合 Smark MLLIB 和 SparkNLP

[英]Mix Smark MLLIB and SparkNLP in pipeline

在 MLLIB 管道中，如何在詞干分析器（來自 Spark NLP）之后鏈接 CountVectorizer（來自 SparkML）？當我嘗試在管道中同時使用兩者時，我得到：問候， ...

Sparknlp Java 嘗試顯示 Model 結果時出錯

[英]Sparknlp Java Error While Trying to Display Model Results

我正在嘗試 output 使用 Spark-NLP 創建的練習 NLP model 的結果。但是，我不斷收到以下錯誤。有人可以幫我從這里出去嗎。當我嘗試 output dataframe 時，.show() 方法在代碼的前面起作用。每當我嘗試 output model 結果的任何部分時，它都會 ...

安裝用於醫療保健的 spark NLP 時出錯

[英]Error in installation of spark NLP for Healthcare

根據https://nlp.johnsnowlabs.com/docs/en/licensed_install ，安裝 spark-nlp-jsl 的命令如下。 pip install -q spark-nlp-jsl==${version} --extra-index-url https://py ...

膠水作業失敗，隨機出現“未找到 JohnSnowLabs spark-nlp 依賴項”錯誤

[英]Glue job failed with `JohnSnowLabs spark-nlp dependency not found` error randomly

I'm using AWS Glue to run some pyspark python code, sometimes it succeeded but sometimes failed with a dependency error: Resource Setup Error: Except ...

py4j.protocol.Py4JNetworkError：來自 Java 的答案為空

[英]py4j.protocol.Py4JNetworkError: Answer from Java side is empty

這是我在 Google Colab 上使用的代碼。它一直卡在 model.fit 部分並拋出此異常。我無法在任何地方找到任何解決方案。 memory 在 Colab 上似乎也很高，開始認為 spark nlp 庫中存在 memory 泄漏。錯誤： ...

如何在 pyspark 列上使用“LanguageDetectorDL”火花 NLP？

[英]How to use `LanguageDetectorDL` spark NLP on pyspark column?

我正在使用 pyspark dataframe。我的 df 看起來像這樣：我需要在array<strings>類型的words列上使用spark NLP中的LanguageDetectorDL ，以便它檢測英語並僅保留英語單詞並刪除其他單詞。我已經使用DocumentAssemb ...