cost 190 ms
如何設置 Spark NLP 的 Tokenizer() 函數以逗號分割標記?

[英]How to set Tokenizer() function of Spark NLP to split tokens by comma?

我正在 Spark NLP(版本 3.2.1)中構建一個管道,以從一個字符串列創建令牌,該字符串列包含按逗號分隔的搜索詞。 但它給了我錯誤的預期輸出。 例如,包含這些搜索詞的行 回報: 但我希望它忽略空格並給我以下輸出: 我怎樣才能達到這個結果? ...

從 pyspark 數據框中刪除重復的標點符號

[英]Remove the repeated punctuation from pyspark dataframe

我需要刪除重復的標點符號並僅保留最后一次出現。 我有一個如下所示的數據集 我嘗試使用正則表達式來刪除特定的標點符號,如下所示 但以上不起作用。 誰能告訴如何在 pyspark 中實現這一目標? 以下是所需的輸出。 ...

TypeError: 'JavaPackage' object 不可調用 | 使用來自 spark-nlp-m1_2.12 的 java 11 用於 spark 3.3.0、sparknlp 4.0.1 和 sparknlp jar

[英]TypeError: 'JavaPackage' object is not callable | using java 11 for spark 3.3.0, sparknlp 4.0.1 and sparknlp jar from spark-nlp-m1_2.12

火花 nlp jar,我從https 那里得到它://jar-download.com/artifacts/com.johnsnowlabs.nlp.nlp.12/-m-40.p-11 JAVA_HOME = C:\Program Files\Java\jdk-18.0.1.1 在系統變量和用戶 ...

Spark NLP 在 PySpark 中不工作:TypeError: 'JavaPackage' object is not callable

[英]Spark NLP is not working in PySpark: TypeError: 'JavaPackage' object is not callable

我正在嘗試 spark-submit 一個 PySpark 應用程序,但每次我嘗試它都會在它嘗試從 Spark NLP 下載預訓練的 model 時拋出此錯誤: TypeError: 'JavaPackage' object is not callable 知道是什么原因造成的嗎? 此外,有趣的是 ...

嘗試在 spark dataframe 上使用 johnsnow 預訓練管道,但無法讀取同一 session 中的增量文件

[英]trying to use johnsnow pretrained pipeline on spark dataframe but unable to read delta file in the same session

我正在使用以下代碼從 hdfs 讀取火花 dataframe: 和下面的代碼使用預訓練管道: 我希望合並這兩個代碼,但兩個 spark 會話沒有合並或不能同時處理這兩個任務。 請幫忙! 我嘗試合並兩個 spark 會話的 the.config() 選項,但它沒有用我也嘗試創建兩個 spark 會話, ...

是否可以將 Spark-NLP 庫與 Spark Structured Streaming 一起使用?

[英]Is it possible to use the library Spark-NLP with Spark Structured Streaming?

我想對從 Kafka 集群獲得的消息流執行推文情感分析,然后從 Twitter API v2 獲取推文。 當我嘗試應用預訓練的情緒分析管道時,我收到一條錯誤消息: Exception: target must be either a spark DataFrame, a list of strin ...

SparkNLP PipelineModel,分階段包含 AnnotatorApproach

[英]SparkNLP PipelineModel which includes AnnotatorApproach in stages

在 SparkNLP 的PipelineModel中,所有階段都必須是AnnotatorModel類型。 但是,如果其中一個注釋器模型需要數據集中的某個列作為輸入,並且該輸入列是AnnotatorApproach的 output 怎么辦? 例如,我有一個訓練有素的 model 用於 NER(作為管 ...

如何在數據塊上使用帶有火花 nlp 的擁抱面變壓器微調的 NER 模型

[英]How to use NER model fine tuned using hugging face transformers with spark nlp on databricks

我需要訓練(微調)NER 標記分類器來識別我們的自定義標記。 我發現最簡單的方法是: 使用 W-NUT 新興實體進行令牌分類 但是現在我遇到了一個問題 - 計划是遵循: Spark NLP 中的 HuggingFace - BERT Sentence.ipynb ,但是當我嘗試時: 我收到文件寫 ...

sparkNLP 合約代幣化

[英]sparkNLP Tokenization of Contractions

我正在使用 sparkNLP 版本 3.2.3 並嘗試標記一些文本。 我使用了 spacy 和其他分詞器來處理諸如“they're”之類的縮寫,將其拆分為“they”和“'re”。 根據這個資源頁面 105-107 sparkNLP 也應該以這種方式進行標記: https ://books.goog ...

帶有自定義標簽的 SparkNLP 的 NerCrfApproach

[英]SparkNLP's NerCrfApproach with custom labels

我正在嘗試使用 CoNLL 格式的數據集訓練 SparkNLP NerCrfApproach model,該數據集具有產品實體的自定義標簽(如 I-Prod、B-Prod 等)。 但是,當使用經過訓練的 model 進行預測時,我只得到“O”作為所有標記的分配 label。 當使用相同的 mode ...

Sparknlp Java 嘗試顯示 Model 結果時出錯

[英]Sparknlp Java Error While Trying to Display Model Results

我正在嘗試 output 使用 Spark-NLP 創建的練習 NLP model 的結果。 但是,我不斷收到以下錯誤。 有人可以幫我從這里出去嗎。 當我嘗試 output dataframe 時,.show() 方法在代碼的前面起作用。每當我嘗試 output model 結果的任何部分時,它都會 ...

py4j.protocol.Py4JNetworkError:來自 Java 的答案為空

[英]py4j.protocol.Py4JNetworkError: Answer from Java side is empty

這是我在 Google Colab 上使用的代碼。 它一直卡在 model.fit 部分並拋出此異常。 我無法在任何地方找到任何解決方案。 memory 在 Colab 上似乎也很高,開始認為 spark nlp 庫中存在 memory 泄漏。 錯誤: ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM