![](/img/trans.png)
[英]How to set Tokenizer() function of Spark NLP to split tokens by comma?
我正在 Spark NLP(版本 3.2.1)中構建一個管道,以從一個字符串列創建令牌,該字符串列包含按逗號分隔的搜索詞。 但它給了我錯誤的預期輸出。 例如,包含這些搜索詞的行 回報: 但我希望它忽略空格並給我以下輸出: 我怎樣才能達到這個結果? ...
[英]How to set Tokenizer() function of Spark NLP to split tokens by comma?
我正在 Spark NLP(版本 3.2.1)中構建一個管道,以從一個字符串列創建令牌,該字符串列包含按逗號分隔的搜索詞。 但它給了我錯誤的預期輸出。 例如,包含這些搜索詞的行 回報: 但我希望它忽略空格並給我以下輸出: 我怎樣才能達到這個結果? ...
[英]libraryDependencies for `TFNerDLGraphBuilder()` for Spark with Scala
誰能告訴 Scala 的TFNerDLGraphBuilder() for Spark 的 libraryDependencies 是什么? 它給我錯誤, Cannot resolve symbol TFNerDLGraphBuilder 我看到它適用於筆記本,如下所示https://github ...
[英]Remove the repeated punctuation from pyspark dataframe
我需要刪除重復的標點符號並僅保留最后一次出現。 我有一個如下所示的數據集 我嘗試使用正則表達式來刪除特定的標點符號,如下所示 但以上不起作用。 誰能告訴如何在 pyspark 中實現這一目標? 以下是所需的輸出。 ...
[英]How to start Spark session on Vertex AI workbench Jupyterlab notebook?
您能告訴我如何在 Google Cloud Vertex AI 工作台 Jupyterlab 筆記本上啟動 Spark 會話嗎? 順便說一句,這在 Google Colaboratory 中運行良好。 這里缺少什么? ...
[英]TypeError: 'JavaPackage' object is not callable | using java 11 for spark 3.3.0, sparknlp 4.0.1 and sparknlp jar from spark-nlp-m1_2.12
火花 nlp jar,我從https 那里得到它://jar-download.com/artifacts/com.johnsnowlabs.nlp.nlp.12/-m-40.p-11 JAVA_HOME = C:\Program Files\Java\jdk-18.0.1.1 在系統變量和用戶 ...
[英]Spark NLP is not working in PySpark: TypeError: 'JavaPackage' object is not callable
我正在嘗試 spark-submit 一個 PySpark 應用程序,但每次我嘗試它都會在它嘗試從 Spark NLP 下載預訓練的 model 時拋出此錯誤: TypeError: 'JavaPackage' object is not callable 知道是什么原因造成的嗎? 此外,有趣的是 ...
[英]trying to use johnsnow pretrained pipeline on spark dataframe but unable to read delta file in the same session
我正在使用以下代碼從 hdfs 讀取火花 dataframe: 和下面的代碼使用預訓練管道: 我希望合並這兩個代碼,但兩個 spark 會話沒有合並或不能同時處理這兩個任務。 請幫忙! 我嘗試合並兩個 spark 會話的 the.config() 選項,但它沒有用我也嘗試創建兩個 spark 會話, ...
[英]Is it possible to use the library Spark-NLP with Spark Structured Streaming?
我想對從 Kafka 集群獲得的消息流執行推文情感分析,然后從 Twitter API v2 獲取推文。 當我嘗試應用預訓練的情緒分析管道時,我收到一條錯誤消息: Exception: target must be either a spark DataFrame, a list of strin ...
[英]How to get Pre-trained XLNET Sentence embeddings?
我想獲得任何給定句子的 XLNET 預訓練句子嵌入。 請提供代碼片段以獲取嵌入 ...
[英]Converting Spacy NER entity format to CONLL format
我正在研究 NER 應用程序,其中我有以下數據格式的數據注釋。 有沒有辦法將其轉換為 CONLL 格式? ...
[英]SparkNLP PipelineModel which includes AnnotatorApproach in stages
在 SparkNLP 的PipelineModel中,所有階段都必須是AnnotatorModel類型。 但是,如果其中一個注釋器模型需要數據集中的某個列作為輸入,並且該輸入列是AnnotatorApproach的 output 怎么辦? 例如,我有一個訓練有素的 model 用於 NER(作為管 ...
[英]How to use NER model fine tuned using hugging face transformers with spark nlp on databricks
我需要訓練(微調)NER 標記分類器來識別我們的自定義標記。 我發現最簡單的方法是: 使用 W-NUT 新興實體進行令牌分類 但是現在我遇到了一個問題 - 計划是遵循: Spark NLP 中的 HuggingFace - BERT Sentence.ipynb ,但是當我嘗試時: 我收到文件寫 ...
[英]sparkNLP Tokenization of Contractions
我正在使用 sparkNLP 版本 3.2.3 並嘗試標記一些文本。 我使用了 spacy 和其他分詞器來處理諸如“they're”之類的縮寫,將其拆分為“they”和“'re”。 根據這個資源頁面 105-107 sparkNLP 也應該以這種方式進行標記: https ://books.goog ...
[英]SparkNLP's NerCrfApproach with custom labels
我正在嘗試使用 CoNLL 格式的數據集訓練 SparkNLP NerCrfApproach model,該數據集具有產品實體的自定義標簽(如 I-Prod、B-Prod 等)。 但是,當使用經過訓練的 model 進行預測時,我只得到“O”作為所有標記的分配 label。 當使用相同的 mode ...
[英]Mix Smark MLLIB and SparkNLP in pipeline
在 MLLIB 管道中,如何在詞干分析器(來自 Spark NLP)之后鏈接 CountVectorizer(來自 SparkML)? 當我嘗試在管道中同時使用兩者時,我得到: 問候, ...
[英]Sparknlp Java Error While Trying to Display Model Results
我正在嘗試 output 使用 Spark-NLP 創建的練習 NLP model 的結果。 但是,我不斷收到以下錯誤。 有人可以幫我從這里出去嗎。 當我嘗試 output dataframe 時,.show() 方法在代碼的前面起作用。每當我嘗試 output model 結果的任何部分時,它都會 ...
[英]Error in installation of spark NLP for Healthcare
根據https://nlp.johnsnowlabs.com/docs/en/licensed_install ,安裝 spark-nlp-jsl 的命令如下。 pip install -q spark-nlp-jsl==${version} --extra-index-url https://py ...
[英]Glue job failed with `JohnSnowLabs spark-nlp dependency not found` error randomly
I'm using AWS Glue to run some pyspark python code, sometimes it succeeded but sometimes failed with a dependency error: Resource Setup Error: Except ...
[英]py4j.protocol.Py4JNetworkError: Answer from Java side is empty
這是我在 Google Colab 上使用的代碼。 它一直卡在 model.fit 部分並拋出此異常。 我無法在任何地方找到任何解決方案。 memory 在 Colab 上似乎也很高,開始認為 spark nlp 庫中存在 memory 泄漏。 錯誤: ...
[英]How to use `LanguageDetectorDL` spark NLP on pyspark column?
我正在使用 pyspark dataframe。 我的 df 看起來像這樣: 我需要在array<strings>類型的words列上使用spark NLP中的LanguageDetectorDL ,以便它檢測英語並僅保留英語單詞並刪除其他單詞。 我已經使用DocumentAssemb ...