cost 273 ms
試圖刪除一個單詞的所有非字母部分,但此行從分詞器中刪除了整個單詞“Have”

[英]Trying to delete all non letter parts of a word but this line deletes the whole word '"Have' from the tokenizer

我只是想讓這段文字正確分割,現在唯一的問題是這個詞: “有另外,如果有人可以提供一種解決方案,將所有這些組合成一條線,那會很好,但我無法讓它工作,謝謝 ...

如何同時使用換行符和逗號作為 StringTokenizer 的分隔符

[英]How to use both a new line and comma as a delimeter for the StringTokenizer

我希望能夠同時使用逗號和新行作為標記的分隔符。 這將僅用於逗號: Tokens = new StringTokenizer(line,","); 但我將如何實施它來解釋一條新線呢? 我試過",\n"和\n,"但它們不起作用。 我正在嘗試從如下所示的文本文件中提取數據: hello apple, tr ...

如何在 spacy 中處理大型數據集

[英]How to handle with large dataset in spacy

我使用以下代碼來清理我的數據集並打印所有標記(單詞)。 當我用一個小字符串執行這段代碼時,它工作正常。 但是當我使用 50 兆字節 csv 時,我收到了消息 當我將限制增加到這個大小時,我的計算機出現了難題。我該如何解決這個問題? 想要標記這些數據量並沒有什么特別的。 ...

NLP 計時器 *如何獲取字符串中某些數字的順序以使用設置計時器?

[英]NLP Timer *How do I get the order of certain numbers in a string to use setting a timer?

在此代碼中,您只能請求 x 小時、x 分鍾或 x 秒的計時器,但不能請求它們的組合。 我想說將計時器設置為 10 分 45 秒,並讓系統知道數字 10 與分鍾相關聯,而 45 與秒相關聯。 此外,我對編碼是全新的,所以我知道這段代碼可能並不漂亮。 ...

使用 Java StringTokenizer 拆分令牌

[英]Splitting the tokens with Java StringTokenizer

我有一個如下所示的數據集: 和以下代碼: 它實際上是來自官方 apache hadoop 文檔的字數,只是對我的數據集進行了一點定制。 我收到以下錯誤: 我只是想計算每個抽獎號碼的出現次數。 如何通過使用我的代碼中的 StringTokenizer 來做到這一點? 我知道我必須拆分整行,因為標記器是 ...

無法生成 RSA 公鑰

[英]Can't generate RSA public key

我正在嘗試了解 rsa 公鑰生成。 經過一些研究,我創建了一個應該返回公鑰的“簡單”代碼,但我不知道為什么,它沒有。 誰能告訴我為什么並解釋一下? 為了測試它,我在“input_text”文件上寫了一些隨機數字:8,33 6,18 ...

讀取文件——將字符串和 int 值配對——使用多條分割線

[英]Reading a file -- pairing a String and int value -- with multiple split lines

我正在按照以下標准進行練習: “輸入由成對的標記組成,其中每對標記以該人購買的機票類型(“長途汽車”、“頭等艙”或“折扣”,區分大小寫)開頭,后跟飛行里程數” 該列表可以配對coach 1500 firstclass 2000 discount 900 coach 3500目前效果很好。 但是,當 ...

function退出后char數組變量被銷毀

[英]char array variables are destroyed after exiting from function

我使用strtok()在 function 中標記我的字符串。將值復制到全局char數組后,我打印這些值以確保功能。 一切都很好,但是當我想訪問它們時,它們被破壞了。 這是代碼: 這是 output 我想將值分配給結構,但它們被遺漏了。 ...

如何在沒有任何動態分配的情況下將 string_view 拆分為多個 string_view 對象

[英]how to split a string_view into multiple string_view objects without any dynamic allocations

下面的片段來自這個答案。 現在像這樣的緩沖區: 我想要一個sting_view (指向緩沖區)並將其傳遞給標記器 function 並且標記應該通過 out 參數(而不是向量)以std::string_view s 的形式返回,它也會返回提取的令牌數。 界面如下所示: 如果有人可以實現類似的 tok ...

如何獲取存儲在字符串流中的字符串數

[英]How to get the number of strings stored in a stringstream

我需要測試以查看從string_view中提取的string的數量是否等於特定數字(例如4 ),然后執行一些代碼。 我是這樣做的: 可以看出,上述代碼的缺點之一是,如果計數不等於 4,則意味着foundTokens的構造完全是浪費,因為它不會在代碼中稍后使用。 有沒有辦法檢查存儲在ss中的std:: ...

來自 gcount() 的 output 不一致

[英]Inconsistent output from gcount()

我編寫了以下簡單的 MRE,它在我的程序中重新生成了一個錯誤: 這是一個用於標記化的程序(有關完整代碼,請參見下面鏈接中的Compiler Explorer )。 另外,我使用GCC v11.2 。 首先,我想避免使用data()因為它的效率有點低。 我查看了編譯器資源管理器中的程序集,顯然, da ...

替換單詞列表中的單詞

[英]Replace words from list of words

我有這個數據框 和停用詞的模式 我想通過 ID 中的文本來 go 並從停止模式中刪除單詞保持單詞的順序很重要。 我不想使用合並功能。 我試過這個 但這給了我一個邏輯字符串向量而不是單詞列表。 我想得到這個(替換停止模式中的所有單詞並保持單詞順序) ...

StringTokenizer 只存儲第一個令牌?

[英]StringTokenizer only storing first token?

我曾嘗試使用 StringTokenizer 將字符串拆分為標記,但是當我嘗試計算或打印標記時,它只包含第一個單詞。 任何幫助,將不勝感激。 輸出: 輸入字符串:您好,歡迎使用 Java 1 你好 ...

StringTokenizer 上的意外行為

[英]Unexpected Behaviour on StringTokenizer

我有這個輸入字符串: 我正在嘗試解析字符串以從中提取信息,即: id = "21"; title = "海綿蛋糕"; author = "查理蒙托亞"; 日期 = "2014-10-13"; 我正在使用 StringTokenizer: 我的輸出是: 這里有很多錯誤:標題前面有 ...

如何將令牌存儲到給定數組中它們自己的元素中?

[英]How do I store tokens into their own element in a given array?

我正在嘗試編寫一個方法,該方法將使用 StringTokenizer 將用戶輸入的字符串按一個空格分開,並將每個單詞存儲到他們自己的數組中。 給定的代碼是我在卡住 3 小時之前得到的。 我試圖通過讓 for 循環打印出數組的元素來測試代碼,但它所做的只是為每個元素返回 null。 我究竟做錯了什么? ...

在這種情況下如何使用 java-util-scanner 輸入新行字符串?

[英]How to input new line string using java-util-scanner in this situation?

我正在嘗試創建一個簡單的字符串計算器,它允許 Add() 方法處理數字之間的新行(而不是逗號)- 以下輸入是可以的:“1\n2,3”(將等於 6) 以下輸入不正確:“1,\n” 我應該如何在其中輸入帶有 nextline(\n) 的字符串並根據“\n”和“,”進行拆分或標記? 我在下面給出了我的 ...

Mapreduce 標記 3 列

[英]Mapreduce to tokenize 3 columns

我正在寫一個需要讀取 3 列的 map function。 我有一個文本文件: 我將如何更改一個簡單的字數映射器的 stringtokenizer 以便能夠在使用 while 循環時讀取 3 行 } ...

Python 查找文本中單詞標記的偏移量

[英]Python find offsets of a word token in a text

我寫了這個 function findTokenOffset ,它在預標記文本中找到給定單詞的偏移量(作為間隔單詞列表或根據某個標記器)。 重新進口,json 當標記是單個單詞時,此代碼可以正常工作 但是,應該有像這里這樣的多代幣方式的代幣: 由於在不同的標記中重復單詞,偏移量無法正常工作: 如何添 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM