![](/img/trans.png)
[英]Trying to delete all non letter parts of a word but this line deletes the whole word '"Have' from the tokenizer
我只是想讓這段文字正確分割,現在唯一的問題是這個詞: “有另外,如果有人可以提供一種解決方案,將所有這些組合成一條線,那會很好,但我無法讓它工作,謝謝 ...
[英]Trying to delete all non letter parts of a word but this line deletes the whole word '"Have' from the tokenizer
我只是想讓這段文字正確分割,現在唯一的問題是這個詞: “有另外,如果有人可以提供一種解決方案,將所有這些組合成一條線,那會很好,但我無法讓它工作,謝謝 ...
[英]Get property names of a object as a Dictionary<string,string> in .net
我正在研究字符串分詞器 function。 這是樣本 object 我需要將屬性與值放到 Dictionary<string, string> 上期待結果: 這就是我嘗試的方式 ...
[英]How to use both a new line and comma as a delimeter for the StringTokenizer
我希望能夠同時使用逗號和新行作為標記的分隔符。 這將僅用於逗號: Tokens = new StringTokenizer(line,","); 但我將如何實施它來解釋一條新線呢? 我試過",\n"和\n,"但它們不起作用。 我正在嘗試從如下所示的文本文件中提取數據: hello apple, tr ...
[英]How to handle with large dataset in spacy
我使用以下代碼來清理我的數據集並打印所有標記(單詞)。 當我用一個小字符串執行這段代碼時,它工作正常。 但是當我使用 50 兆字節 csv 時,我收到了消息 當我將限制增加到這個大小時,我的計算機出現了難題。我該如何解決這個問題? 想要標記這些數據量並沒有什么特別的。 ...
[英]NLP Timer *How do I get the order of certain numbers in a string to use setting a timer?
在此代碼中,您只能請求 x 小時、x 分鍾或 x 秒的計時器,但不能請求它們的組合。 我想說將計時器設置為 10 分 45 秒,並讓系統知道數字 10 與分鍾相關聯,而 45 與秒相關聯。 此外,我對編碼是全新的,所以我知道這段代碼可能並不漂亮。 ...
[英]Splitting the tokens with Java StringTokenizer
我有一個如下所示的數據集: 和以下代碼: 它實際上是來自官方 apache hadoop 文檔的字數,只是對我的數據集進行了一點定制。 我收到以下錯誤: 我只是想計算每個抽獎號碼的出現次數。 如何通過使用我的代碼中的 StringTokenizer 來做到這一點? 我知道我必須拆分整行,因為標記器是 ...
[英]Can't generate RSA public key
我正在嘗試了解 rsa 公鑰生成。 經過一些研究,我創建了一個應該返回公鑰的“簡單”代碼,但我不知道為什么,它沒有。 誰能告訴我為什么並解釋一下? 為了測試它,我在“input_text”文件上寫了一些隨機數字:8,33 6,18 ...
[英]Reading a file -- pairing a String and int value -- with multiple split lines
我正在按照以下標准進行練習: “輸入由成對的標記組成,其中每對標記以該人購買的機票類型(“長途汽車”、“頭等艙”或“折扣”,區分大小寫)開頭,后跟飛行里程數” 該列表可以配對coach 1500 firstclass 2000 discount 900 coach 3500目前效果很好。 但是,當 ...
[英]char array variables are destroyed after exiting from function
我使用strtok()在 function 中標記我的字符串。將值復制到全局char數組后,我打印這些值以確保功能。 一切都很好,但是當我想訪問它們時,它們被破壞了。 這是代碼: 這是 output 我想將值分配給結構,但它們被遺漏了。 ...
[英]how to split a string_view into multiple string_view objects without any dynamic allocations
下面的片段來自這個答案。 現在像這樣的緩沖區: 我想要一個sting_view (指向緩沖區)並將其傳遞給標記器 function 並且標記應該通過 out 參數(而不是向量)以std::string_view s 的形式返回,它也會返回提取的令牌數。 界面如下所示: 如果有人可以實現類似的 tok ...
[英]How to get the number of strings stored in a stringstream
我需要測試以查看從string_view中提取的string的數量是否等於特定數字(例如4 ),然后執行一些代碼。 我是這樣做的: 可以看出,上述代碼的缺點之一是,如果計數不等於 4,則意味着foundTokens的構造完全是浪費,因為它不會在代碼中稍后使用。 有沒有辦法檢查存儲在ss中的std:: ...
[英]Inconsistent output from gcount()
我編寫了以下簡單的 MRE,它在我的程序中重新生成了一個錯誤: 這是一個用於標記化的程序(有關完整代碼,請參見下面鏈接中的Compiler Explorer )。 另外,我使用GCC v11.2 。 首先,我想避免使用data()因為它的效率有點低。 我查看了編譯器資源管理器中的程序集,顯然, da ...
[英]Replace words from list of words
我有這個數據框 和停用詞的模式 我想通過 ID 中的文本來 go 並從停止模式中刪除單詞保持單詞的順序很重要。 我不想使用合並功能。 我試過這個 但這給了我一個邏輯字符串向量而不是單詞列表。 我想得到這個(替換停止模式中的所有單詞並保持單詞順序) ...
[英]StringTokenizer only storing first token?
我曾嘗試使用 StringTokenizer 將字符串拆分為標記,但是當我嘗試計算或打印標記時,它只包含第一個單詞。 任何幫助,將不勝感激。 輸出: 輸入字符串:您好,歡迎使用 Java 1 你好 ...
[英]Unexpected Behaviour on StringTokenizer
我有這個輸入字符串: 我正在嘗試解析字符串以從中提取信息,即: id = "21"; title = "海綿蛋糕"; author = "查理蒙托亞"; 日期 = "2014-10-13"; 我正在使用 StringTokenizer: 我的輸出是: 這里有很多錯誤:標題前面有 ...
[英]How do I store tokens into their own element in a given array?
我正在嘗試編寫一個方法,該方法將使用 StringTokenizer 將用戶輸入的字符串按一個空格分開,並將每個單詞存儲到他們自己的數組中。 給定的代碼是我在卡住 3 小時之前得到的。 我試圖通過讓 for 循環打印出數組的元素來測試代碼,但它所做的只是為每個元素返回 null。 我究竟做錯了什么? ...
[英]How to input new line string using java-util-scanner in this situation?
我正在嘗試創建一個簡單的字符串計算器,它允許 Add() 方法處理數字之間的新行(而不是逗號)- 以下輸入是可以的:“1\n2,3”(將等於 6) 以下輸入不正確:“1,\n” 我應該如何在其中輸入帶有 nextline(\n) 的字符串並根據“\n”和“,”進行拆分或標記? 我在下面給出了我的 ...
[英]Mapreduce to tokenize 3 columns
我正在寫一個需要讀取 3 列的 map function。 我有一個文本文件: 我將如何更改一個簡單的字數映射器的 stringtokenizer 以便能夠在使用 while 循環時讀取 3 行 } ...
[英]Python find offsets of a word token in a text
我寫了這個 function findTokenOffset ,它在預標記文本中找到給定單詞的偏移量(作為間隔單詞列表或根據某個標記器)。 重新進口,json 當標記是單個單詞時,此代碼可以正常工作 但是,應該有像這里這樣的多代幣方式的代幣: 由於在不同的標記中重復單詞,偏移量無法正常工作: 如何添 ...
[英]NoSuchElementException when reading from a pipe-delimited text file
從“|”讀取時出現NoSuchElementException (管道)分隔的文本文件。 我認為這是導致錯誤的部分:public void readFromFile(String file) { operas.clear(); //clear the ArrayList try ...