![](/img/trans.png)
[英]Fine-tuning a pre-trained LLM for question-answering
客觀的我的目標是在有關曼聯 (MU) 2021/22 賽季(他們的賽季表現不佳)的數據集上微調預訓練的 LLM。 我希望能夠向經過微調的 model 提示諸如“MU 如何改進?”或“MU 最大的弱點是什么?”等問題。 理想的回應是有洞察力/邏輯和+100字數據我將簡單地使用相關維基頁面中的文本作為我 ...
[英]Fine-tuning a pre-trained LLM for question-answering
客觀的我的目標是在有關曼聯 (MU) 2021/22 賽季(他們的賽季表現不佳)的數據集上微調預訓練的 LLM。 我希望能夠向經過微調的 model 提示諸如“MU 如何改進?”或“MU 最大的弱點是什么?”等問題。 理想的回應是有洞察力/邏輯和+100字數據我將簡單地使用相關維基頁面中的文本作為我 ...
[英]How bert [cls] can collect the relevant information from the rest of the hidden states
bert [cls] 是如何從隱藏狀態的rest中收集到相關信息的。??。 [cls]有傳銷信息嗎? 如果我只使用 mlm 訓練我的 bert,在這種情況下 cls 有效嗎? ...
[英]Clustering Lists of Words (Python)
我有 54 個列表,由不同長度的單詞組成。 例如: 1 = [“飛”、“機器人”、“番茄醬”]。 2 = [“雨”、“飛”、“頂”、“夾克”]。 …… 我想根據每個列表中的單詞將相似的列表分組。 列表中單詞的順序確實有點重要,但不是匹配的唯一標准。 有任何想法嗎? 我正在考慮使用 BERT, ...
[英]How to get token or code embedding using Codex API?
這個賞金已經結束。 此問題的答案有資格獲得+300聲望賞金。 賞金寬限期在19 小時后結束 ...
[英]How does BERT loss function works?
我對交叉熵在 bert LM 中的工作方式感到困惑。 為了計算損失函數,我們需要掩碼的真值標簽。 但是我們沒有真值標簽的向量表示,而預測是向量表示。 那么如何計算損失呢? ...
[英]OOM while fine-tuning medium sized model with DialoGPT on colab
我正在嘗試使用中型 model 微調 DialoGPT,在訓練階段出現 Cuda 錯誤,我將批量大小從 4 減少,但錯誤仍然存在。 我的參數是 分配的 GPU 是 Tesla P100-PCIE 和 16GB memory。 請讓我知道如何解決此問題。 任何建議表示贊賞。 ...
[英]Word embeddings with Google's T5?
是否可以使用 Google 的 T5 生成詞嵌入? 我假設這是可能的。 但是,我找不到能夠在相關 Github ( https://github.com/google-research/text-to-text-transfer-transformer ) 或 HuggingFace ( http ...
[英]How to not break differentiability with a model's output?
我在 Pytorch 中有一個自回歸語言模型,它生成文本,它是句子的集合,給定一個輸入: 請注意,語言模型的輸出是 logits(詞匯表上的概率)的形式,可以轉換為 token IDS 或字符串。 其中一些句子需要進入另一個模型才能獲得只影響這些句子的損失: 在不破壞可微性的情況下,從第一 ...
[英]Training a FF Neural Language Model
考慮句子“The cat is upstairs”的 3-gram,其中每個單詞由 rest 和 @ 和 ~ 符號分隔。 我想使用這句話訓練基於字符的前饋神經語言 model,但我無法正確擬合 X 和 y 參數。 我的代碼如下: 我最初的嘗試是說,由於 input_length=3,model 將 ...
[英]What is the correct return of BertForMaskedLM?
我正在使用 huggingface BertForMaskedLM。 對於一句話,我從 BertForMaskedLM 獲得了 3 維回報。 比如(P,N,V),這里我理解N是句子的長度,V是Bert中的vocab size。 但我對 P 感到困惑。BertForMaskedLM 的第一個返回值到 ...
[英]How bert is a bidirectional?
Bert 編碼器接受輸入並進行多頭注意力 model。但它們如何保持序列? 由於當前單詞不采用先前單詞的順序。 另外,為什么是雙向的? 它是否像 LSTM 一樣保持前向和后向序列? ...
[英]ValueError: Layer weight shape (30522, 768) not compatible with provided weight shape ()
我使用 BERT 進行了詞嵌入,需要將其作為 Keras model 中的嵌入層提供,我得到的錯誤是 model 是 function 是第1部分 第2部分 ...
[英]How to load spacy language model from local machine?
由於我使用的服務器沒有連接到 Internet,我需要從本地磁盤加載 model。 例如,我應該能夠運行以下代碼, 我已經下載了 en_core_web_md-3.1.0.tar.gz 並解壓到本地文件夾中。 然后嘗試添加 path_to_folder。 它沒有工作,並說, 這是有道理的,因為該文 ...
[英]Subprocess call error while calling generate_lm.py of DeepSpeech
我正在嘗試使用 colab 中的 DeepSpeech 為語音到文本構建定制的記分器(語言模型)。 調用 generate_lm.py 時出現此錯誤: ...
[英]Keras model with fasttext word embedding
我正在嘗試學習一種語言 model,以使用 keras 預測給定所有先前單詞的句子的最后一個單詞。我想使用學習到的快速文本嵌入 model 來嵌入我的輸入。 我設法預處理我的文本數據並嵌入使用 fasttext。 我的訓練數據由每個 40 個標記的句子組成。 我創建了 2 np arrays,X 和 ...
[英]Add custom punctuation to spacy model
您如何將自定義標點符號(例如星號)添加到 Tokenizer 中的中綴列表並讓 nlp.explain 識別為標點符號? 我希望能夠將當前未被識別為標點符號的字符添加到集合中綴列表中的標點符號列表中,以便匹配器在匹配 {'IS_PUNCT': True} 時可以使用它們 此處提供了類似問題的答案: ...
[英]N-gram Language Model returns nothing
賞金將在 2 天后到期。 這個問題的答案有資格獲得+50聲望獎勵。 海拉娜·布洛克希望引起更多人對這個問題的關注。 ...
[英]Why is my Transformer implementation losing to a BiLSTM?
我正在處理一個序列標記問題,我正在使用單個 Transformer Encoder 從序列的每個元素獲取 logits。 在使用 Transformer 和 BiLSTM 進行實驗后,在我的案例中 BiLSTM 看起來工作得更好,所以我想知道是否可能是因為我的 Transformer 實現有一些問 ...
[英]How to get the language modeling loss by passing 'labels' while using ONNX inference session?
使用 GPT2 時,我們可以簡單地傳遞 'labels' 參數來獲得損失,如下所示: 但是,無法找出如何在 ONNX 推理 session 中獲得相同的損失。我使用下面的代碼,它只返回“last_hidden_state”: ...
[英]About BertForMaskedLM
我最近閱讀了有關 Bert 的內容,並希望將 BertForMaskedLM 用於 fill_mask 任務。 我知道伯特架構。 另外,據我所知,BertForMaskedLM 是從 Bert 構建的,頂部有一個語言建模頭,但我不知道語言建模頭在這里是什么意思。 誰能給我一個簡短的解釋。 ...