標簽[language-model] - 堆棧內存溢出

[英]Fine-tuning a pre-trained LLM for question-answering

客觀的我的目標是在有關曼聯 (MU) 2021/22 賽季（他們的賽季表現不佳）的數據集上微調預訓練的 LLM。我希望能夠向經過微調的 model 提示諸如“MU 如何改進？”或“MU 最大的弱點是什么？”等問題。理想的回應是有洞察力/邏輯和+100字數據我將簡單地使用相關維基頁面中的文本作為我 ...

bert [cls] 如何從隱藏狀態的 rest 中收集到相關信息

[英]How bert [cls] can collect the relevant information from the rest of the hidden states

bert [cls] 是如何從隱藏狀態的rest中收集到相關信息的。？？。 [cls]有傳銷信息嗎？如果我只使用 mlm 訓練我的 bert，在這種情況下 cls 有效嗎？ ...

單詞聚類列表（Python）

[英]Clustering Lists of Words (Python)

我有 54 個列表，由不同長度的單詞組成。例如： 1 = [“飛”、“機器人”、“番茄醬”]。 2 = [“雨”、“飛”、“頂”、“夾克”]。 …… 我想根據每個列表中的單詞將相似的列表分組。列表中單詞的順序確實有點重要，但不是匹配的唯一標准。有任何想法嗎？我正在考慮使用 BERT， ...

如何使用 Codex API 獲取令牌或代碼嵌入？

[英]How to get token or code embedding using Codex API?

這個賞金已經結束。此問題的答案有資格獲得+300聲望賞金。賞金寬限期在19 小時后結束 ...

BERT 損失函數是如何工作的？

[英]How does BERT loss function works?

我對交叉熵在 bert LM 中的工作方式感到困惑。為了計算損失函數，我們需要掩碼的真值標簽。但是我們沒有真值標簽的向量表示，而預測是向量表示。那么如何計算損失呢？ ...

在 colab 上使用 DialoGPT 微調中型 model 時出現 OOM

[英]OOM while fine-tuning medium sized model with DialoGPT on colab

我正在嘗試使用中型 model 微調 DialoGPT，在訓練階段出現 Cuda 錯誤，我將批量大小從 4 減少，但錯誤仍然存在。我的參數是分配的 GPU 是 Tesla P100-PCIE 和 16GB memory。請讓我知道如何解決此問題。任何建議表示贊賞。 ...

使用 Google 的 T5 進行詞嵌入？

[英]Word embeddings with Google's T5?

是否可以使用 Google 的 T5 生成詞嵌入？我假設這是可能的。但是，我找不到能夠在相關 Github ( https://github.com/google-research/text-to-text-transfer-transformer ) 或 HuggingFace ( http ...

如何不破壞模型輸出的可微性？

[英]How to not break differentiability with a model's output?

我在 Pytorch 中有一個自回歸語言模型，它生成文本，它是句子的集合，給定一個輸入：請注意，語言模型的輸出是 logits（詞匯表上的概率）的形式，可以轉換為 token IDS 或字符串。其中一些句子需要進入另一個模型才能獲得只影響這些句子的損失：在不破壞可微性的情況下，從第一 ...

訓練 FF 神經語言 Model

[英]Training a FF Neural Language Model

考慮句子“The cat is upstairs”的 3-gram，其中每個單詞由 rest 和 @ 和 ~ 符號分隔。我想使用這句話訓練基於字符的前饋神經語言 model，但我無法正確擬合 X 和 y 參數。我的代碼如下：我最初的嘗試是說，由於 input_length=3，model 將 ...

BertForMaskedLM 的正確返回值是多少？

[英]What is the correct return of BertForMaskedLM?

我正在使用 huggingface BertForMaskedLM。對於一句話，我從 BertForMaskedLM 獲得了 3 維回報。比如(P,N,V)，這里我理解N是句子的長度，V是Bert中的vocab size。但我對 P 感到困惑。BertForMaskedLM 的第一個返回值到 ...

bert是雙向的嗎？

[英]How bert is a bidirectional?

Bert 編碼器接受輸入並進行多頭注意力 model。但它們如何保持序列？由於當前單詞不采用先前單詞的順序。另外，為什么是雙向的？它是否像 LSTM 一樣保持前向和后向序列？ ...

ValueError: 層權重形狀 (30522, 768) 與提供的權重形狀 () 不兼容

[英]ValueError: Layer weight shape (30522, 768) not compatible with provided weight shape ()

我使用 BERT 進行了詞嵌入，需要將其作為 Keras model 中的嵌入層提供，我得到的錯誤是 model 是 function 是第1部分第2部分 ...

如何從本地機器加載 spacy 語言 model？

[英]How to load spacy language model from local machine?

由於我使用的服務器沒有連接到 Internet，我需要從本地磁盤加載 model。例如，我應該能夠運行以下代碼，我已經下載了 en_core_web_md-3.1.0.tar.gz 並解壓到本地文件夾中。然后嘗試添加 path_to_folder。它沒有工作，並說，這是有道理的，因為該文 ...

調用 DeepSpeech 的 generate_lm.py 時子進程調用錯誤

[英]Subprocess call error while calling generate_lm.py of DeepSpeech

我正在嘗試使用 colab 中的 DeepSpeech 為語音到文本構建定制的記分器（語言模型）。調用 generate_lm.py 時出現此錯誤： ...

Keras model 帶 fasttext 詞嵌入

[英]Keras model with fasttext word embedding

我正在嘗試學習一種語言 model，以使用 keras 預測給定所有先前單詞的句子的最后一個單詞。我想使用學習到的快速文本嵌入 model 來嵌入我的輸入。我設法預處理我的文本數據並嵌入使用 fasttext。我的訓練數據由每個 40 個標記的句子組成。我創建了 2 np arrays，X 和 ...

向 spacy 模型添加自定義標點符號

[英]Add custom punctuation to spacy model

您如何將自定義標點符號（例如星號）添加到 Tokenizer 中的中綴列表並讓 nlp.explain 識別為標點符號？我希望能夠將當前未被識別為標點符號的字符添加到集合中綴列表中的標點符號列表中，以便匹配器在匹配 {'IS_PUNCT': True} 時可以使用它們此處提供了類似問題的答案： ...

N-gram 語言模型不返回任何內容

[英]N-gram Language Model returns nothing

賞金將在 2 天后到期。這個問題的答案有資格獲得+50聲望獎勵。海拉娜·布洛克希望引起更多人對這個問題的關注。 ...

為什么我的 Transformer 實現輸給了 BiLSTM？

[英]Why is my Transformer implementation losing to a BiLSTM?

我正在處理一個序列標記問題，我正在使用單個 Transformer Encoder 從序列的每個元素獲取 logits。在使用 Transformer 和 BiLSTM 進行實驗后，在我的案例中 BiLSTM 看起來工作得更好，所以我想知道是否可能是因為我的 Transformer 實現有一些問 ...

如何在使用 ONNX 推理 session 時通過傳遞“標簽”來獲得語言建模損失？

[英]How to get the language modeling loss by passing 'labels' while using ONNX inference session?

使用 GPT2 時，我們可以簡單地傳遞 'labels' 參數來獲得損失，如下所示：但是，無法找出如何在 ONNX 推理 session 中獲得相同的損失。我使用下面的代碼，它只返回“last_hidden_state”： ...

關於 BertForMaskedLM

[英]About BertForMaskedLM

我最近閱讀了有關 Bert 的內容，並希望將 BertForMaskedLM 用於 fill_mask 任務。我知道伯特架構。另外，據我所知，BertForMaskedLM 是從 Bert 構建的，頂部有一個語言建模頭，但我不知道語言建模頭在這里是什么意思。誰能給我一個簡短的解釋。 ...