cost 191 ms
微調預訓練的 LLM 以進行問答

[英]Fine-tuning a pre-trained LLM for question-answering

客觀的我的目標是在有關曼聯 (MU) 2021/22 賽季(他們的賽季表現不佳)的數據集上微調預訓練的 LLM。 我希望能夠向經過微調的 model 提示諸如“MU 如何改進?”或“MU 最大的弱點是什么?”等問題。 理想的回應是有洞察力/邏輯和+100字數據我將簡單地使用相關維基頁面中的文本作為我 ...

單詞聚類列表(Python)

[英]Clustering Lists of Words (Python)

我有 54 個列表,由不同長度的單詞組成。 例如: 1 = [“飛”、“機器人”、“番茄醬”]。 2 = [“雨”、“飛”、“頂”、“夾克”]。 …… 我想根據每個列表中的單詞將相似的列表分組。 列表中單詞的順序確實有點重要,但不是匹配的唯一標准。 有任何想法嗎? 我正在考慮使用 BERT, ...

在 colab 上使用 DialoGPT 微調中型 model 時出現 OOM

[英]OOM while fine-tuning medium sized model with DialoGPT on colab

我正在嘗試使用中型 model 微調 DialoGPT,在訓練階段出現 Cuda 錯誤,我將批量大小從 4 減少,但錯誤仍然存在。 我的參數是 分配的 GPU 是 Tesla P100-PCIE 和 16GB memory。 請讓我知道如何解決此問題。 任何建議表示贊賞。 ...

如何不破壞模型輸出的可微性?

[英]How to not break differentiability with a model's output?

我在 Pytorch 中有一個自回歸語言模型,它生成文本,它是句子的集合,給定一個輸入: 請注意,語言模型的輸出是 logits(詞匯表上的概率)的形式,可以轉換為 token IDS 或字符串。 其中一些句子需要進入另一個模型才能獲得只影響這些句子的損失: 在不破壞可微性的情況下,從第一 ...

訓練 FF 神經語言 Model

[英]Training a FF Neural Language Model

考慮句子“The cat is upstairs”的 3-gram,其中每個單詞由 rest 和 @ 和 ~ 符號分隔。 我想使用這句話訓練基於字符的前饋神經語言 model,但我無法正確擬合 X 和 y 參數。 我的代碼如下: 我最初的嘗試是說,由於 input_length=3,model 將 ...

bert是雙向的嗎?

[英]How bert is a bidirectional?

Bert 編碼器接受輸入並進行多頭注意力 model。但它們如何保持序列? 由於當前單詞不采用先前單詞的順序。 另外,為什么是雙向的? 它是否像 LSTM 一樣保持前向和后向序列? ...

如何從本地機器加載 spacy 語言 model?

[英]How to load spacy language model from local machine?

由於我使用的服務器沒有連接到 Internet,我需要從本地磁盤加載 model。 例如,我應該能夠運行以下代碼, 我已經下載了 en_core_web_md-3.1.0.tar.gz 並解壓到本地文件夾中。 然后嘗試添加 path_to_folder。 它沒有工作,並說, 這是有道理的,因為該文 ...

Keras model 帶 fasttext 詞嵌入

[英]Keras model with fasttext word embedding

我正在嘗試學習一種語言 model,以使用 keras 預測給定所有先前單詞的句子的最后一個單詞。我想使用學習到的快速文本嵌入 model 來嵌入我的輸入。 我設法預處理我的文本數據並嵌入使用 fasttext。 我的訓練數據由每個 40 個標記的句子組成。 我創建了 2 np arrays,X 和 ...

向 spacy 模型添加自定義標點符號

[英]Add custom punctuation to spacy model

您如何將自定義標點符號(例如星號)添加到 Tokenizer 中的中綴列表並讓 nlp.explain 識別為標點符號? 我希望能夠將當前未被識別為標點符號的字符添加到集合中綴列表中的標點符號列表中,以便匹配器在匹配 {'IS_PUNCT': True} 時可以使用它們 此處提供了類似問題的答案: ...

為什么我的 Transformer 實現輸給了 BiLSTM?

[英]Why is my Transformer implementation losing to a BiLSTM?

我正在處理一個序列標記問題,我正在使用單個 Transformer Encoder 從序列的每個元素獲取 logits。 在使用 Transformer 和 BiLSTM 進行實驗后,在我的案例中 BiLSTM 看起來工作得更好,所以我想知道是否可能是因為我的 Transformer 實現有一些問 ...

如何在使用 ONNX 推理 session 時通過傳遞“標簽”來獲得語言建模損失?

[英]How to get the language modeling loss by passing 'labels' while using ONNX inference session?

使用 GPT2 時,我們可以簡單地傳遞 'labels' 參數來獲得損失,如下所示: 但是,無法找出如何在 ONNX 推理 session 中獲得相同的損失。我使用下面的代碼,它只返回“last_hidden_state”: ...

關於 BertForMaskedLM

[英]About BertForMaskedLM

我最近閱讀了有關 Bert 的內容,並希望將 BertForMaskedLM 用於 fill_mask 任務。 我知道伯特架構。 另外,據我所知,BertForMaskedLM 是從 Bert 構建的,頂部有一個語言建模頭,但我不知道語言建模頭在這里是什么意思。 誰能給我一個簡短的解釋。 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM