簡體   English   中英

BERT 初學者文本分類任務

[英]BERT Text Classification Tasks for Beginners

任何人都可以用簡單的術語列出為從事第一個項目的 CS 新手構建 BERT 文本分類器所涉及的任務嗎? 我的工作涉及獲取一段長度的人道主義援助活動描述列表(在 CSV 文件中帶有相應的標題和部門代碼),並使用單獨的部門代碼列表及其句子長描述構建一個能夠為描述分配部門代碼的分類器。 對於訓練、測試和評估,我會將分類器生成的代碼與 CSV 文件中的代碼進行比較。

對幫助我制作項目任務清單所涉及的高級任務/步驟有什么想法嗎? 我啟動了一個谷歌 CoLab 筆記本,制作了兩個 CSV 文件,將它們放在谷歌雲存儲桶中,我想我必須提取文件,標記數據和 ? 理想情況下,我也想堅持使用 Google 工具。

正如評論所說,我建議您從博客或教程開始。 使用tensorflow BERT模型的常見任務是使用tensorflow_hub 你有 2 個模塊: BERT preprocessorBERT encoder Bert 預處理器准備您的數據(使用標記化),下一個將數據轉換為數學語言表示。 如果您嘗試在 2 個話語之間使用余弦相似度,我不得不說, BERT不是為這種類型的過程而設計的。 使用BERT作為達到目標的步驟是正常的,而不是目標本身。 也就是說,構建一個使用BERT的模型,但一開始,只使用BERT來了解它是如何工作的。

BERT 預處理

它有多個鍵(它的輸出是一個字典):

dict_keys(['input_mask', 'input_type_ids', 'input_word_ids'])

分別有“令牌在哪里”、“輸入的形狀”和“它們的令牌數量”

BERT 編碼器

它有多個鍵(它的輸出是一個字典):

dict_keys(['default', 'encoder_outputs', 'pooled_output', 'sequence_output'])

按照順序,“與 pooled_output 相同”、“編碼器的輸出”、“每個話語的上下文”、“話語中每個標記的上下文”。

看看這里(搜索bert)

還要看我提出的這個問題

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM