簡體   English   中英

從新聞博客中提取特征

[英]Features Extraction from News Blog

我是數據科學/機器學習的新手。 我必須編寫一個網絡爬蟲並從每個博客中提取特征。 這些標簽形式的功能講述了行業、特定產品、工具和類似的東西。 我已經完成了部分抓取,但現在我堅持實體識別。 我進行了數據處理(標記化、數據清理、刪除停用詞/標點符號、詞干提取/詞形還原)。 現在,我必須為特征提取做些什么?

好的,您需要做的是設置一個熊貓數據框。

在第一列中,您需要擁有網站或博客的全文,以及您提到的流程。 在以下列中,對於要應用於數據集的每個標簽,您需要有一列,單熱編碼。

然后,您將需要通過使用單一熱編碼手動標記數千個網站或博客文章來填寫行。

完成后,您可以訓練您的機器。 然后你放入任何新文章,機器將輸出屬於該文章的標簽的概率。 github 上可能有很多存儲庫,其中包含您可以使用的預訓練模型。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM