簡體 English 中英

從新聞博客中提取特征

[英]Features Extraction from News Blog

原文 2020-03-12 11:35:54 6 1 python/ machine-learning/ deep-learning/ web-crawler/ data-science

我是數據科學/機器學習的新手。 我必須編寫一個網絡爬蟲並從每個博客中提取特征。 這些標簽形式的功能講述了行業、特定產品、工具和類似的東西。 我已經完成了部分抓取，但現在我堅持實體識別。 我進行了數據處理（標記化、數據清理、刪除停用詞/標點符號、詞干提取/詞形還原）。 現在，我必須為特征提取做些什么？

1 個解決方案

好的，您需要做的是設置一個熊貓數據框。

在第一列中，您需要擁有網站或博客的全文，以及您提到的流程。 在以下列中，對於要應用於數據集的每個標簽，您需要有一列，單熱編碼。

然后，您將需要通過使用單一熱編碼手動標記數千個網站或博客文章來填寫行。

完成后，您可以訓練您的機器。 然后你放入任何新文章，機器將輸出屬於該文章的標簽的概率。 github 上可能有很多存儲庫，其中包含您可以使用的預訓練模型。

使用 python 從招聘廣告中提取技能和職責等特征

[英]Extraction of features such as skills and responsibilities from job advertisements using python

時間序列滯后特征提取

[英]Time Series Lag Features Extraction

Hacker-News Api 信息提取

[英]Hacker-News Api information extraction

從Google新聞中抓取新聞

[英]Scrape news from google news

權重的Keras文本信息特征提取

[英]Keras Extraction of Informative Features in Text Using Weights

使用 VGG16 進行特征提取以進行聚類

[英]Features extraction with VGG16 for clustering

從新聞網站上抓取新聞標題

[英]Scraping the news titles from news websites

djangoCMS和Aldryn NewsBlog缺少“新新聞/博客文章”

[英]djangoCMS with Aldryn NewsBlog missing “New news/blog article”

無法從黑客新聞中抓取新聞標題

[英]Unable to scrape news headings from Hacker news

從網站獲取新聞

[英]Getting news from the site

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 python 從招聘廣告中提取技能和職責等特征時間序列滯后特征提取 Hacker-News Api 信息提取從Google新聞中抓取新聞權重的Keras文本信息特征提取使用 VGG16 進行特征提取以進行聚類從新聞網站上抓取新聞標題 djangoCMS和Aldryn NewsBlog缺少“新新聞/博客文章” 無法從黑客新聞中抓取新聞標題從網站獲取新聞

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM