繁体 English 中英

newspaper3k - 从 HTML 而不是 URL 获取文章

[英]newspaper3k - get articles from HTML instead of URL

原文 2021-07-13 10:34:21 4 1 python/ parsing/ web-scraping/ scrapy/ newspaper3k

我在Scrapy解析方法中使用newspaper3k 。 我想提取链接，但我不想再次获取该网站。

是否可以使用这个：

newspaper.build(..)

使用普通html这样我就可以调用.articles比？

1 个解决方案

我找到了这个解决方案：

import httpx

from newspaper import Article

async def get_article(url):
    with httpx.AsyncClient() as client:
        response = await client.get(url)

    article = Article(url)
    article.set_html(response.text)
    article.parse()

如何在报纸3k中访问缓存的文章

[英]How to access cached articles in newspaper3k

使用 news3k 从新闻来源获取更多文章 URL？

[英]Get more article URLs from a news source with newspaper3k?

Newspaper3k从archive.org waybackmachine页面返回0篇文章，而实时页面按预期工作

[英]Newspaper3k returns 0 articles from archive.org waybackmachine pages whereas the live page works as expected

使用 Newspaper3k 进行网页抓取，仅获得 50 篇文章

[英]Web scraping with Newspaper3k, got only 50 articles

如何在不下载文章的情况下使用 Newspaper3k 库？

[英]How to use Newspaper3k library without downloading articles?

Newspaper3k 在提取时过滤掉错误的 URL

[英]Newspaper3k filter out bad URL while extracting

Newspaper3k 的缺点：如何只刮文章 HTML？ Python

[英]Shortcomings of Newspaper3k: How to Scrape ONLY Article HTML? Python

如何阻止python news3k返回空值？

[英]How to stop python newspaper3k from returning null values?

为什么python模块报纸3k只为腾讯，新浪和wallettreetcn返回0篇文章？

[英]Why the python module newspaper3k only return 0 articles for tencent, sina and wallstreetcn?

Newspaper3k：有什么方法可以将多篇 web 文章下载到一个变量中？

[英]Newspaper3k: Any way to download multiple web articles to one variable?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在报纸3k中访问缓存的文章使用 news3k 从新闻来源获取更多文章 URL？ Newspaper3k从archive.org waybackmachine页面返回0篇文章，而实时页面按预期工作使用 Newspaper3k 进行网页抓取，仅获得 50 篇文章如何在不下载文章的情况下使用 Newspaper3k 库？ Newspaper3k 在提取时过滤掉错误的 URL Newspaper3k 的缺点：如何只刮文章 HTML？ Python 如何阻止python news3k返回空值？为什么python模块报纸3k只为腾讯，新浪和wallettreetcn返回0篇文章？ Newspaper3k：有什么方法可以将多篇 web 文章下载到一个变量中？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM