没有文件以.html结尾的beautifulsoup-grab-visible-webpage-text

Question

我喜欢在此页面上获得的答案： BeautifulSoup抓取可见网页文本

但是我的页面没有以.html结尾，而是： https : //biogmagscience.net

必须对此有一个简单的解决方案。

干杯

Answer 1

您的URL中有错字，应该是https://biomagscience.net/。此脚本将使用get_text()方法打印可打印的文本：

import requests
from bs4 import BeautifulSoup

url = 'https://biomagscience.net/'
soup = BeautifulSoup(requests.get(url).text, 'lxml')

for tag in soup.select('style, script, [style*="display:none"]'):
    tag.extract()

print(soup.get_text(strip=True, separator='\n'))

印刷品：

Best Magnets For Healing | Biomagnetic Therapy Products
The Future of Health & Well-Being —Today!
Advanced Therapy for Vitality, Nerve Regeneration & Pain Relief of Acute/Chronic Injuries & Illness
Acute Injuries
•
Alzheimer’s
•
Arthritis
•
Back Pain
•
Chronic Illness
•
EMF
•
Joint Pain
•
Muscle Pain
Magnet Therapy Articles
•
Products
BiomagScience

...and so on.

Answer 2

https://biogmagscience.net是URL，而不是文件名。 转到您的网站，下载源代码，它将以html格式显示。

没有文件以.html结尾的beautifulsoup-grab-visible-webpage-text

问题描述

2 个解决方案

解决方案1
1 2019-07-28 12:26:12

解决方案2
0 2019-07-28 12:15:27

没有文件以.html结尾的beautifulsoup-grab-visible-webpage-text

问题描述

2 个解决方案

解决方案1 1 2019-07-28 12:26:12

解决方案2 0 2019-07-28 12:15:27

解决方案1
1 2019-07-28 12:26:12

解决方案2
0 2019-07-28 12:15:27