[英]beautifulsoup-grab-visible-webpage-text without a file ending in .html
我喜欢在此页面上获得的答案: BeautifulSoup抓取可见网页文本
但是我的页面没有以.html结尾,而是: https : //biogmagscience.net
必须对此有一个简单的解决方案。
干杯
您的URL中有错字,应该是https://biomagscience.net/。此脚本将使用get_text()
方法打印可打印的文本:
import requests
from bs4 import BeautifulSoup
url = 'https://biomagscience.net/'
soup = BeautifulSoup(requests.get(url).text, 'lxml')
for tag in soup.select('style, script, [style*="display:none"]'):
tag.extract()
print(soup.get_text(strip=True, separator='\n'))
印刷品:
Best Magnets For Healing | Biomagnetic Therapy Products
The Future of Health & Well-Being —Today!
Advanced Therapy for Vitality, Nerve Regeneration & Pain Relief of Acute/Chronic Injuries & Illness
Acute Injuries
•
Alzheimer’s
•
Arthritis
•
Back Pain
•
Chronic Illness
•
EMF
•
Joint Pain
•
Muscle Pain
Magnet Therapy Articles
•
Products
BiomagScience
...and so on.
https://biogmagscience.net是URL,而不是文件名。 转到您的网站,下载源代码,它将以html格式显示。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.