標簽[bs4] - 堆棧內存溢出

Python3 BeautifulSoup在變量內查找文本

[英]Python3 BeautifulSoup find text inside variable

我有一個問題，我必須在變量內搜索文本。有幾個字。這是我的代碼的示例。這是我可以毫無問題顯示的標簽value 。現在，我只需要包含在變量“ strValue”中的值。不幸的是，我在紀錄片中找不到任何幫助。希望您能幫到我！ ...

從Wikipedia參考資料部分抓取URL

[英]Scraping URLs from Wikipedia references section

我正在嘗試創建一個程序，該程序將從Wikipedia頁面的參考部分中抓取URL，但是，在隔離該標記/類時遇到了問題。這是程序的輸出 ...

如何從誰獲得數據

[英]how to get data from whoscored

我需要從whoscored.com獲取數據，但是當我鍵入此代碼時我是gettin page_soup變量，如下所示在這種情況下有什么方法可以獲取數據？ ...

防止BeautifulSoup4使用以下方法包裝XML <html> 和 <body> 標簽

[英]Prevent BeautifulSoup4 from wrapping XML with <html> and <body> tags

我已經使用bs4更改了XML中某些元素的一些數字字符串，但是當我將XML保存為文件時，我不希望html或body標簽位於XML中。變成通過加載后 soup = BeautifulSoup(file_obj.read(), 'lxml') 我想在保存XML之前對其進 ...

BeautifulSoup-Python-從HTML查找密鑰

[英]BeautifulSoup - Python - Find the key from HTML

我一直在使用bs4和Python進行練習，但是現在我陷入了困境。我的計划是在If-Else州做類似的事情並且我已經抓取了一個我隨機找到的html，它看起來像- 到目前為止，我所做的是：但沒有運氣。給我錯誤， TypeError：“響應”類型的對象 ...

Python bs4 BeautifulSoup：findall給出了空括號

[英]Python bs4 BeautifulSoup: findall gives empty bracket

當我運行此代碼時，它給了我一個空括號。我是網絡抓取的新手，所以我不知道我在做什么錯。結果：我試圖從網站上獲取html代碼，並通過存儲所有信息的li標簽進行搜索，以便可以在for循環中打印出所有信息。另外，如果有人想解釋如何使用BeautifulSoup，我們可以隨 ...

Python Beautiful Soup-獲取輸入值

[英]Python Beautiful Soup - Getting input value

我的計划是能夠使用Bs4來獲取_AntiCsrfToken。我有這個HTML，我的HTML來自我在代碼中寫的是但這給我一個錯誤我完全不知道我是否做對了。我確實認為我做對了，但也許我需要在form-id之前找到它，而不是直接隱藏它？ ...

BS4創建對象非常慢

[英]Bs4 creates the object very slow

我有問題。僅適用於PYTHON2。結果是：我認為這不正常：1.5分鍾即可解析HTML。 1周前，我對此源代碼沒有任何問題。有人知道bs4的問題嗎？使用python3，一切大約需要3秒鍾。 ...

'style'attrs內部的一部分值將在python bs4中變為變量

[英]Part of value inside of 'style' attrs to become variable in python bs4

假設我們有代碼：我如何在Python中使用Bs4來創建列表，以在“樣式”屬性中找到“左”的最高值，同時牢記我不想考慮class_“ Kung”的跨度期望的結果將是：我知道了，我應該從以下內容開始： ...

在BS4中獲取'列表'對象沒有屬性錯誤

[英]Getting `list` object no attribute error in BS4

我是bs4 ，正在嘗試通過為加密貨幣構建價格機器人來進行實驗。這是我到目前為止的代碼：但我收到此錯誤：我究竟做錯了什么？據我了解， .select不適用於list項，但是我如何提取list ？ ...

如何使用For循環從html獲取多個鏈接？

[英]How do I use For Loop to get multiple links from an html?

這就是我現在所擁有的：我解析html，得到一個鏈接，第一個，因為我知道網址在1882完成，而我想要的是1881年，我寫了這個for-loop以獲得其余的。它只打印一個結果，好像沒有寫入循環。奇怪的是，如果我減少return函數的縮進，它會返回一個不同的url。我還沒有完 ...

如何從“ chrome：// downloads”頁面獲取字符串

[英]How to get the string from “chrome://downloads” page

我使用Chromedriver下載文件，然后我想解析"chrome://downloads"以獲取下載狀態，但我無法獲取字符串，請參考以下代碼和結果。我還檢查了Chrome中的HTML 。我可以看到<span id="name">Noto-hinted (1).zip< ...

bs4父attrs python

[英]bs4 parent attrs python

我剛剛開始用Python進行編碼，我的朋友問我是否需要應用程序在Web上查找特定數據，很好地表示了這些數據。我已經找到了漂亮的網絡，其中包含數據，我可以找到基本信息，但是接下來的挑戰是更深入。在Python 3.4中使用BS4時，我到達了示例代碼：我現在想做的是查找日期字符 ...

bs4的find_all（）方法是否有替代方法，該方法返回另一個湯對象而不是列表，以進行進一步導航？

[英]Is there an alternative to bs4's find_all() method that returns another soup object instead of a list, for further navigation?

找到所有的<ul> ，我想進一步提取文本和href 。我所面臨的這個HTML特有的問題是，我需要頁面中的大部分（但不是全部<li>項）。我看到當我find_all() ，我返回了一個列表對象，該列表對象不允許我將其作為湯對象進一步導航。例如，在下面的代碼片段 ...

如何調用特定的錨標記並將其傳遞回Python Webscraper中的url？

[英]How to call a specific anchor tag and pass it back to the url in a Python webscraper?

我正在處理在線課程的問題，我應該在該課程中使用BeautifulSoup構建一個簡單的Webscraper。到目前為止，這是我的進度：我的問題是：如何從標簽中的標簽列表中提取特定的錨標簽？另外，如何使for循環僅迭代四次？作業詳細信息：更新：因此 ...

<cite>使用 BeautifulSoup</cite>從<cite>標簽中</cite>抓取 URL

[英]Scrape URLs from <cite> tags using BeautifulSoup

我正在嘗試使用 Requests 和 Beautiful Soup 網絡抓取庫從 Google 抓取 URL。我以前試圖通過搜索鏈接然后獲取鏈接的 href 來獲取 URL，但這種方法的問題似乎是這些 URL 是由 Google 緩存的，並且在嘗試訪問該 URL 時，鏈接經常被破壞. 我注意 ...

將BeautifulSoup對象轉換為列表以提取數據

[英]Converting BeautifulSoup object into list to extract data

從以下兩行python代碼中，我得到以下屬於類'bs4.BeautifulSoup'的html輸出。我如何將其放入列表中，以便提取項目，例如將列表稱為mylist： ...

如何使用BeautifulSoup從網頁中閱讀更多內容以刮擦評論

[英]How to Scrape reviews with read more from Webpages using BeautifulSoup

我正在嘗試從網站上抓取評論，而無法抓取具有“更多信息”選項的評論。我只能獲取數據，直到閱讀更多。我正在使用BeautifulSoup。任何幫助表示贊賞。 ...

使用Python-BeautifulSoup收集表格數據

[英]Scraping tabular data with Python-BeautifulSoup

無法弄清楚如何抓取第一個表數據而不是同時抓取兩個表數據。我只想要WheelDust，但我卻得到WheelDust和一大團幾乎看不見的棕色灰塵 ...

抓取在搜索結果中找到的鏈接列表

[英]scrape a list of links found in a search result

我正在嘗試從圖書館頁面抓取搜索結果。但是，由於我不僅需要書名，所以我希望腳本打開每個搜索結果，並刮取詳細的網站以獲取更多信息。我到目前為止有以下內容：我現在的主要問題是：如何獲取我可以通過的清單（例如：[“ 1”，“ 2”] ...）？ ...