標簽[scraperwiki] - 堆棧內存溢出

[英]Scraping with Invoke-WebRequest

我們正在將一個asp.net內部網遷移到SharePoint，並通過PowerShell自動進行轉換。我們只想從DIV標記中刪除類名稱為“ topnav”的鏈接。並非頁面上的所有鏈接這為我們提供了topnav的HTML，但是如何最好地從Applications節點中僅提取應 ...

我正在嘗試從需要登錄但未獲取任何數據的站點中抓取 HTML

[英]I am trying to scrape HTML from a site that requires a login but am not getting any data

我正在關注本教程，但在運行 python 時似乎無法獲取任何數據。我得到一個 200 的 HTTP 狀態代碼， status.ok返回一個真值。任何幫助都會很棒。這就是我在終端中的響應： ...

如何有選擇地抓取具有重復類ID的html

[英]How to selectively scrape html with repeated class IDs

我是python的新手，徒勞地搜索了stackoverflow以獲得我可以理解的答案。在此先感謝您提供的任何幫助或建議。我正在嘗試從房屋銷售網站上獲取有關價格和位置的信息，即帶有“ field-content”標簽的信息。問題在於頁面上有很多“字段內容”標簽，而我嘗試的原始代 ...

對磁盤上的pdf文件使用scraperwiki

[英]Using scraperwiki for pdf-file on disk

我正在嘗試使用scraperwiki for pyhon從pdf文檔中獲取一些數據。如果我像這樣使用urllib2下載文件，它的工作原理很漂亮：但是，這是棘手的部分。由於我想對磁盤上的大量pdf文件執行此操作，因此我想取消第一行並將pdf文件直接作為參數傳遞。但是，如果我嘗 ...

sqlalchemy.exc.StatementError：刮板中以10為底的int（）的無效文字

[英]sqlalchemy.exc.StatementError: invalid literal for int() with base 10 in scraper

我已經編寫了Python 2.7抓取工具，但是在嘗試保存數據時遇到錯誤。抓取工具是用Scraperwiki寫的，但是我認為這與我得到的錯誤基本無關-保存在Scraperwiki中的問題似乎是使用Sqlalchemy處理的，這就是錯誤的原因。我收到此錯誤消息：嘗試保存此行數據 ...

從PDF提取表格的問題

[英]Problems with extracting table from PDF

我知道這個主題上有一些話題，但是他們的解決方案似乎都不適合我。我有一個PDF文檔中的表格，希望從中提取信息。我可以將文本復制並粘貼到textedit中，它清晰易讀，但並非真正有用。我的意思是，所有文本都是可讀的，但數據全部由空格分隔，無法將列與單元格中文本中的空格區分開。但是 ...

Scraperwiki Python循環問題

[英]Scraperwiki Python Loop Issue

我正在使用Python通過ScraperWiki創建一個刮板，但是我得到的結果存在問題。我將代碼基於ScraperWiki的文檔上的基本示例，並且看起來一切都非常相似，因此我不確定我的問題在哪里。對於我的結果，我得到了頁面上的第一個文檔標題/ URL，但是循環似乎存在問題，因為它不返回 ...

找不到scraperwiki.sqlite表

[英]A table of scraperwiki.sqlite isn't found

我在Ruby中有一個腳本，它使用scraperwiki gem。在此腳本的目錄中，有一個名為scraperwiki.sqlite的文件。但是盡管如此，當我運行它時，還是出現了一個錯誤： ...

lxml無法與Django配合使用，scraperwiki

[英]lxml not working with django, scraperwiki

我正在開發一個django應用程序，該應用程序將通過伊利諾伊州的大會網站刮取一些pdf文件。當部署在我的桌面上時，它可以正常工作，直到urllib2超時。當我嘗試在Bluehost服務器上進行部署時，代碼的lxml部分拋出了錯誤。任何幫助，將不勝感激。編輯1這是錯誤跟蹤 ...

安裝Scraperwiki for Python會產生錯誤pdftohtml找不到

[英]Installing Scraperwiki for Python generates an error pdftohtml not found

我一直在嘗試為Python安裝Scraperwiki模塊。但是，它生成錯誤： “” UserWarning：本地Scraperlibs需要pdftohtml，但在PATH中找不到pdftohtml。您可能需要安裝它” 。我調查了poppler，因為它們具有pdftohtml ...

Scraperwiki-Python-跳過表格行

[英]Scraperwiki - python - skipping a table row

我正在嘗試使用TH作為后面帶有TD標簽的表格，將TH用作表格。問題在於該表使用的間歇分隔符由於不包含TH標簽而需要跳過。這是表中的示例：我在scraperwiki中使用python收集數據，但是在跳過有問題的行時遇到了問題。沒有任何條件，我的代碼將在沒有TH標簽的行 ...

抓取代碼的性能優化

[英]Performance Optimization of scraping code

我正在研究大數據的網絡抓取，所以我編寫了以下代碼來從我們校園的本地服務器獲取一些信息。它工作正常，但我認為性能很慢；每條記錄需要 0.91 秒才能存儲在數據庫中。代碼的作用是打開一個網頁，獲取一些內容並將其存儲在磁盤上。我的目標是將抓取記錄所用的時間降低到接近 0.4 秒（或更少，如果可能 ...

如何將此數據添加到scraperwiki中的數據庫

[英]How to add this data to database in scraperwiki

現在，我想知道如何將這些數據保存在scraperwiki的數據庫中。我已經嘗試了一些命令，例如但是當我檢查數據集時，它們沒有給我所需的結果。代碼或最后一條語句是否有問題。請幫忙。 Python編程和Scraperwiki的新功能。 ...

使用ScraperWiki刮取PDF並得到未定義的錯誤

[英]Scraping a PDF with ScraperWiki and getting an Error of not Defined

我正在嘗試使用ScraperWiki抓取此PDF。當前代碼給我一個錯誤的名稱“數據”未定義，但我收到錯誤如果我注釋掉那行，我的else語句也會出現同樣的錯誤。這是我的代碼我究竟做錯了什么？同樣，任何關於更好解決方案的建議將不勝感激。 ...

修復'sqlite3.InterfaceError：錯誤綁定參數0 - 可能不支持的類型。嘗試轉換類型或酸洗。

[英]Fixing a 'sqlite3.InterfaceError: Error binding parameter 0 - probably unsupported type. Try converting types or pickling.'

我在ScraperWiki中堅持使用這個刮刀。我只想要ul中的li元素和dir ='ltr'的文本。我每周都會運行這個腳本，句子可能彼此相似，而且是一個全新的句子。這就是為什么我想在我的數據中包含日期。我收到以下錯誤：如何讓這個刮刀保存我的數據？ ...

ScraperWiki抓取頻率

[英]ScraperWiki scrape frequence

這可能是一個愚蠢的問題，但是我目前正在使用Scraperwiki來抓取Twitter。 Tho ScraperWiki的運行頻率很低。有一種方法可以強制運行ScraperWiki，使其更頻繁地運行而不接觸python，因為我的知識僅限於javascript。到目前為止，我的代碼： ...

如何在 Windows 上安裝 Poppler？

[英]How to install Poppler on Windows?

ScraperWiki 的最新版本依賴於Poppler （或者 GitHub 上說的）。不幸的是，它只指定了如何在 macOS 和 Linux 上獲取它，而不是 Windows。一個快速的谷歌搜索結果沒有太大的希望。有誰知道如何在 Windows 上為 ScraperWiki 獲取 Pop ...

Scraperwiki：如何將數據保存到表中的一個單元格

[英]Scraperwiki: how to save data into one cell in table

這是我的刮板代碼，該代碼從該特定頁面提取URL和相應的注釋：將數據保存到scraperwiki數據存儲區后，僅將來自一個URL的最后一條注釋放入表中。我想在表格中為每個URL保存所有注釋。因此，在第一列中有URL，在第二列中有該URL的所有注釋，而不僅僅是最后一個注釋，這就是該 ...

如何在此刮板程序中使用lxml提取文本？

[英]How to extract text with lxml in this scraper program?

我正在嘗試從此頁面上的特定元素中抓取文本數據（使用scraperwiki）然后scraperwiki控制台返回：我使用Google Chrome瀏覽器查找XPath，但我認為請求使用的標准與chrome相同 ...

如何在Python中刮除鏈接的三重嵌套列表的第一個實例？

[英]How to scrape more than first instance of triple-nested list of links in Python?

我正在嘗試確定記錄從原始網頁鏈接的網頁鏈接的網頁內容的最簡單方法。我希望我的輸出是一個表，其中的行對應於頁面深處的第三層的內容。從代碼中可以看到，我目前只能在第三級頁面上獲得所需項目的第一個實例。另外，雖然我當前的代碼將返回與基本URL上每個h2項相對應的一行，但我希望每個h2項 ...