标签[scraperwiki] - 堆栈内存溢出

使用Invoke-WebRequest进行抓取 - Scraping with Invoke-WebRequest

我们正在将一个asp.net内部网迁移到SharePoint，并通过PowerShell自动进行转换。我们只想从DIV标记中删除类名称为“ topnav”的链接。并非页面上的所有链接这为我们提供了topnav的HTML，但是如何最好地从Applications节点中仅提取应 ...

我正在尝试从需要登录但未获取任何数据的站点中抓取 HTML - I am trying to scrape HTML from a site that requires a login but am not getting any data

我正在关注本教程，但在运行 python 时似乎无法获取任何数据。我得到一个 200 的 HTTP 状态代码， status.ok返回一个真值。任何帮助都会很棒。这就是我在终端中的响应： ...

如何有选择地抓取具有重复类ID的html - How to selectively scrape html with repeated class IDs

我是python的新手，徒劳地搜索了stackoverflow以获得我可以理解的答案。在此先感谢您提供的任何帮助或建议。我正在尝试从房屋销售网站上获取有关价格和位置的信息，即带有“ field-content”标签的信息。问题在于页面上有很多“字段内容”标签，而我尝试的原始代 ...

对磁盘上的pdf文件使用scraperwiki - Using scraperwiki for pdf-file on disk

我正在尝试使用scraperwiki for pyhon从pdf文档中获取一些数据。如果我像这样使用urllib2下载文件，它的工作原理很漂亮：但是，这是棘手的部分。由于我想对磁盘上的大量pdf文件执行此操作，因此我想取消第一行并将pdf文件直接作为参数传递。但是，如果我尝 ...

sqlalchemy.exc.StatementError：刮板中以10为底的int（）的无效文字 - sqlalchemy.exc.StatementError: invalid literal for int() with base 10 in scraper

我已经编写了Python 2.7抓取工具，但是在尝试保存数据时遇到错误。抓取工具是用Scraperwiki写的，但是我认为这与我得到的错误基本无关-保存在Scraperwiki中的问题似乎是使用Sqlalchemy处理的，这就是错误的原因。我收到此错误消息：尝试保存此行数据 ...

从PDF提取表格的问题 - Problems with extracting table from PDF

我知道这个主题上有一些话题，但是他们的解决方案似乎都不适合我。我有一个PDF文档中的表格，希望从中提取信息。我可以将文本复制并粘贴到textedit中，它清晰易读，但并非真正有用。我的意思是，所有文本都是可读的，但数据全部由空格分隔，无法将列与单元格中文本中的空格区分开。但是 ...

Scraperwiki Python循环问题 - Scraperwiki Python Loop Issue

我正在使用Python通过ScraperWiki创建一个刮板，但是我得到的结果存在问题。我将代码基于ScraperWiki的文档上的基本示例，并且看起来一切都非常相似，因此我不确定我的问题在哪里。对于我的结果，我得到了页面上的第一个文档标题/ URL，但是循环似乎存在问题，因为它不返回 ...

找不到scraperwiki.sqlite表 - A table of scraperwiki.sqlite isn't found

我在Ruby中有一个脚本，它使用scraperwiki gem。在此脚本的目录中，有一个名为scraperwiki.sqlite的文件。但是尽管如此，当我运行它时，还是出现了一个错误： ...

lxml无法与Django配合使用，scraperwiki - lxml not working with django, scraperwiki

我正在开发一个django应用程序，该应用程序将通过伊利诺伊州的大会网站刮取一些pdf文件。当部署在我的桌面上时，它可以正常工作，直到urllib2超时。当我尝试在Bluehost服务器上进行部署时，代码的lxml部分抛出了错误。任何帮助，将不胜感激。编辑1这是错误跟踪 ...

安装Scraperwiki for Python会产生错误pdftohtml找不到 - Installing Scraperwiki for Python generates an error pdftohtml not found

我一直在尝试为Python安装Scraperwiki模块。但是，它生成错误： “” UserWarning：本地Scraperlibs需要pdftohtml，但在PATH中找不到pdftohtml。您可能需要安装它” 。我调查了poppler，因为它们具有pdftohtml ...

Scraperwiki-Python-跳过表格行 - Scraperwiki - python - skipping a table row

我正在尝试使用TH作为后面带有TD标签的表格，将TH用作表格。问题在于该表使用的间歇分隔符由于不包含TH标签而需要跳过。这是表中的示例：我在scraperwiki中使用python收集数据，但是在跳过有问题的行时遇到了问题。没有任何条件，我的代码将在没有TH标签的行 ...

抓取代码的性能优化 - Performance Optimization of scraping code

我正在研究大数据的网络抓取，所以我编写了以下代码来从我们校园的本地服务器获取一些信息。它工作正常，但我认为性能很慢；每条记录需要 0.91 秒才能存储在数据库中。代码的作用是打开一个网页，获取一些内容并将其存储在磁盘上。我的目标是将抓取记录所用的时间降低到接近 0.4 秒（或更少，如果可能 ...

如何将此数据添加到scraperwiki中的数据库 - How to add this data to database in scraperwiki

现在，我想知道如何将这些数据保存在scraperwiki的数据库中。我已经尝试了一些命令，例如但是当我检查数据集时，它们没有给我所需的结果。代码或最后一条语句是否有问题。请帮忙。 Python编程和Scraperwiki的新功能。 ...

使用ScraperWiki刮取PDF并得到未定义的错误 - Scraping a PDF with ScraperWiki and getting an Error of not Defined

我正在尝试使用ScraperWiki抓取此PDF。当前代码给我一个错误的名称“数据”未定义，但我收到错误如果我注释掉那行，我的else语句也会出现同样的错误。这是我的代码我究竟做错了什么？同样，任何关于更好解决方案的建议将不胜感激。 ...

修复'sqlite3.InterfaceError：错误绑定参数0 - 可能不支持的类型。尝试转换类型或酸洗。 - Fixing a 'sqlite3.InterfaceError: Error binding parameter 0 - probably unsupported type. Try converting types or pickling.'

我在ScraperWiki中坚持使用这个刮刀。我只想要ul中的li元素和dir ='ltr'的文本。我每周都会运行这个脚本，句子可能彼此相似，而且是一个全新的句子。这就是为什么我想在我的数据中包含日期。我收到以下错误：如何让这个刮刀保存我的数据？ ...

ScraperWiki抓取频率 - ScraperWiki scrape frequence

这可能是一个愚蠢的问题，但是我目前正在使用Scraperwiki来抓取Twitter。 Tho ScraperWiki的运行频率很低。有一种方法可以强制运行ScraperWiki，使其更频繁地运行而不接触python，因为我的知识仅限于javascript。到目前为止，我的代码： ...

如何在 Windows 上安装 Poppler？ - How to install Poppler on Windows?

ScraperWiki 的最新版本依赖于Poppler （或者 GitHub 上说的）。不幸的是，它只指定了如何在 macOS 和 Linux 上获取它，而不是 Windows。一个快速的谷歌搜索结果没有太大的希望。有谁知道如何在 Windows 上为 ScraperWiki 获取 Pop ...

Scraperwiki：如何将数据保存到表中的一个单元格 - Scraperwiki: how to save data into one cell in table

这是我的刮板代码，该代码从该特定页面提取URL和相应的注释：将数据保存到scraperwiki数据存储区后，仅将来自一个URL的最后一条注释放入表中。我想在表格中为每个URL保存所有注释。因此，在第一列中有URL，在第二列中有该URL的所有注释，而不仅仅是最后一个注释，这就是该 ...

如何在此刮板程序中使用lxml提取文本？ - How to extract text with lxml in this scraper program?

我正在尝试从此页面上的特定元素中抓取文本数据（使用scraperwiki）然后scraperwiki控制台返回：我使用Google Chrome浏览器查找XPath，但我认为请求使用的标准与chrome相同 ...

如何在Python中刮除链接的三重嵌套列表的第一个实例？ - How to scrape more than first instance of triple-nested list of links in Python?

我正在尝试确定记录从原始网页链接的网页链接的网页内容的最简单方法。我希望我的输出是一个表，其中的行对应于页面深处的第三层的内容。从代码中可以看到，我目前只能在第三级页面上获得所需项目的第一个实例。另外，虽然我当前的代码将返回与基本URL上每个h2项相对应的一行，但我希望每个h2项 ...