簡體   English   中英

Rails機械化數據抓取正確的數據/清理數據

[英]Rails mechanize data scraping correct data/cleaning it

我在從UCAS網站抓取我想要的確切數據時遇到了麻煩。

目前,我正在使用以下代碼提取課程標題:

  course_page.search('ol.resultscontainer li').each do |course|
  @course_name = course.search('.courseTitle').text

這為我提供了例如:

 Mathematics (PGDE - Graduates only)

在下面,我用括號中的UCAS代碼提取課程標題:

 course_page.search('ol.resultscontainer li').each do |course|
            @ucas_numb = clean_text(course.search('h4').text)

這為我提供了:

Mathematics (PGDE - Graduates only)(G1X1)

我要輸入的最后一個示例是UCAS代碼(以上示例中的G1X1)。 有人可以幫我解決此問題的方法,也可以只選擇要刪除的UCAS代碼嗎?

以下是我正在抓取的UCAS網站上的代碼,該代碼處理了我想抓取的數據:

    <h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results">

        <span class="courseTitle"></span>
    (G1X1)
</a> <h4>

對於任何想知道的人,我都可以通過使用以下代碼刪除span類來實現這一點:

            # Removes excess html which was interferring with text
            course.search(
                '.coursenamearea a span,').remove

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM