Rails機械化數據抓取正確的數據/清理數據

Question

我在從UCAS網站抓取我想要的確切數據時遇到了麻煩。

目前，我正在使用以下代碼提取課程標題：

  course_page.search('ol.resultscontainer li').each do |course|
  @course_name = course.search('.courseTitle').text

這為我提供了例如：

 Mathematics (PGDE - Graduates only)

在下面，我用括號中的UCAS代碼提取課程標題：

 course_page.search('ol.resultscontainer li').each do |course|
            @ucas_numb = clean_text(course.search('h4').text)

這為我提供了：

Mathematics (PGDE - Graduates only)(G1X1)

我要輸入的最后一個示例是UCAS代碼（以上示例中的G1X1）。 有人可以幫我解決此問題的方法，也可以只選擇要刪除的UCAS代碼嗎？

以下是我正在抓取的UCAS網站上的代碼，該代碼處理了我想抓取的數據：

    <h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results">

        <span class="courseTitle"></span>
    (G1X1)
</a> <h4>

Answer 1

對於任何想知道的人，我都可以通過使用以下代碼刪除span類來實現這一點：

            # Removes excess html which was interferring with text
            course.search(
                '.coursenamearea a span,').remove

Rails機械化數據抓取正確的數據/清理數據

問題描述

1 個解決方案

解決方案1
0 已采納 2016-06-24 17:16:00

Rails機械化數據抓取正確的數據/清理數據

問題描述

1 個解決方案

解決方案1 0 已采納 2016-06-24 17:16:00

解決方案1
0 已采納 2016-06-24 17:16:00