[英]Rails mechanize data scraping correct data/cleaning it
我在從UCAS網站抓取我想要的確切數據時遇到了麻煩。
目前,我正在使用以下代碼提取課程標題:
course_page.search('ol.resultscontainer li').each do |course|
@course_name = course.search('.courseTitle').text
這為我提供了例如:
Mathematics (PGDE - Graduates only)
在下面,我用括號中的UCAS代碼提取課程標題:
course_page.search('ol.resultscontainer li').each do |course|
@ucas_numb = clean_text(course.search('h4').text)
這為我提供了:
Mathematics (PGDE - Graduates only)(G1X1)
我要輸入的最后一個示例是UCAS代碼(以上示例中的G1X1)。 有人可以幫我解決此問題的方法,也可以只選擇要刪除的UCAS代碼嗎?
以下是我正在抓取的UCAS網站上的代碼,該代碼處理了我想抓取的數據:
<h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results">
<span class="courseTitle"></span>
(G1X1)
</a> <h4>
對於任何想知道的人,我都可以通過使用以下代碼刪除span類來實現這一點:
# Removes excess html which was interferring with text
course.search(
'.coursenamearea a span,').remove
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.