簡體   English   中英

C# Web 抓取:讀取動態加載 ajax 內容由 Z2567A5EC9705EB71AC2C984033E 瀏覽器控制

[英]C# Web Scraping: Reading dynamically load ajax content by web browser control

這就是我嘗試的方式。 我將 web 站點加載到 web 瀏覽器控件中。 當用戶向下滾動時,web 站點會加載更多數據。

此 web 站點通過 ajax 動態加載數據。 我嘗試讀取 ajax 加載的所有動態H3 標簽,但我的代碼不起作用。 無法理解我的代碼中缺少什么。

這是我的代碼

private void BrowserTest_Load(object sender, EventArgs e)
{
    webBrowser1.Navigate("https://www.pinterest.com/pin/517210338432366716/");
}

private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
    if (webBrowser1.ReadyState == WebBrowserReadyState.Complete)
    {
        HtmlElement elm = webBrowser1.Document.GetElementById("h3"); // Get "abc" element by ID
        //Console.WriteLine("elm.InnerHtml(DocumentCompleted):" + elm.InnerHtml);
        if (elm != null)
        {
            elm.AttachEventHandler("onpropertychange", new EventHandler(handler));
        }
    }
}

private void handler(Object sender, EventArgs e)
{
    HtmlElement div = webBrowser1.Document.GetElementById("h3");
    if (div == null) return;
    String contentLoaded = div.InnerHtml;
}

private void btnScrollDown_Click(object sender, EventArgs e)
{
    if (webBrowser1.Document != null)
    {
        webBrowser1.Document.Window.ScrollTo(0, webBrowser1.Document.Body.ScrollRectangle.Height);
    }
}

尋找建議如何實現我的目標。 謝謝

我會為此選擇一種更不同的方式;

  1. 將文檔滾動到底部

  2. 等待 100 毫秒(或 200 毫秒、500 毫秒,您的選擇..)

  3. 計算文檔中加載的網格元素總數

  4. 從第 1 步開始重復此操作; 直到; 如果加載的網格元素計數在最后 5 秒內沒有變化。 在這種情況下,它可能是所有項目的結尾,因此請獲取文檔中的所有網格元素。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM