首頁 > 軟體

c#實現爬蟲程式

2022-04-06 13:01:54

圖1

如圖1,我們工作過程中,無論平臺網站還是企業官網,總少不了新聞展示。如某天產品經理跟我們說,推廣人員想要抓取百度新聞中熱點要聞版塊提高站點百度排名。要抓取百度的熱點要聞版本,首先我們先要了解站點https://news.baidu.com/請求頭(Request headers)資訊。

為什麼要了解請求頭(Request headers)資訊?

原因是我們可以根據請求頭資訊某部分報文資訊偽裝這是一個正常HTTP請求而不是人為爬蟲程式躲過站點封殺,而成功獲取響應資料(Response data)。

如何檢視百度新聞網址請求頭資訊?

圖2

如圖2,我們可以開啟谷歌瀏覽器或者其他瀏覽器開發工具(按F12)檢視該站點請求頭報文資訊。從圖中可以瞭解到該百度新聞站點可以接受text/html等資料型別;語言是中文;瀏覽器版本是Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36等等報文資訊,在我們發起一個HTTP請求的時候直接攜帶該報文資訊過去。當然並不是每個報文資訊引數都必須攜帶過去,攜帶一部分能夠請求成功即可。

那什麼是響應資料(Response data)?

圖3

如圖3,響應資料(Response data)是可以從谷歌瀏覽器或者其他瀏覽器中開發工具(按F12)檢視到的,響應可以是json資料,可以是DOM樹資料,方便我們後續解析資料。

當然您可以學習任意一門開發語言開發爬蟲程式:C#、NodeJs、Python、Java、C++。

但這裡主要講述是C#開發爬蟲程式。微軟為我們提供兩個關於HTTP請求HttpWebRequest,HttpWebResponse物件,方便我們傳送請求獲取資料。以下展示下C# HTTP請求程式碼:

        private string RequestAction(RequestOptions options)
        {
            string result = string.Empty;
            IWebProxy proxy = GetProxy();
            var request = (HttpWebRequest)WebRequest.Create(options.Uri);
            request.Accept = options.Accept;
            //在使用curl做POST的時候, 當要POST的資料大於1024位元組的時候, curl並不會直接就發起POST請求, 而是會分為倆步,
            //傳送一個請求, 包含一個Expect: 100 -continue, 詢問Server使用願意接受資料
            //接收到Server返回的100 - continue應答以後, 才把資料POST給Server
            //並不是所有的Server都會正確應答100 -continue, 比如lighttpd, 就會返回417 「Expectation Failed」, 則會造成邏輯出錯.
            request.ServicePoint.Expect100Continue = false;
            request.ServicePoint.UseNagleAlgorithm = false;//禁止Nagle演演算法加快載入速度
            if (!string.IsNullOrEmpty(options.XHRParams)) { request.AllowWriteStreamBuffering = true; } else { request.AllowWriteStreamBuffering = false; }; //禁止緩衝加快載入速度
            request.Headers.Add(HttpRequestHeader.AcceptEncoding, "gzip,deflate");//定義gzip壓縮頁面支援
            request.ContentType = options.ContentType;//定義檔案型別及編碼
            request.AllowAutoRedirect = options.AllowAutoRedirect;//禁止自動跳轉
            request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36";//設定User-Agent,偽裝成Google Chrome瀏覽器
            request.Timeout = options.Timeout;//定義請求超時時間為5秒
            request.KeepAlive = options.KeepAlive;//啟用長連線
            if (!string.IsNullOrEmpty(options.Referer)) request.Referer = options.Referer;//返回上一級歷史連結
            request.Method = options.Method;//定義請求方式為GET
            if (proxy != null) request.Proxy = proxy;//設定代理伺服器IP,偽裝請求地址
            if (!string.IsNullOrEmpty(options.RequestCookies)) request.Headers[HttpRequestHeader.Cookie] = options.RequestCookies;
            request.ServicePoint.ConnectionLimit = options.ConnectionLimit;//定義最大連線數
            if (options.WebHeader != null && options.WebHeader.Count > 0) request.Headers.Add(options.WebHeader);//新增頭部資訊
            if (!string.IsNullOrEmpty(options.XHRParams))//如果是POST請求,加入POST資料
            {
                byte[] buffer = Encoding.UTF8.GetBytes(options.XHRParams);
                if (buffer != null)
                {
                    request.ContentLength = buffer.Length;
                    request.GetRequestStream().Write(buffer, 0, buffer.Length);
                }
            }
            using (var response = (HttpWebResponse)request.GetResponse())
            {
                ////獲取請求響應
                //foreach (Cookie cookie in response.Cookies)
                //    options.CookiesContainer.Add(cookie);//將Cookie加入容器,儲存登入狀態
                if (response.ContentEncoding.ToLower().Contains("gzip"))//解壓
                {
                    using (GZipStream stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress))
                    {
                        using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                        {
                            result = reader.ReadToEnd();
                        }
                    }
                }
                else if (response.ContentEncoding.ToLower().Contains("deflate"))//解壓
                {
                    using (DeflateStream stream = new DeflateStream(response.GetResponseStream(), CompressionMode.Decompress))
                    {
                        using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                        {
                            result = reader.ReadToEnd();
                        }
                    }
                }
                else
                {
                    using (Stream stream = response.GetResponseStream())//原始
                    {
                        using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                        {
                            result = reader.ReadToEnd();
                        }
                    }
                }
            }
            request.Abort();
            return result;
        }

還有一個我自定義傳參物件,當然無論傳入或者傳出的物件都是你們根據自己實際業務需求定義的:

    public class RequestOptions
    {
        /// <summary>
        /// 請求方式,GET或POST
        /// </summary>
        public string Method { get; set; }
        /// <summary>
        /// URL
        /// </summary>
        public Uri Uri { get; set; }
        /// <summary>
        /// 上一級歷史記錄連結
        /// </summary>
        public string Referer { get; set; }
        /// <summary>
        /// 超時時間(毫秒)
        /// </summary>
        public int Timeout = 15000;
        /// <summary>
        /// 啟用長連線
        /// </summary>
        public bool KeepAlive = true;
        /// <summary>
        /// 禁止自動跳轉
        /// </summary>
        public bool AllowAutoRedirect = false;
        /// <summary>
        /// 定義最大連線數
        /// </summary>
        public int ConnectionLimit = int.MaxValue;
        /// <summary>
        /// 請求次數
        /// </summary>
        public int RequestNum = 3;
        /// <summary>
        /// 可通過檔案上傳提交的檔案型別
        /// </summary>
        public string Accept = "*/*";
        /// <summary>
        /// 內容型別
        /// </summary>
        public string ContentType = "application/x-www-form-urlencoded";
        /// <summary>
        /// 範例化頭部資訊
        /// </summary>
        private WebHeaderCollection header = new WebHeaderCollection();
        /// <summary>
        /// 頭部資訊
        /// </summary>
        public WebHeaderCollection WebHeader
        {
            get { return header; }
            set { header = value; }
        }
        /// <summary>
        /// 定義請求Cookie字串
        /// </summary>
        public string RequestCookies { get; set; }
        /// <summary>
        /// 非同步引數資料
        /// </summary>
        public string XHRParams { get; set; }
    }

根據展示的程式碼,我們可以發現HttpWebRequest物件裡面都封裝了很多Request headers報文引數,我們可以根據該網站的Request headers資訊在微軟提供的HttpWebRequest物件裡設定(看程式碼報文引數註釋,都有寫相關引數說明,如果理解錯誤,望告之,謝謝),然後傳送請求獲取Response data解析資料。

還有補充一點,爬蟲程式能夠使用代理IP最好使用代理IP,這樣降低被封殺機率,提高抓取效率。但是代理IP也分質量等級,對於某一些HTTPS站點,可能對應需要質量等級更加好的代理IP才能穿透,這裡暫不跑題,後續我會寫一篇關於代理IP質量等級文章詳說我的見解。

C#程式碼如何使用代理IP?

微軟NET框架也為了我們提供一個使用代理IP 的System.Net.WebProxy物件,關於使用程式碼如下:

        private System.Net.WebProxy GetProxy()
        {
            System.Net.WebProxy webProxy = null;
            try
            {
                // 代理連結地址加埠
                string proxyHost = "192.168.1.1";
                string proxyPort = "9030";

                // 代理身份驗證的帳號跟密碼
                //string proxyUser = "xxx";
                //string proxyPass = "xxx";

                // 設定代理伺服器
                webProxy = new System.Net.WebProxy();
                // 設定代理地址加埠
                webProxy.Address = new Uri(string.Format("{0}:{1}", proxyHost, proxyPort));
                // 如果只是設定代理IP加埠,例如192.168.1.1:80,這裡直接註釋該段程式碼,則不需要設定提交給代理伺服器進行身份驗證的帳號跟密碼。
                //webProxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);
            }
            catch (Exception ex)
            {
                Console.WriteLine("獲取代理資訊異常", DateTime.Now.ToString(), ex.Message);
            }
            return webProxy;
        }

關於 System.Net.WebProxy物件引數說明,我在程式碼裡面也做了解釋。

如果獲取到Response data資料是json,xml等格式資料,這型別解析資料方法我們這裡就不詳細說了,請自行百度。這裡主要講的是DOM樹 HTML資料解析,對於這型別資料有人會用正規表示式來解析,也有人用元件。當然只要能獲取到自己想要資料,怎麼解析都是可以。這裡主要講我經常用到解析元件HtmlAgilityPack,參照DLL為(using HtmlAgilityPack)。解析程式碼如下:

                HtmlDocument htmlDoc = new HtmlDocument();
                htmlDoc.LoadHtml(simpleCrawlResult.Contents);
                HtmlNodeCollection liNodes = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='pane-news']").SelectSingleNode("div[1]/ul[1]").SelectNodes("li");
                if (liNodes != null && liNodes.Count > 0)
                {
                    for (int i = 0; i < liNodes.Count; i++)
                    {
                        string title = liNodes[i].SelectSingleNode("strong[1]/a[1]").InnerText.Trim();
                        string href = liNodes[i].SelectSingleNode("strong[1]/a[1]").GetAttributeValue("href", "").Trim();
                        Console.WriteLine("新聞標題:" + title + ",連結:" + href);
                    }
                }

下面主要展示抓取結果。

 

圖4

如圖4,抓取效果,一個簡單爬蟲程式就這樣子完成了。

到此這篇關於c#實現爬蟲程式的文章就介紹到這了。希望對大家的學習有所幫助,也希望大家多多支援it145.com。


IT145.com E-mail:sddin#qq.com