李東霖EXCEL資料>從WEB取得外部資料>自動更新

讀入表格




 

到瓊指數30

網路爬蟲的開始

EXCEL讀入

金融研訓院

網路爬蟲

網路爬蟲始於一張被稱作種子的統一資源位址(URL)列表。當網路爬蟲存取這些統一資源定位器時,它們會甄別出頁面上所有的超連結,並將它們寫入一張「待訪列表」,即所謂爬行疆域。此疆域上的URL將會被按照一套策略迴圈來存取。如果爬蟲在執行的過程中複製歸檔和儲存網站上的資訊,這些檔案通常儲存,使他們可以較容易的被檢視。閱讀和瀏覽他們儲存的網站上並即時更新的資訊,這些被儲存的網頁又被稱為「快照」。越大容量的網頁意味著網路爬蟲只能在給予的時間內下載越少部分的網頁,所以要優先考慮其下載。高變化率意味著網頁可能已經被更新或者被取代。一些伺服器端軟體生成的URL(統一資源定位符)也使得網路爬蟲很難避免檢索到重複內容。 但是網際網路的資源卷帙浩繁,這也意味著網路爬蟲只能在一定時間內下載有限數量的網頁,因此它需要衡量優先順序的下載方式。有時候網頁出現、更新和消失的速度很快,也就是說網路爬蟲下載的網頁在幾秒後就已經被修改或甚至刪除了。這些都是網路爬蟲設計師們所面臨的兩個問題。 再者,伺服器端軟體所生成的統一資源位址數量龐大,以致網路爬蟲難免也會採集到重複的內容。根據超文字傳輸協定,無盡組合的參數所返回的頁面中,只有很少一部分確實傳回正確的內容。例如:數張快照陳列室的網站,可能通過幾個參數,讓使用者選擇相關快照:其一是通過四種方法對快照排序,其二是關於快照解析度的的三種選擇,其三是兩種檔案格式,另加一個使用者可否提供內容的選擇,這樣對於同樣的結果會有48種(4*3*2)不同的統一資源位址與其關聯。這種數學組合替網路爬蟲造成了麻煩,因為它們必須越過這些無關指令碼變化的組合,尋找不重複的內容。

留言

這個網誌中的熱門文章

李東霖python import openpyxl 處理EXCEL

李東霖python輸入openpyxl處理EXCEL檔案