事實上,抽象網絡爬蟲,它包含以下步驟。
模擬請求頁面。模擬壹個瀏覽器,打開目標網站。
獲取數據。打開網站後,我們可以自動獲取我們需要的網站數據。
保存數據。獲取數據後,需要將數據持久化到本地文件或數據庫等存儲設備中。
那麽如何才能用Python編寫自己的爬蟲程序呢?在這裏,我想重點介紹壹個Python庫:請求。
請求使用
Requests庫是Python中發起HTTP請求的庫,使用起來非常方便簡單。
模擬發送HTTP請求
發送獲取請求
當我們用瀏覽器打開豆瓣的首頁時,我們發出的原始請求其實就是GET請求。
導入請求
res = requests.get(' ')
打印(分辨率)
打印(類型(分辨率))
& gt& gt& gt
& lt回復[200]& gt;
& ltclass ' requests . models . response ' & gt;