當前位置:歷史故事大全網 - 圖書大全 - 如何突破豆瓣爬蟲的限頻

如何突破豆瓣爬蟲的限頻

做好cookie UA偽裝。豆瓣用餅幹搶會保持壹定的節奏,不會是403。它會跳轉到驗證碼,簡單的將驗證碼二值化後丟給開放的OCR API,然後下去糾正英文單詞(豆瓣驗證碼基本都是英文單詞),自動識別率基本在30%以上。找到這個節奏的最大並發極限,然後慢慢抓。如果沒有,可以打開多個ip代理來抓。幾個月前,抓豆瓣基本是這麽寫的。首先粗略計算壹下需要抓取的頁面的數量級。有時候,壹頁就是1秒。慢慢搶的話可以滿足幾天的需求。如果不能,就不能去代理。
  • 上一篇:小平imei碼壹定會是二手機嗎?
  • 下一篇:沈陽工程學院圖書館
  • copyright 2024歷史故事大全網