如何突破豆瓣爬蟲的限頻

做好cookie UA偽裝。豆瓣用餅幹搶會保持壹定的節奏，不會是403。它會跳轉到驗證碼，簡單的將驗證碼二值化後丟給開放的OCR API，然後下去糾正英文單詞(豆瓣驗證碼基本都是英文單詞)，自動識別率基本在30%以上。找到這個節奏的最大並發極限，然後慢慢抓。如果沒有，可以打開多個ip代理來抓。幾個月前，抓豆瓣基本是這麽寫的。首先粗略計算壹下需要抓取的頁面的數量級。有時候，壹頁就是1秒。慢慢搶的話可以滿足幾天的需求。如果不能，就不能去代理。