2023年05月08日
2023/05/08 17:09 昨天又看了下之前爬漫画的程序,程序太久不用,已经失效了。主要是两个方面,一个是数据库,原来的数据库居然是放在了原有的云平台上,现在已经下线了,也不打算再做迁移了。后期更改数据库类型试一下,使用mongodb来做数据的承载。 另一个就是那个网站居然上了Cloudflare用来反扒,这个就有点恶心了,参考了两个用来绕过的方案,软件直接绕cf-ray有点难度,要么就是要花钱。通过另外一种方案试了下,找到原站的源IP地址。测试了一下,应该有戏。 查找隐藏记录的网站:https://search.censys.io/,还挺好使的。 参考文档: https://scrapeops.io/web-scraping-playbook/how-to-bypass-cloudflare/ https://www.zenrows.com/blog/bypass-cloudflare-python –这篇用处不大 主站可以绕,但是cdn的文件位置绕不过去……还需要进一步测试。还好这个站不是很复杂,是相同的主机地址,可以比较方便的绕过。