吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 809|回复: 7
收起左侧

[求助] Python爬取zg制造网的数据

[复制链接]
Hello1 发表于 2024-5-23 16:49
我想问一下有没有大佬们知道 Python爬取的时候 https://www.made-in-china.com/multi-search/glass%2Bbottle/F1/(循环的页数).html 如果我想循环获取1-10页的 但是每页的数据的cookies都不一样 应该怎么写代码,试过用sessions保持会话 但没有用

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

fire9 发表于 2024-5-23 17:05
把cookie给逆向了
 楼主| Hello1 发表于 2024-5-23 17:18
fire9 发表于 2024-5-23 17:05
把cookie给逆向了

那Python有没有可以输出网站的cookies值的模块或者其他方法
star0angel 发表于 2024-5-23 18:24
我刚刚试了一下 你可能是缺少了防盗链  加个Referer  貌似根cookie没什么关系
howyouxiu 发表于 2024-5-23 19:06
使用session的话,cookies会自动刷新的,所以可以参考一下4楼
wsxb 发表于 2024-5-23 20:01
有没有GET客的免费版
assuller 发表于 2024-5-23 22:45
你要用浏览器观察规矩,然后再用py模拟,实在不行的话请参考7楼
anning666 发表于 2024-5-24 08:52
我倾向于4楼童鞋的建议,网站服务端应该是加了反爬措施
比如请求第二页的时候,网址是这样的: "www.serverhostxxx.com/news/page/2",服务端可以通过'Refer'判断类似这样的url正则"www.serverhostxxx.com/news/page/server_page_number"
如果正则匹配不上,或者前端压根没传'Refer'参数过来,说明遇到爬虫了,就过滤掉这个请求,返回400状态码
建议加上"Refer"参数试试
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-12-12 12:40

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表