吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 658|回复: 48
收起左侧

[求助] 爬虫请教UBB代码

[复制链接]
ok667 发表于 2023-8-8 01:00
import requests

url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
response = requests.get(url)
content = response.text

start_index = content.find('[DhtmlXQ]')
end_index = content.find('[/DhtmlXQ]') + len('[/DhtmlXQ]')
ubb_code = content[start_index:end_index]

with open('E:\\DPXQ\\ubb_code.txt', 'w', encoding='utf-8') as f:
    f.write(ubb_code)


====================
以上代码本意是想实现:用python爬取网页http://www.dpxq.com/hldcg/search/view_u_1749080.html的源代码中,从[DhtmlXQ]开始,到[/DhtmlXQ]结束的UBB代码,并保存到本地E盘DPXQ文件夹里。

请教代码问题出在什么地方?如何修改?

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

Stuzar 发表于 2023-8-8 11:04
本帖最后由 Stuzar 于 2023-8-8 11:05 编辑

加个headers应该就可以


[Python] 纯文本查看 复制代码
import requests
url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/116.0'
}
response = requests.get(url,headers=headers)
content = response.text

start_index = content.find('[DhtmlXQ]')
end_index = content.find('[/DhtmlXQ]') + len('[/DhtmlXQ]')
ubb_code = content[start_index:end_index]

with open('E:\\DPXQ\\ubb_code.txt', 'w', encoding='utf-8') as f:
    f.write(ubb_code)
milu1123 发表于 2023-8-8 11:05
大白baymax 发表于 2023-8-8 11:10
二楼说的已经很明了了,加个headers,模拟浏览器发送请求就可以了。
ufo0033 发表于 2023-8-8 11:34
[Python] 纯文本查看 复制代码
url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    "Cache-Control": "no-cache",
    "Connection": "keep-alive",
    "Pragma": "no-cache",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.183"
}
response = requests.get(url,headers=headers)



中间修改下
zhangrun2024 发表于 2023-8-8 12:56
请求头加上headers,把浏览器useragent加上应该模拟浏览器爬取应该可以,如果不行就要逆向
zhuxiangyu1024 发表于 2023-8-8 13:21
前面楼层已经说完了,但是我还是要建议一下,提问要描述问题,不能让人来找问题。比如,假如你这请求没有header返回了500,你描述一下其他人可能都不需要试一下代码都能猜到大概的原因。
 楼主| ok667 发表于 2023-8-8 13:36
Stuzar 发表于 2023-8-8 11:04
加个headers应该就可以

谢谢解答,但是运行后,ubb_code.txt还是0k
 楼主| ok667 发表于 2023-8-8 13:38
ufo0033 发表于 2023-8-8 11:34
[mw_shl_code=python,true]url = 'http://www.dpxq.com/hldcg/search/view_u_1749080.html'
headers = {
...

谢谢解答,但是运行后,ubb_code.txt还是0k
 楼主| ok667 发表于 2023-8-8 13:39
zhangrun2024 发表于 2023-8-8 12:56
请求头加上headers,把浏览器useragent加上应该模拟浏览器爬取应该可以,如果不行就要逆向

逆向还不懂
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止回复与主题无关非技术内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-12 09:08

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表