吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1246|回复: 12
收起左侧

[求助] PY程序的输出为什么执行两次一样的?

  [复制链接]
狂笑一君 发表于 2022-2-5 10:52
本帖最后由 狂笑一君 于 2022-2-8 20:09 编辑

程序自己写的,但是执行时不懂为啥输出了两次,目录名和src都是输出了两次!自己一个人找不到问题点,希望有大神指导一下。url就不放了怕违规。代码如下:
#采集页面
    url = '   '

#分析采集页
    page_text = requests.get(url, headers=headers).text
    tree = etree.HTML(page_text)

#获取套图url
    book_list = tree.xpath('//div[@class="img"]//a/@href')
   
for book in book_list:
        book_url =
'   '+book
#分析图片连接
        pic_text = requests.get(book_url, headers=headers).text
        pic_text = pic_text.encode(
'iso-8859-1').decode('gbk')
        pic_tree = etree.HTML(pic_text)
        book_name = pic_tree.xpath(
'//div[@class="h"]//text()')
        
for book_path in book_name:
            
print("获取",book_path,"页面成功")
            time.sleep(
0.1)
            #url_list = pic_tree.xpath(
'//div[@id="picg"]//img/@src')
            #
for url in url_list:
            #   
print(url)
            #    time.sleep(
0.2)



输出结果:
image.png


感谢10楼的大佬提点!首页的A标记确实是出先了两次一样的。


免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
yt13299374849 + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

excess1989 发表于 2022-2-5 11:37
内容怎么不贴图片!不厚道了w哇
herokeke 发表于 2022-2-5 12:09
 楼主| 狂笑一君 发表于 2022-2-5 12:39
本帖最后由 狂笑一君 于 2022-2-5 12:41 编辑
herokeke 发表于 2022-2-5 12:09
贴下页面HTML结构。或许跟获取的节点有关系。

分析过class="h"只有一个,图片的src也是唯一,和HTML结构应该没有关系,应该是循环问题,现在是同一个页面采集了两次然后才采集下一个新的页面
 楼主| 狂笑一君 发表于 2022-2-5 12:40
excess1989 发表于 2022-2-5 11:37
内容怎么不贴图片!不厚道了w哇

这不是怕审核不通过嘛
dajituiii 发表于 2022-2-5 13:48
看一下book_name的内容,是不是book_name里面每个元素都有一个重复的
水墨青云 发表于 2022-2-5 15:23
for book_path in set(book_name): 这样把重复的去掉?
jidesheng6 发表于 2022-2-5 16:28
看起来就是循环导致的,因为本身就是嵌套循环,或许你可以把单次循环的结果写入到一个list或者字典中,等到最后再进行去重处理后进行输出
Anekys 发表于 2022-2-5 16:33
先调试下xpath看看浏览器里面匹配的结果是不是有重复的地方
然后再看下你那个用xpath获取的结果里面是什么样的
基本就可以确定了
s1986q 发表于 2022-2-5 20:30
book_list有重复
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止回复与主题无关非技术内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-25 09:28

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表