吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 12377|回复: 43
收起左侧

[Python 转载] 爬虫————淘宝安全套

[复制链接]
山野村夫-陈墨 发表于 2019-9-10 18:46
本帖最后由 山野村夫-陈墨 于 2019-9-10 18:50 编辑

其实,相比于前几次爬虫,这次真的太out了。但是,还是得发一篇,哈哈哈 。
简单阐述一下,程序流程:
1、请求数据,对数据解码,得到一个字符串 str
2、对str进行正则,截取data段数据new_str
3、对new_str 进行反序列化 condom=json.loads(new_str),得到列表condom,元素为字典
4、后序的数据处理

细心的朋友,看见了 “程序流程:1”中有个变量“str”。刚好python 有一个函数叫str,那么会不会影响srt()使用呢 ?
大家试试!
[Python] 纯文本查看 复制代码
import  requests
import json
import re
import pandas as pd

def  get_msg():
    url="https://h5api.m.taobao.com/h5/mtop.alimama.union.sem.landing.pc.items/1.0/?jsv=2.4.0&appKey=12574478&t=1568021813043&sign=c2a4d2497fc24e077d8f0a0fe63591c2&api=mtop.alimama.union.sem.landing.pc.items&v=1.0&AntiCreep=true&dataType=jsonp&type=jsonp&ecode=0&callback=mtopjsonp1&data=%7B%22keyword%22%3A%22%E5%AE%89%E5%85%A8%E5%A5%97%20%E7%94%B7%22%2C%22ppath%22%3A%22%22%2C%22loc%22%3A%22%22%2C%22minPrice%22%3A%2220%22%2C%22maxPrice%22%3A%22200%22%2C%22ismall%22%3A%22%22%2C%22ship%22%3A%22%22%2C%22itemAssurance%22%3A%22%22%2C%22exchange7%22%3A%22%22%2C%22custAssurance%22%3A%22%22%2C%22b%22%3A%22%22%2C%22clk1%22%3A%22f165a3cac48d521b64f09db3154c2140%22%2C%22pvoff%22%3A%22%22%2C%22pageSize%22%3A%22100%22%2C%22page%22%3A%22%22%2C%22elemtid%22%3A%221%22%2C%22refpid%22%3A%22mm_26632258_3504122_32538762%22%2C%22pid%22%3A%22430673_1006%22%2C%22featureNames%22%3A%22spGoldMedal%2CdsrDescribe%2CdsrDescribeGap%2CdsrService%2CdsrServiceGap%2CdsrDeliver%2C%20dsrDeliverGap%22%2C%22ac%22%3A%224yNrFGXsb1wCAQE%2ByggyM3e5%22%2C%22wangwangid%22%3A%22%22%2C%22catId%22%3A%22%22%7D"
    header = {
            "Referer":"https://uland.taobao.com/sem/tbsearch?refpid=mm_26632258_3504122_32538762&clk1=f165a3cac48d521b64f09db3154c2140&keyword=%E5%AE%89%E5%85%A8%E5%A5%97%20%E7%94%B7&minPrice=20&maxPrice=200&spm=a2e15.8261149.07626516001.dsortpricerange",
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
    }
    response = requests.get(url,headers=header )
    #print(response.content.decode())
    html_str = etree.HTML(response.content.decode())
    #print(html_str)
    dirt =  response.text
    open("爬淘宝01.txt", "w").write(dirt)


def find_condom():
    str_msg = open("爬淘宝01.txt", "r").read()[len("mtopjsonp1")+1:]
    #print(str_msg)
    str_msg = re.findall(r"(?<=mainItems\":).*(?=},\"ret)",str_msg)
    #print(str_msg)
    str_msg = json.loads(str_msg[0])

    main_key= ["loc", "price", "promoPrice","sellCount", "title", "wangwangId"]
    recode = {key:[]  for key in main_key}


    for item in str_msg :
        for key in main_key:
            recode[key].append(item[key])

    f = open("淘宝安全套.txt","w")
    for  i  in range(0, len(str_msg)):
        for  key  in main_key:
            print(recode[key][i],  end="\t\t")
            f.write(str(recode[key][i]))
            f.write("\t\t")
        print()
        f.write("\n")
    f.close()


if __name__=="__main__":
   #get_msg()
   find_condom()

QQ图片20190910184932.png

免费评分

参与人数 2吾爱币 +1 热心值 +2 收起 理由
erinfj9312 + 1 热心回复!
某猫 + 1 + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

佚名RJ 发表于 2019-9-10 18:57
表示强烈支持技术人员,将技术与生活强强结合!将技术用于生活的个个角落。
sunnyswsh 发表于 2019-9-10 20:42
是个狼人,大佬就不怕打开淘宝,推荐全是安全套吗【手动狗头】
njbhk2188 发表于 2019-9-10 18:52
莫問_ 发表于 2019-9-10 19:14
看不懂是做什么的~
好好学习多挣钱 发表于 2019-9-10 19:18
建议添加产品长度
kbvsfm 发表于 2019-9-10 19:37
不错,围观一下
note52019 发表于 2019-9-10 19:43
好东西支持
众益科技 发表于 2019-9-10 19:52
不知道怎么使用
爱惜的路 发表于 2019-9-10 19:53

好东西支持下
黑黑黑猪儿 发表于 2019-9-10 20:15
再来个评论分析, 这样我就知道下次买哪个牌子了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-3-29 19:42

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表