吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 26439|回复: 124
上一主题 下一主题
收起左侧

[Python 转载] 为了知道女朋友的小秘密,我用python爬了榜姐微博下60000个女生小秘密!

    [复制链接]
跳转到指定楼层
楼主
创造太阳 发表于 2020-3-4 22:35 回帖奖励
本帖最后由 创造太阳 于 2020-3-5 01:06 编辑

我又来了,没有分手,我们的关系还是很好的!
我给女朋友发了20000句情话,她暂时不想听情话了!(详见:女朋友抱怨不会说情话,用python给她发了20000句!让她见识见识情话大全!https://www.52pojie.cn/thread-1113388-1-1.html(出处: 吾爱破解论坛))
女朋友最近不找我下五子棋了!(详见:女朋友下棋比我厉害,还特别嚣张,不能忍。拿python敲个辅助,看她如何嚣张!https://www.52pojie.cn/thread-1116867-1-1.html(出处: 吾爱破解论坛))
不过也没怼我,上次的表情包好像白存了,不过还是留着吧,万一派上用场了呢?(详见:为了防止女朋友怼我,我就先用python爬了3600个怼人表情包等她来战!https://www.52pojie.cn/thread-1118801-1-1.html(出处: 吾爱破解论坛))
也不知道你们找到女朋友了没有,找到的话,一起来交流研究!(详见:别再酸了,女朋友是不可能发,但是可以用python帮你创造机会搞到一个!搞到来告诉我!https://www.52pojie.cn/thread-1119202-1-1.html(出处: 吾爱破解论坛))
女朋友存了好多网上的男明星的照片,我准备用python全部换成我的脸!https://www.52pojie.cn/thread-1120431-1-1.html(出处: 吾爱破解论坛)

由于是第一次谈恋爱,所以呢,对女生不是很了解,今天刚好看到微博榜姐搞了一个“女生哪些小秘密,是很多男生不知道的”,下边竟然有60000条评论!
60000个女生的小秘密啊!作为一个什么都不懂的男孩子,你是否好奇呢?
不管你好奇不好奇,反正我是挺好奇的!
看了60000个女生小秘密,女朋友的小秘密,我都能发现的!
代码已经封装了!一款爬取微博手机网页版评论的小程序https://www.52pojie.cn/thread-1123074-1-1.html(出处: 吾爱破解论坛)
代码如下(利用微博手机网页版!网址:https://m.weibo.cn):
[Python] 纯文本查看 复制代码
import requests
import json
import re


# 定义保存评论的函数
def bcpl(weibo_id, url, headers, number):
    count = 0    #设置一个初始变量count为0来进行计数
    with open("微博id" + str(weibo_id) + ".txt", "a", encoding="utf8") as f:    #打开一个名为“微博idxxxxxx”的txt文件,编码utf-8
    # 当count数量小于预期的number时,进行循环
        while count < number:
            # 判断是不是第一组评论,如果是的话,第一组评论不需要加max_id,之后的需要加
            if count == 0:
                try:
                    url = url + weibo_id + '&mid=' + weibo_id + '&max_id_type=0'
                    web_data = requests.get(url, headers=headers)    #F12查看data信息
                    js_con = web_data.json()    #转换一下数据格式
                    # 获取连接下一页评论的max_id
                    max_id = js_con['data']['max_id']  #max_id在[data]中
                    print(max_id)
                    comments = js_con['data']['data']    #获得数据中[data]中的[data]
                    for comment in comments:    #依次循环获得comments中的数据
                        comment = comment["text"]     #获得[text]下的数据,也就是评论数据
                        label = re.compile(r'</?\w+[^>]*>', re.S)    #删除表情符号
                        comment = re.sub(label, '', comment)    #获得文本评论
                        f.write(comment + '\n')    #写入到文件中
                        count += 1    #count = count + 1
                        print("已爬取" + str(count) + "条评论!"  ) #显示爬取到第几条
                except Exception as e:
                    print("出错了" ,e)
                    continue
            else:
                try:
                    url = url + weibo_id + 'max_id=' + str(max_id) + '&max_id_type=0'
                    web_data = requests.get(url, headers=headers)
                    js_con = web_data.json()
                    max_id = js_con['data']['max_id']
                    comments = js_con['data']['data']
                    for comment in comments:
                        comment = comment["text"]
                        label = re.compile(r'</?\w+[^>]*>', re.S)
                        comment = re.sub(label, '', comment)
                        f.write(comment+ '\n')
                        count += 1
                        print("已爬取" + str(count) + "条评论!")
                except Exception as e:
                    print("出错了" ,e)
                    continue



if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }    #设置user-agent来进行伪装,突破微博反爬限制
    url = 'https://m.weibo.cn/comments/hotflow?id='
    weibo_id = '4478512314460101'  # 要爬取的微博id  #[url=https://m.weibo.cn/detail/4478512314460101]https://m.weibo.cn/detail/4478512314460101[/url]
    #打开微博手机端网页[url=https://m.weibo.cn]https://m.weibo.cn[/url],找到要爬取的微博id!
    #手机端网页!手机端网页!手机端网页!
    number = 60000 # 设置爬取评论量,爬取量在第X组,爬取时会爬取下来该组的数据,所以最终数据可能会大于number,一般是个整10的数
    bcpl(weibo_id, url, headers, number)





代码已经封装了!一款爬取微博手机网页版评论的小程序https://www.52pojie.cn/thread-1123074-1-1.html(出处: 吾爱破解论坛)

女生的部分小秘密.txt

20.86 KB, 下载次数: 1069, 下载积分: 吾爱币 -1 CB

免费评分

参与人数 25吾爱币 +20 热心值 +22 收起 理由
T-timo + 1 + 1 热心回复!
虚构人物 + 1 + 1 谢谢@Thanks!
宙斯 + 1 + 1 我很赞同!
吴书醉 + 1 谢谢@Thanks!
蝉儿唱响了夏天 + 1 + 1 我很赞同!
1343513037 + 1 我很赞同!
menmenmen + 1 + 1 我很赞同!
未来老中医 + 1 + 1 我很赞同!
it_harry + 1 + 1 我很赞同!
忧花殇倾城泪 + 1 热心回复!
hxl123 + 1 + 1 热心回复!
DICE-zdz + 1 + 1 我很赞同!
h1069610309 + 1 + 1 热心回复!
jkqjkqjkq + 1 我很赞同!
wkfy + 1 + 1 唯一重复发送你家妹子不嫌烦的就是发红包了。你for 个10000试试。只会嫌你.
koma1992 + 1 我很赞同!
小白公子 + 1 + 1 每天一个单身小技巧
rhel7 + 1 + 1 谢谢@Thanks!
indian806 + 1 谢谢@Thanks!
葫芦小俊俊 + 1 不说什么,很赞!奥利给
PMO + 1 + 1 谢谢@Thanks!
www.52pojie.cn + 1 + 1 一天一个单身小技巧
开着跑车泡MM + 1 + 1 用心讨论,共获提升!
生有涯知无涯 + 1 我很赞同!
你爷爷的爷爷 + 1 + 1 楼主厉害

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

推荐
Time丨Brand 发表于 2020-3-4 22:46
这标题一个个的,很专业。
推荐
Kenzan 发表于 2020-3-4 22:45
一堆重复的!!!!!!!!!!!!!!!!!
4#
AllTimeLow 发表于 2020-3-4 22:40
5#
cheatgg 发表于 2020-3-4 22:40
利害了这是狗粮撒的
6#
hxboy288 发表于 2020-3-4 22:41
厉害了大神,这也行啊。。。简直liubility了
7#
tchuoyanshen 发表于 2020-3-4 22:43

我去、老哥你是鬼才吧
8#
淘七夜 发表于 2020-3-4 22:43
还真有人下载,这是有多无聊啊!
9#
amaoy 发表于 2020-3-4 22:45
论坛有此等鬼才
10#
奋斗者协议 发表于 2020-3-4 22:49
佩服,还可以这样
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-3-29 17:54

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表