吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1336|回复: 26
收起左侧

[下载转存] 请帮忙采集这个人微博的全部博文

[复制链接]
leonlai2000 发表于 2022-12-9 08:27
500吾爱币
中医纪元的微博https://weibo.com/u/1173935352?n ... %85%83&is_hot=1
1.采集全部博文
2.有图片的博文最好同时采集图片。
3.不要用阿里云盘,用其他网盘转给我。因为我的阿里云盘空间满了。

最佳答案

查看完整内容

你看看 链接: https://pan.baidu.com/s/1j03bKRMPyQNpQjCoyQ1Syg 提取码: wps2 复制这段内容后打开百度网 盘手机App,操作更方便哦

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

amoxuk 发表于 2022-12-9 08:27
leonlai2000 发表于 2022-12-10 12:56
图片最好是下载下来。文件要PDF格式。

你看看
链接: https://pan.baidu.com/s/1j03bKRMPyQNpQjCoyQ1Syg 提取码: wps2 复制这段内容后打开百度网
盘手机App,操作更方便哦
 楼主| leonlai2000 发表于 2022-12-9 08:42
头像被屏蔽
麦子1995 发表于 2022-12-9 08:46
 楼主| leonlai2000 发表于 2022-12-9 08:51
麦子1995 发表于 2022-12-9 08:46
https://mp.weixin.qq.com/s/YBJPzBpwQsMCQtwhp2yrhg

对我来说,就像看天书一样。否则也不会在这里悬赏了。
7593454 发表于 2022-12-9 11:27
说实话,这个人微博发太多了,微博又限制必须登录才能查看用户发博,还有IP限制和获取频率限制,不是本来就有闲置爬虫资源的话很难搞定的,封装了一个Python的代码,可以获取到['用户','头像','发布地','发布设备','发布时间','内容','图片','页码']这些信息,你可以找人跑一下或者你自己用你的微博账号跑一下,填好参数就可以把信息爬成excel文档并保存了
[Python] 纯文本查看 复制代码
from random import randint
from time import sleep

import httpx
from fake_useragent import UserAgent
from openpyxl import Workbook

ua = UserAgent()


def get_wb_contents(startPage: int, endPage: int, cookies: str, savePath: str = None, proxyList: list=None, userID:str='1173935352'):
    """
    获取微博用户的发博信息
    :param startPage: int: 开始页数,起始为1
    :param endPage: int: 结束页数
    :param cookies: str: 你的微博账号Cookies
    :param savePath: str: excel文件保存地址,不填不保存
    :param proxyList: list: 代{过}{滤}理列表,可空,格式为:'http(s)://url:port'
    :param userID: str: 微博用户ID
    :return: dict
    """
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9,en-GB-oxendict;q=0.8,en;q=0.7,de;q=0.6',
        'cookie': cookies,
        'sec-ch-ua': '"Not?A_Brand";v="8", "Chromium";v="108", "Google Chrome";v="108"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'none',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': ua.random
    }
    if savePath is not None:
        wb = Workbook()
        sh = wb.create_sheet()
        sh.append(['用户', '头像', '发布地', '发布设备', '发布时间', '内容', '图片', '页码'])

    def get_wb_content(content_row):
        date_time = content_row['created_at']
        try:
            location = content_row['region_name']
        except:
            location = ''
        try:
            source = content_row['source']
        except:
            source = ''
        user = content_row['user']
        avatar_hd = user['avatar_hd']
        screen_name = user['screen_name']
        content_text = content_row['text_raw']
        pic_num = content_row['pic_num']
        pics = []
        if pic_num != 0:
            pic_pinfos = content_row['pic_infos']
            for pic in pic_pinfos:
                url = pic_pinfos[pic]['original']['url']
                pics.append(url)
        picture = ';'.join(pics)
        return {'user': screen_name, 'avatar': avatar_hd, 'location': location, 'device': source, 'time': date_time,
                'content': content_text, 'pictures': picture}

    result = []
    page_url = 'https://weibo.com/ajax/statuses/mymblog?uid=' + userID + '&page=1&feature=0&since_id='
    if proxyList is not None:
        proxy_select = randint(0, len(proxyList))
        proxy = {
            'http://': proxyList[proxy_select]
        }
        res = httpx.get(page_url, headers=headers, proxies=proxy).json().get('data')
    else:
        res = httpx.get(page_url, headers=headers).json().get('data')
    if startPage == 1:
        content = res['list']
        for c in content:
            try:
                gwc = get_wb_content(c)
                result.append(gwc)
                if savePath is not None:
                    sh.append([gwc['user'], gwc['avatar'], gwc['location'], gwc['device'], gwc['time'], gwc['content'],
                           gwc['pictures'], 1])
            except:
                result.append({'since_id': res['since_id'], 'page': 1})
                if savePath is not None:
                    sh.append(['since_id', res['since_id'], 'page', 1])
    p = startPage
    while res['since_id'] != '':
        p = p + 1
        if p > endPage:
            break
        else:
            page_url = f'https://weibo.com/ajax/statuses/mymblog?uid={userID}&page={str(p)}&feature=0&since_id=' + res[
                'since_id']
            if proxyList is not None:
                proxy_select = randint(0, len(proxyList))
                proxy = {
                    'http://': proxyList[proxy_select]
                }
                res = httpx.get(page_url, headers=headers, proxies=proxy).json().get('data')
            else:
                res = httpx.get(page_url, headers=headers).json().get('data')
            content = res['list']
            for c in content:
                try:
                    gwc = get_wb_content(c)
                    result.append(gwc)
                    if savePath is not None:
                        sh.append([gwc['user'], gwc['avatar'], gwc['location'], gwc['device'], gwc['time'],
                               gwc['content'], gwc['pictures'], p])
                except:
                    result.append({'since_id': res['since_id'], 'page': 1})
                    if savePath is not None:
                        sh.append(['since_id', res['since_id'], 'page', 1])
            sleep(1000)
    if savePath is not None:
        wb.save(savePath)
        wb.close()
    return result
amoxuk 发表于 2022-12-9 12:51
一共14610条,里面包含了转发的信息,转发的需要原文和图片吗?
还有发布的视频,转发的视频需要吗?
 楼主| leonlai2000 发表于 2022-12-9 20:07
本帖最后由 leonlai2000 于 2022-12-9 20:08 编辑
amoxuk 发表于 2022-12-9 12:51
一共14610条,里面包含了转发的信息,转发的需要原文和图片吗?
还有发布的视频,转发的视频需要吗?

转发的要原文和图片,视频不需要。
 楼主| leonlai2000 发表于 2022-12-9 20:10
amoxuk 发表于 2022-12-9 12:51
一共14610条,里面包含了转发的信息,转发的需要原文和图片吗?
还有发布的视频,转发的视频需要吗?

非常感谢兄弟!!!
amoxuk 发表于 2022-12-9 23:08
leonlai2000 发表于 2022-12-9 20:10
非常感谢兄弟!!!

你拿来做什么?图片的话是不是不用下载都行,给一个缩略图的连接和一个大图的连接就可以了
快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-6-3 21:03

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表