请帮忙采集这个人微博的全部博文

leonlai2000 · 发表于 2022-12-9 08:27

中医纪元的微博https://weibo.com/u/1173935352?n ... %85%83&is_hot=1
1.采集全部博文
2.有图片的博文最好同时采集图片。
3.不要用阿里云盘，用其他网盘转给我。因为我的阿里云盘空间满了。

amoxuk · 发表于 2022-12-9 08:27

leonlai2000 发表于 2022-12-10 12:56
图片最好是下载下来。文件要PDF格式。

你看看
链接: https://pan.baidu.com/s/1j03bKRMPyQNpQjCoyQ1Syg 提取码: wps2 复制这段内容后打开百度网
盘手机App，操作更方便哦

leonlai2000 · 发表于 2022-12-9 08:42

顶一下，让更多人看到。

麦子1995 · 发表于 2022-12-9 08:46

提示: 作者被禁止或删除内容自动屏蔽

leonlai2000 · 发表于 2022-12-9 08:51

麦子1995 发表于 2022-12-9 08:46
https://mp.weixin.qq.com/s/YBJPzBpwQsMCQtwhp2yrhg

对我来说，就像看天书一样。否则也不会在这里悬赏了。

7593454 · 发表于 2022-12-9 11:27

说实话，这个人微博发太多了，微博又限制必须登录才能查看用户发博，还有IP限制和获取频率限制，不是本来就有闲置爬虫资源的话很难搞定的，封装了一个Python的代码，可以获取到['用户','头像','发布地','发布设备','发布时间','内容','图片','页码']这些信息，你可以找人跑一下或者你自己用你的微博账号跑一下，填好参数就可以把信息爬成excel文档并保存了

[Python] 纯文本查看 复制代码

from random import randint
from time import sleep

import httpx
from fake_useragent import UserAgent
from openpyxl import Workbook

ua = UserAgent()


def get_wb_contents(startPage: int, endPage: int, cookies: str, savePath: str = None, proxyList: list=None, userID:str='1173935352'):
    """
    获取微博用户的发博信息
    :param startPage: int: 开始页数，起始为1
    :param endPage: int: 结束页数
    :param cookies: str: 你的微博账号Cookies
    :param savePath: str: excel文件保存地址，不填不保存
    :param proxyList: list: 代{过}{滤}理列表，可空，格式为：'http(s)://url:port'
    :param userID: str: 微博用户ID
    :return: dict
    """
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9,en-GB-oxendict;q=0.8,en;q=0.7,de;q=0.6',
        'cookie': cookies,
        'sec-ch-ua': '"Not?A_Brand";v="8", "Chromium";v="108", "Google Chrome";v="108"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'none',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': ua.random
    }
    if savePath is not None:
        wb = Workbook()
        sh = wb.create_sheet()
        sh.append(['用户', '头像', '发布地', '发布设备', '发布时间', '内容', '图片', '页码'])

    def get_wb_content(content_row):
        date_time = content_row['created_at']
        try:
            location = content_row['region_name']
        except:
            location = ''
        try:
            source = content_row['source']
        except:
            source = ''
        user = content_row['user']
        avatar_hd = user['avatar_hd']
        screen_name = user['screen_name']
        content_text = content_row['text_raw']
        pic_num = content_row['pic_num']
        pics = []
        if pic_num != 0:
            pic_pinfos = content_row['pic_infos']
            for pic in pic_pinfos:
                url = pic_pinfos[pic]['original']['url']
                pics.append(url)
        picture = ';'.join(pics)
        return {'user': screen_name, 'avatar': avatar_hd, 'location': location, 'device': source, 'time': date_time,
                'content': content_text, 'pictures': picture}

    result = []
    page_url = 'https://weibo.com/ajax/statuses/mymblog?uid=' + userID + '&page=1&feature=0&since_id='
    if proxyList is not None:
        proxy_select = randint(0, len(proxyList))
        proxy = {
            'http://': proxyList[proxy_select]
        }
        res = httpx.get(page_url, headers=headers, proxies=proxy).json().get('data')
    else:
        res = httpx.get(page_url, headers=headers).json().get('data')
    if startPage == 1:
        content = res['list']
        for c in content:
            try:
                gwc = get_wb_content(c)
                result.append(gwc)
                if savePath is not None:
                    sh.append([gwc['user'], gwc['avatar'], gwc['location'], gwc['device'], gwc['time'], gwc['content'],
                           gwc['pictures'], 1])
            except:
                result.append({'since_id': res['since_id'], 'page': 1})
                if savePath is not None:
                    sh.append(['since_id', res['since_id'], 'page', 1])
    p = startPage
    while res['since_id'] != '':
        p = p + 1
        if p > endPage:
            break
        else:
            page_url = f'https://weibo.com/ajax/statuses/mymblog?uid={userID}&page={str(p)}&feature=0&since_id=' + res[
                'since_id']
            if proxyList is not None:
                proxy_select = randint(0, len(proxyList))
                proxy = {
                    'http://': proxyList[proxy_select]
                }
                res = httpx.get(page_url, headers=headers, proxies=proxy).json().get('data')
            else:
                res = httpx.get(page_url, headers=headers).json().get('data')
            content = res['list']
            for c in content:
                try:
                    gwc = get_wb_content(c)
                    result.append(gwc)
                    if savePath is not None:
                        sh.append([gwc['user'], gwc['avatar'], gwc['location'], gwc['device'], gwc['time'],
                               gwc['content'], gwc['pictures'], p])
                except:
                    result.append({'since_id': res['since_id'], 'page': 1})
                    if savePath is not None:
                        sh.append(['since_id', res['since_id'], 'page', 1])
            sleep(1000)
    if savePath is not None:
        wb.save(savePath)
        wb.close()
    return result

amoxuk · 发表于 2022-12-9 12:51

一共14610条，里面包含了转发的信息，转发的需要原文和图片吗？
还有发布的视频，转发的视频需要吗？

leonlai2000 · 发表于 2022-12-9 20:07

本帖最后由 leonlai2000 于 2022-12-9 20:08 编辑

amoxuk 发表于 2022-12-9 12:51
一共14610条，里面包含了转发的信息，转发的需要原文和图片吗？
还有发布的视频，转发的视频需要吗？

转发的要原文和图片，视频不需要。

leonlai2000 · 发表于 2022-12-9 20:10

amoxuk 发表于 2022-12-9 12:51
一共14610条，里面包含了转发的信息，转发的需要原文和图片吗？
还有发布的视频，转发的视频需要吗？

非常感谢兄弟！！！

amoxuk · 发表于 2022-12-9 23:08

leonlai2000 发表于 2022-12-9 20:10
非常感谢兄弟！！！

你拿来做什么？图片的话是不是不用下载都行，给一个缩略图的连接和一个大图的连接就可以了

帐号		自动登录	找回密码
密码			注册[Register]

[下载转存] 请帮忙采集这个人微博的全部博文

最佳答案

个人中心

麦子1995 麦子1995 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	麦子1995 发表于 2022-12-9 08:46 《站点帮助文档》有什么问题来这里看看吧，这里有你想知道的内容！提示: 作者被禁止或删除内容自动屏蔽
	呼吁大家发布原创作品添加吾爱破解论坛标识！