吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3432|回复: 25
收起左侧

[Python 转载] 微博评论数据爬取思路及代码分享

   关闭 [复制链接]
灵海之森 发表于 2021-8-1 19:45
很久没有发帖了,之前做了有关微博的数据分析,现在将爬取微博评论的思路和代码分享出来,写得有些粗糙,欢迎批评指正。

一、获取bid和uid
  就是附件一的网址https://weibo.cn/comment/KrsH5tpeY?uid=2000016880&rl=0&gid=10001#cmtfrm
  其中KrsH5tpeY的bid,2000016880是uid
  这个就可以将博文唯一地标识出来了。
二、爬取一个博文的评论数据
  包括用户ID、用户名、评论内容和时间。

  首先是单条评论数据。
  观察到用户名和id是在同一节点,如<a href="/u/3173923450?gid=10001">兵卒在江湖</a>。
  然后依次确定评论内容和时间的元素节点。


  用户ID的关键代码:
[Python] 纯文本查看 复制代码
user_ids=re.findall('<a href=".*?&fuid=(.*?)&.*?">举报</a> ',html_2,re.S)#从举报链接入手

  用户名的关键代码:
[Python] 纯文本查看 复制代码
names=[]#用户名
	ma=[ '举报', '赞[]', '回复']
	pattern = re.compile(r'\d+')#匹配数字
	for i in names_0:
		i=re.sub(pattern, "", i)
		if i not in ma:
			if '@' not in i:
				names.append(i)

  评论内容的关键代码:
[Python] 纯文本查看 复制代码
contents=[]#评论内容
	contents_2=[]#评论内容初步
	contents_0=re.findall('<span class="ctt">(.*?)</span>',html_2,re.S)#一级
	contents_1=re.findall('<a href=.*?>@.*?</a>(.*?)<a href=.*?>举报</a> ',html_2,re.S)#二级

  时间的关键代码:
[Python] 纯文本查看 复制代码
times_0=re.findall('<span class="ct">(.*?)</span>',html_2,re.S)
	times=[]#时间
	pattern_1= re.compile(r'\d{2}月\d{2}日')#匹配日期

  之后获取本页的所有评论数据。
  翻页操作是对网址中rl的值进行自增,0和1都是第一页。
三、批量爬取博文的评论数据
  对若干个博文的bid与uid进行单个博文爬取程序的执行即可。


以上是大概的思路和关键代码,整个工程文件——微博评论、用户信息的爬虫程序已经上传至我的github,见https://github.com/stay-leave/weibo-crawer,欢迎大家star。
后续有时间还会继续分享主题分析等数据分析及可视化的内容,欢迎关注我。


bid,uid

bid,uid

免费评分

参与人数 4吾爱币 +3 热心值 +3 收起 理由
liujm + 1 + 1 用心讨论,共获提升!
政委大大 + 1 + 1 用心讨论,共获提升!
GloryLong + 1 我很赞同!
gaoruhu21 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 灵海之森 发表于 2021-8-3 10:21
明次 发表于 2021-8-2 21:26
请教下大佬,我爬对方网站没几天就把我服务器ip给黑名单了,想知道对方是怎么发现我在爬他的呢   这方面有 ...

https://www.52pojie.cn/thread-1288511-1-1.html
 楼主| 灵海之森 发表于 2021-8-2 09:02
Sunnnny 发表于 2021-8-1 21:48
学习来了。不知楼主对DY评论可否有研究,目前只知网页版可行,不过是热加载的。APP根本没去看,肯定有算法 ...

这个暂时没有接触过,日后可能会看看
31415926 发表于 2021-8-1 20:12
头像被屏蔽
偶尔平凡 发表于 2021-8-1 20:26
提示: 作者被禁止或删除 内容自动屏蔽
3404071 发表于 2021-8-1 21:01
厉害厉害,学习了
头像被屏蔽
Wits 发表于 2021-8-1 21:18
提示: 作者被禁止或删除 内容自动屏蔽
Sunnnny 发表于 2021-8-1 21:48
学习来了。不知楼主对DY评论可否有研究,目前只知网页版可行,不过是热加载的。APP根本没去看,肯定有算法吧
lyj996 发表于 2021-8-1 22:02
学习了,谢谢
EAming 发表于 2021-8-1 22:04
支持一下
MXGT 发表于 2021-8-1 22:10
收藏了。
咔c君 发表于 2021-8-1 22:23
不错学习了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-20 02:37

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表