吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 5059|回复: 24
收起左侧

[讨论] 爬小说时内容被js加密,怎么办?

  [复制链接]
zyhxhw 发表于 2019-12-18 08:03
学了爬虫后爬小说玩,一直比较顺利,可最近遇到了一个用js加密内容的小说,让我很是头疼。这个小说章节是:
https://www.sztjgold.com/chapter.html?1#mybookid=96803&bookid=108841&chapterid=48935289
通过抓包到得真实网址是:https://www.sztjgold.com/files/article/html555/108/108841/48935289.html
结果得到一堆英文数据,经查百度是js数据。 猜测小说内容、解密函数、小说参数等都在数据中,格式化后的js数据表面看起来也很完美,但用js工具运行时却老是提示错误,无法得到结果。猜测js数据中设计有让js运行出错的代码。浏览器能运行它,是因为浏览器在得到这段数据后先对数据进行了处理,去除其中的错误数据。但要找到浏览器是怎么处理的,就应该很熟悉浏览器前端及js知识了。后来看了很多的文章,说selenium可以抓取,试了一下,果然行。但处理速度很慢慢,有些时候还爬取不下来。所以想请教论坛的大牛们几个问题:
1、如何改写这段js数据?思路、方法及有什么工具。
2、除了使用selenium外,还有没有速度更快的方法?
附上我的方法:
05.png

免费评分

参与人数 2吾爱币 +1 热心值 +2 收起 理由
花信 + 1 热心回复!
javafu159357 + 1 + 1 热心回复!我也不知道咩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

coolcalf 发表于 2019-12-18 08:31
这两在才了解了一下油猴脚本,或许这是一个很好的解决方案
神器 发表于 2019-12-18 08:47
304775988 发表于 2019-12-18 09:03
看着像base64位加密,也有url_encode加密,也有不用加密被过滤掉的关键词,经过了几轮处理.
xu741852 发表于 2019-12-18 09:04
换个网站抓取
fergus1987 发表于 2019-12-18 09:09
谢谢楼主分享!
可爱的男孩子 发表于 2019-12-18 09:11
你确定内容是js加密?
目前的小说网可没这么高级
渲染到html中的一定是真实文本
最多搞嵌套结构让你复制错误
HA? 发表于 2019-12-18 09:12
是不是编码存在问题?
小说网站一般不会加密吧
znds 发表于 2019-12-18 09:18
这没被加密啊- -。
忧郁剑客 发表于 2019-12-18 09:50
哪有那么复杂,仔细看代码,人家帮你写好了
[JavaScript] 纯文本查看 复制代码
var jz='正在加载中.....(如果长时间加载不出来可以刷新页面)<br>';
//取正文
function get_content(){
	$("#txt").html(errorstr+jz);
	//取正文的url地址
	xid=Math.floor(bookid/1000)
	var url_get_data=ymurl+'/files/article/html555/'+xid+'/'+bookid+'/'+chapterid+'.html';
	
	var url_get_text=url_get_data;
	$.ajax({
		type: "GET",
		url: url_get_text,
		dataType: "script",
		cache: true,
		success: function(msg){
			msg=cctxt;
			//console.log('ajax返回后执行:'+url_get_text)
			//console.log(msg)
			//数据更新到页面
			$("#txt").html(msg+errorstr);
		}
	});
}

上面的msg就是返回的小说正文,无加密。传入的是章节、小说ID之类的信息,返回给你没有加密的正文。也就意味你直接调用这个接口,完全就能遍历全部的小说章节
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止回复与主题无关非技术内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-6-1 10:23

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表