吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 12074|回复: 45
收起左侧

[Python 转载] Python多线程采集百度相关搜索关键词工具带exe程序!

  [复制链接]
huguo002 发表于 2019-5-18 11:39
本帖最后由 huguo002 于 2020-1-7 15:22 编辑

Python多线程采集百度相关搜索关键词工具带exe程序!
Python多线程采集百度相关搜索关键词工具带exe程序!

[Python] 纯文本查看 复制代码
#百度相关搜索关键词抓取,读取txt关键词,导出txt关键词

# -*- coding=utf-8 -*-
import requests
import re
import time
from multiprocessing.dummy import Pool as ThreadPool


#百度相关关键词查询
def xgss(url):
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
    }
    html=requests.get(url,headers=headers).text
    #print(html)
    ze=r'<div id="rs"><div class="tt">相关搜索</div><table cellpadding="0">(.+?)</table></div>'
    xgss=re.findall(ze,html,re.S)
    #print(xgss)
    xgze=r'<th><a href="(.+?)">(.+?)</a></th>'
    sj=re.findall(xgze,str(xgss),re.S)
    #print(sj)
    gjc=''
    for x in sj:
        print(x[1])
        gjc=gjc+x[1]+'\n'

    # 导出关键词为txt文本
    with open(".\gjcsj.txt", 'a', encoding='utf-8') as f:
        f.write(gjc)
    print("-----------------------------------")
    return gjc


print("程序运行,正在导入关键词列表!!!")
print("-----------------------------------")
# 导入要搜索的关键词txt列表
urls = []
data = []
for line in open('.\gjc.txt', "r", encoding='utf-8'):
    data.append(line)
print("导入关键词列表成功!")
print("-----------------------------------")

#转换关键词为搜索链接
for keyword in data:
    url = 'https://www.baidu.com/s?wd=' + keyword
    urls.append(url)

print("采集百度相关搜索关键词开启!")
print("...................")
#多线程获取相关关键词
try:
    # 开4个 worker,没有参数时默认是 cpu 的核心数
    pool = ThreadPool()
    results = pool.map(xgss, urls)
    pool.close()
    pool.join()
    print("采集百度相关搜索关键词完成,已保存于gjcsj.txt!")
except:
    print("Error: unable to start thread")

print("8s后程序自动关闭!!!")
time.sleep(8)



采集关键词.gif

附exe百度云地址:链接: https://pan.baidu.com/s/13WFumzmgOH3yTUGex1rYvA 提取码: djmw

直接修改关键词文本列表 gjc.txt即可使用!
有bug可直接私信我!谢谢!

2020.1.7
已更新版本 可以私聊找我要!

欢迎各位py大佬交流分享!

免费评分

参与人数 10吾爱币 +11 热心值 +9 收起 理由
gxnd1100 + 1 谢谢@Thanks!
木小歌 + 1 + 1 热心回复!
IMRE + 1 + 1 用心讨论,共获提升!
xx6688 + 1 能做一个无限循环抓爬相关词的工具吗?
全好网 + 1 + 1 我很赞同!
zhangaiping1 + 1 + 1 想问问楼主的python是怎么学的。求指条学习路子。求发份教程
aa6488 + 1 + 1 鼓励转贴优秀软件安全工具和文档!
迷失自我 + 1 + 1 用心讨论,共获提升!
wkfy + 1 + 1 热心回复!
苏紫方璇 + 3 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

shellcode 发表于 2019-5-18 16:26
这种挖词只是一级的相关搜索,能不能在相关搜索的这些词入库然后在自动递归下去,这样挖的词特别多
wang1618 发表于 2019-6-1 10:46
shellcode 发表于 2019-5-18 16:26
这种挖词只是一级的相关搜索,能不能在相关搜索的这些词入库然后在自动递归下去,这样挖的词特别多

对啊,这样做词更多,不然还得来回导
3650798 发表于 2019-5-18 16:44
 楼主| huguo002 发表于 2019-5-18 17:10
3650798 发表于 2019-5-18 16:44
提示缺dll 运行不了。。。

你的系统是?
 楼主| huguo002 发表于 2019-5-18 17:11
shellcode 发表于 2019-5-18 16:26
这种挖词只是一级的相关搜索,能不能在相关搜索的这些词入库然后在自动递归下去,这样挖的词特别多

应该可以,但是你要递归多少次?
shellcode 发表于 2019-5-19 09:08
huguo002 发表于 2019-5-18 17:11
应该可以,但是你要递归多少次?

递归10次比较好,再往后重复居多,公司的seo之前要求我写过这个 ,我用php写过,最后又用火车浏览器写了一次
EchoDS 发表于 2019-5-19 10:32
厉害厉害厉害
ispmaa 发表于 2019-5-22 08:20
下载测试一下,感谢楼主。
ispmaa 发表于 2019-5-22 13:19
下载后压缩包 不能用
sitiger 发表于 2019-5-22 22:42
看看。。。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-26 17:29

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表