吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 7560|回复: 14
收起左侧

[Python 转载] 使用Python2.X实现百度Url采集工具

[复制链接]
突突兔 发表于 2016-8-15 22:30

大致原理:使用urllib2模拟访问网页。

然后正则匹配链接。

然后保存到一个文件内。

  • #!/usr/bin/env python
  • # coding=utf8
  • import urllib
  • import urllib2
  • import re
  • import sys
  • import os
  • reload(sys)
  • sys.setdefaultencoding('utf8')
  • headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
  • text = raw_input("Search Content:\r\n")
  • text = text.decode('gbk', 'replace')
  • text = urllib.quote(text.encode('utf-8', 'replace'))
  • ys = int(raw_input("Search Number of pages:\r\n"))
  • zz = "http://www\.baidu\.com/link\?url=[a-zA-Z0-9_-]+"
  • f=open('caiji.txt','w')
  • for i in range(ys):
  •     url = "https://www.baidu.com/s?wd=" + text + "&pn=" + str(i) + "0"
  •     req = urllib2.Request(url, headers=headers)
  •     print url
  •     web = urllib2.urlopen(req)
  •     zz = "http://www\.baidu\.com/link\?url=[a-zA-Z0-9_-]+"
  •     by = re.compile(zz)
  •     result = by.findall(web.read())
  •     web.close()
  •     qcf = {}.fromkeys(result).keys()
  •     we = "本页采集到:"
  •     qw = "个URL"
  •     print we.encode('cp936') + str(len(qcf)) + qw.encode('cp936')
  •     for i in qcf:
  •         url = i
  •         req = urllib2.Request(url, headers=headers)
  •         try:
  •             u = urllib2.urlopen(req)
  •         except urllib2.URLError, e:
  •             print e.code
  •         redirectUrl = u.geturl()
  •         f.write(redirectUrl)
  •         f.write("\r\n")
  • f.close()
  • ok = "采集的Url保存到"
  • print ok.encode('cp936') + str(os.getcwd()) + "\caiji.txt"

下载地址: https://yunpan.cn/c6aK9j92n3f5f  访问密码 cb70


本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

yuanshaokang 发表于 2016-8-15 22:50
好东西0.0
我来看看看 发表于 2016-8-15 23:12
w460270218 发表于 2016-8-15 23:43
gghamxy 发表于 2016-8-15 23:48
大致原理:使用urllib2模拟访问网页。
sd172240 发表于 2016-8-16 00:08
谢谢分享
w6688 发表于 2016-8-16 06:28
大致原理:使用urllib2模拟访问网页
神话eric 发表于 2016-8-16 08:39
高手,虽然没看懂
淡雅香 发表于 2016-10-10 21:57
谢谢,一直希望学
hanlu5016 发表于 2016-10-15 20:20
什么用途??、?
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-23 19:24

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表