我不晓得此刻有多少人在用网盘搜索引擎,但就xxxx(不打链接了,进去第1个,以避免知乎反作坏处)来讲自己倾注了非常多的心血,此刻运用的人数亦还能够,网盘资源都有个通病,那便是资源可能失效,但非常多引擎都无做失效判断,尤其是有些google自定义的引擎,技术含量不高,站长亦就花心思挣钱,很少思虑用户体验。这篇文案是自己又一篇技术公开博客,之前自己已然公开了去转盘
网的几乎所有的技术细节,这一篇继续弥补:
首要做个回顾:百度网盘爬虫 java分词算法数据库自动备份代理服务器爬取邀请好友注册
ing:utf-8
"""
@author:haoning
@create time:2015.8.5
"""
from __future__ import division # 精确除法
from Queue import Queue
from __builtin__ import False
from _sqlite3 import SQLITE_ALTER_TABLE
from collections import OrderedDict
import copy
import datetime
import json
import math
import os
import random
import platform
import re
import threading, errno, datetime
import time
import urllib2
import MySQLdb as mdb
DB_HOST = 127.0.0.1
DB_USER = root
DB_PASS = root
def gethtml(url):
try:
print "url",url
req = urllib2.Request(url)
response = urllib2.urlopen(req,None,8) #在这儿应该加入代理
html = response.read()
return html
except Exception,e:
print "e",e
if __name__ == __main__:
while 1:
#url=http://pan.baidu.com/share/link?uk=1813251526&shareid=540167442
url="http://pan.baidu.com/s/1qXQD2Pm"
html=gethtml(url)
print html
结果:e HTTP Error 403: Forbidden,这便是说,度娘他是反爬虫的,之后看了非常多网站,一不小心试了下面的链接:
http://pan.baidu.com/share/link?uk=1813251526&shareid=540167442
if __name__ == __main__:
while 1:
url=http://pan.baidu.com/share/link?uk=1813251526&shareid=540167442
#url="http://pan.baidu.com/s/1qXQD2Pm"
html=gethtml(url)
print html
结果:<title>百度云 网盘-链接不存在</title>,你懂的,有这个的必然已然失效,看来度娘无反爬虫,好家伙。
其实百度网盘的资源入口有两种方式:
一种是:http://pan.baidu.com/s/1qXQD2Pm,最后为短码。
另一种是:http://pan.baidu.com/share/link?
|