源自:大数据
作者:罗攀 蒋仟
本文约5000字,意见阅读20分钟。
本文安身基本,讲解Python和PyCharm的安装,及Python最简单的语法基本和爬虫技术中所需的Python语法。
本文触及的重点知识点如下:
Python和PyCharm的安装:学会Python和PyCharm的安装
办法变量和字符串:学会
运用变量和字符串的基本用法函数与
掌控语句:学会Python循环、判断语句、循环语句和函数的
运用Python数据结构:理解和
运用列表、字典、元组和集合Python文件操作:学习
运用Python
创立文件并写入数据Python面向对象:
认识Python中类的定义和
运用办法
01 Python与PyCharm安装
“工欲善其事,必先利其器”,本节介绍Python环境的安装和Python的集成研发环境(IDE)PyCharm的安装。
1. Python安装(Windows、Mac和Linux)
当前主流的Python版本为2.x和3.x。因为Python 2第三方库更加多(非常多库无向Python 3转移),企业广泛运用Python 2。倘若做为学习和科研的话,意见运用Python 3,由于它是将来的发展方向。因此本教程选取Python 3的环境。
1.1 Windows中安装Python 3
在Windows系统中安装Python 3,请参照下面的过程进行。
打开浏览器,
拜访Python官网(https://www.python.org/)。光标移动至Downloads链接,单击Windows链接。
按照自己的Windows版本(32位或64位),下载相应的Python 3.5版本,如为Windows 32位系统,应下载Windows x86 executable installer,
倘若为Windows 64位系统,应下载Windows x86-64 executable installer。单击运行文件,勾选Add Python 3.5 to PATH,
而后单击Install Now按钮
就可完成安装。
在计算机中打开命令提示符(cmd)窗口,输入python,如图1.1所示,说明Python环境安装成功。
图1.1 运行Python环境
当界面显现提示符>>>时,就显示进入了Python交互式环境,输入代码后按Enter键就可运行Python代码,经过输入exit()并按Enter键,就能够退出Python交互式环境。
重视:
倘若显现错误,可能是
由于安装时未勾选Add Python3.5 to PATH选项,此时卸载Python后重新安装时勾选Add Python3.5 to PATH选项
就可。
1.2 Mac中安装Python3
Mac系统中自带了Python 2.7,需到Python官网上下载并安装Python3.5。Mac系统中的安装比Windows更为简单,始终单击“下一步”按钮就可完成。安装完后,打开终端并输入Python3,就可进入Mac的Python3的交互式环境。
1.3 Linux中安装Python3
大部分Linux系统内置了Python2和Python3,经过在终端输入python–version,能够查看当前Python3的版本。倘若必须安装某个特定版本的Python,能够在终端中输入:
sudo apt-get install python3.5
2. PyCharm安装
安装好Python环境后,还必须安装一个集成研发环境(IDE),IDE集成为了代码编写功能、分析功能、编译功能和调试功能。在这儿向读者举荐一个最智能、好用的Python IDE,叫做PyCharm。进入PyCharm的官网,下载社区版就可:
http://www.jetbrains.com/pycharm/
因为PyCharm上手极为简单,因此呢就不仔细讲解PyCharm的运用办法了。以下讲解怎样运用PyCharm相关Python解释器,让PyCharm能够运行Python代码。
打开PyCharm,在菜单栏中
选取File ∣ Defalut Settings命令。在弹出的对话框中
选取Project Interpreter,
而后在右边
选取Python环境,
这儿选取Python 3.5,单击OK按钮,
就可相关Python解释器,如图1.2所示。
图1.2 相关Python解释器
02 变量和字符串
本节重点介绍Python变量的概念、字符串的基本运用办法、字符串的切片和索引,以及字符串的几种常用办法。
1. 变量
Python中的变量很好理解,例如:
a = 1
这种操作叫作为赋值,意思为将数值1赋给了变量a。
重视:Python中语句结束不
必须以分号结束,变量不
必须提前定义。
此刻有变量a和变量b,能够经过下面代码进行变量a、b值的对换。
a = 4
b = 5
t = a #把a值赋给t变量
a = b #把b值赋给a变量
b = t #把t值赋给b变量
print(a,b)
# result 5 4
这种方法类似于将两个杯子中的饮料对换,只必须多加一个杯子,就可完成饮料的对换工作。
2. 字符串的“加法”和“乘法”
因为Python爬虫的对象大部分为文本,因此字符串的用法尤为重要。在Python中,字符串由双引号或单引号和引号中的字符构成。首要,经过下面代码瞧瞧字符串的“加法”:
a = I
b = love
c = Python
print(a + b + c) #字符串相加
# result I love Python
在爬虫代码中,会经常构造URL,例如,在爬取一个网页链接时,仅有一部分/u/9104ebf5e177,这部分链接是没法拜访的,还必须http://www.jianshu.com,此时能够经过字符串的“加法”进行合并。
重视:此网站为笔者的简书首页。
Python的字符串不仅能够相加,亦能够乘以一个数字:
a = word
print(a*3) #字符串乘法
#result wordwordword
字符串乘以一个数字,意思便是将字符串复制这个数字的份数。
3. 字符串的切片和索引
字符串的切片和索引便是经过string[x],获取字符串的一部分信息:
a = I love python
print(a[0]) #取字符串第1个元素
#result I
print(a[0:5]) #取字符串第1个到第五个元素
#result I lov
print(a[-1]) #取字符串最后一个元素
#result n
经过图1.3就能清楚地理解字符串的切片和索引。
图1.3 字符串切片和索引
重视:a[0:5]中的第5个是不会
选取的。
在爬虫实战中,经常会经过字符串的切片和索引,提取必须的部分,剔除有些不必须的部分。
4. 字符串办法
Python做为面向对象的语言,每一个对象都有相应的办法,字符串亦同样,持有多种办法,在这儿介绍爬虫技术中常用的几种办法。
4.1 split()办法
a = www.baidu.com
print(a.split(.))
# result [www, baidu, com]
字符串的split()办法便是经过给定的分隔符(在这儿为‘.’),将一个字符串分割为一个列表(后面将仔细讲解列表)。
重视:
倘若无供给任何分隔符,程序会把所有的空格
做为分隔符(空格、制表、换行等)。
4.2 repalce()办法
a = There is apples
b = a.replace(is,are)
print(b)
# result There are apples
这种办法类似文本中的“查询和替换”功能。
4.3 strip()办法
a = python is cool
print(a.strip())
# result python is cool
strip()办法返回去除两侧(不包含内部)空格的字符串,亦能够指定必须去除的字符,将它们列为参数中就可。
a = ***python *is *good***
print(a.strip(*!))
# result python *is *good
这个办法只能去除两侧的字符,在爬虫得到的文本中,文本两侧常会有多余的空格,只需运用字符串的strip()办法就可去除多余的空格部分。
4.4 format()办法
最后,再讲解下好用的字符串格式化符,首要看以下代码:
a = {} is my love.format(Python)
print(a)
# result Python is my love
字符串格式化符就像是做选取题,留了空给做题者选取。在爬虫过程中,有些网页链接的部分参数是可变的,此时运用字符串格式化符能够减少代码的运用量。
例如,Pexels素材网(https://www.pexels.com/),当搜索照片时,网页链接亦会出现变化。
如在搜索栏中输入book,网页转为
https://www.pexels.com/search/book/,
能够设计如下代码,笔者只需输入搜索内容,便可返回网页链接。
content = input(请输入搜索内容:)
url_path = https://www.pexels.com/search/{}/.format(content)
print(url_path)
运行程序并输入book,便可返回网页链接,单击网页链接便可拜访网页了,如图1.4所示。
图1.4 字符串格式化符演示
03 函数与掌控语句
本节重点介绍Python()函数的定义与运用办法,介绍Python的判断和循环两种爬虫技术中常用的控制语句。
1. 函数
“脏活累活交给函数来做”,首要,瞧瞧Python中定义函数的办法。
def 函数名(参数1,参数2...):
return 结果
制作一个输入直角边就能计算出直角三角形的面积函数:
def function(a,b):
return 1/2*a*b
#
亦能够这般写
def function(a,b):
print( 1/2*a*b)
重视:读者不
必须太纠结二者的区别,用return是返回一个值,而第二个是调用函数执行打印功能。
经过输入function(2,3),便能够调用函数,计算直角边为2和3的直角三角形的面积。此刻来做一个综合练习:读者都晓得网上颁布的tel号码,如156****9354,中间的数值用其他符号代替了,而用户输入手机号时却是完整地输入,下面就经过Python()函数来实现这种转换功能。
def change_number(number):
hiding_number = number.replace(number[3:7],**4)
print(hiding_number)
change_number(15648929354)
# result 156****9354
重视:
这儿的手机号码是随意输入的,不是真实的号码。
代码说明如下:
定义了一个名为change_number的函数。对输入的参数进行切片,把参数的[3:7]部分替换为‘*’号,并打印出来。调用函数。
2. 判断语句
在爬虫实战中亦会经常运用判断语句,Python的判断语句格式如下:
if condition:
do
else:
do
# 重视:冒号和缩进不要忘记了
# 再看一下多重要求的格式
if condition:
do
elif condition:
do
else:
do
在平时运用秘码时,输入的秘码正确就可登录,秘码错误时就必须再次输入秘码。
def count_login():
password = input(password
if password == 12345:
print(输入成功!)
else:
print(错误,再输入)
count_login()
count_login()
程序说明如下:
运行程序,输入
秘码后按Enter键。
倘若输入的字符串为12345,则打印“输入成功!”,程序结束。
倘若输入的字符串不是12345,则打印“错误,再输入”,继续运行程序,直到输入正确为止。
读者亦能够将程序设计得更为有趣,例如,“3次输入失败后,退出程序”等。
3. 循环语句
Python的循环语句包含for循环和while循环,代码如下:
#for循环for item in iterable:
do
#item
暗示元素,iterable是集合
for i in range(1,11):
print(i)
#其结果为依次输出1到10,切记11是不输出的,range为Python内置函数
#while循环
while condition:
do
例如,设计一个小程序,计算1~100的和:
i = 0sum = 0
while i < 100:
i = i + 1
sum = sum + i
print(sum)
# result 5050
04 Python数据结构
数据结构是存放数据的容器,本节重点讲解Python的4种基本数据结构,即列表、字典、元组和集合。
1. 列表
在爬虫实战中,运用最多的便是列表数据结构,不论是构造出的多个URL,还是爬取到的数据,大都数都为列表数据结构。下面首要介绍列表最明显的特征:
列表中的每一个元素都是可变的。列表的元素都是有序的,
亦便是说
每一个元素都有对应的位置(类似字符串的切片和索引)。列表
能够容纳所有的对象。
列表中的每一个元素都是可变的,这寓意着能够对列表进行增、删、改操作,这些操作在爬虫中很少运用,因此呢这儿再也不给读者添加知识包袱。
列表的每一个元素都有对应的位置,这种用法与字符串的切片和索引很类似。
list = [peter, lilei, wangwu, xiaoming]
print(list[0])
print(list[2:])
# result
peter
[wangwu, xiaoming]
倘若为切片,返回的亦是列表的数据结构。
列表能够容纳所有的对象:
list = [
1,
1.1,
string,
print(1),
True,
[1, 2],
(1, 2),
{key, value}
]
列表中会经常用到多重循环,因此呢读者有必要去认识和运用多重循环。此刻,摆在读者面前有两个列表,分别是姓名和年龄的列表:
names = [xiaoming,wangwu,peter]
ages = [23,15,58]
此时能够经过多重循环让name和age同期打印在屏幕上:
names = [xiaoming,wangwu,peter]ages = [23,15,58]
for name, age in zip(names, ages):
print(name,age)
# result
xiaoming 23
wangwu 15
peter 58
重视:多重循环前后变量要一致。
在爬虫中,经常请求多个网页,一般状况下会把网页存到列表中,而后循环依次取出并拜访爬取数据。这些网页都有必定的规律,倘若是手动将这些网页URL存入到列表中,不仅花费太多时间,亦会导致代码冗余。此时可经过列表推导式,构造出这般的列表,例如某个网站每页的URL是这般的(一共13页):
http://bj.xiaozhu.com/search-duanzufang-p1-0/http://bj.xiaozhu.com/search-duanzufang-p2-0/http://bj.xiaozhu.com/search-duanzufang-p3-0/http://bj.xiaozhu.com/search-duanzufang-p4-0/……
经过以下代码就可构造出13页URL的列表数据:
urls = [http://bj.xiaozhu.com/search-duanzufang-p{}-0/.format(number) for number in range(1,14)]
for url in urls:
print(url)
经过一行代码就可构造出来,经过for循环打印出每一个URL,如图1.5所示。
图1.5 列表推导式构造URL列表
重视:本网站为小猪短租网。
2. 字典
Python的字典数据结构与现实中的字典类似,以键值对(key-value)的形式表现出来。本文中只讲解字典的创造,字典的操作在后面会仔细介绍。字典的格式如下:
user_info = {
name:xiaoming,
age:23,
sex:man
}
重视:
插进MongoDB数据库需用字典结构。
3. 元组和集合
在爬虫中,元组和集合很少用到,因此呢这儿只做简单介绍。元组类似于列表,然则元组的元素不可修改只能查看,元组的格式如下:
tuple = (1,2,3)
集合的概念类似数学中的集合。每一个集合中的元素是无序的,不能够有重复的对象,因此呢能够经过集合把重复的数据去除。
list = [xiaoming,zhangyun,xiaoming]set = set(list)
print(set)
# result {zhangyun, xiaoming}
重视:集合是用大括号构建的。
05 Python文件操作
在爬虫初期的工作中,常常会把数据存储到文件中。本节重点讲解Python怎样打开文件和读写数据。
1. 打开文件
Python中经过open()函数打开文件,语法如下:
open(name[, mode[, buffering]])
open()函数运用文件名做为独一的强制参数,而后返回一个文件对象。模式(mode)和缓冲(buffering)是可选参数。在Python的文件操作中,mode参数的输入是有必要的,而buffering运用较少。
倘若在本机上有名为file.txt的文件(读者能够在本机中新建一个文本文件),其存储路径为C:\Users\Administrator\Desktop,那样能够经过下面代码打开文件:
f = open(C:/Users/Administrator/Desktop/file.txt)
重视:此代码为Windows系统下的路径写法。
倘若文件不存在,则会显现如图1.6所示的错误。
图1.6 文件不存在报错信息
倘若open()函数只是加入文件的路径这一个参数,则只能打开文件并读取文件的关联内容。倘若要向文件中写入内容,则必要加入模式这个参数了。下面首要来瞧瞧open()函数中模式参数的常用值,如表1.1所示。
表1.1 open()函数中模式参数的常用值
2. 读写文件
上一节中有了名为f的类文件对象,那样就能够经过f.write()办法和f.read()办法写入和读取数据了。
f = open(C:/Users/Administrator/Desktop/file.txt,w+)
f.write(hello world)
此时,在本机上打开file.txt文件,能够看到如图1.7所示的结果。
图1.7 Python写文件
重视:
倘若无创立文件,运行上面代码
亦能够成功。
倘若再次运行程序,txt文件中的内容不会继续添加,能够修改模式参数为r+,便可始终写入文件。
Python读取文件经过read()办法,下面尝试把f的类文件对象写入的数据读取出来,运用如下代码就可完成操作:
f = open(C:/Users/Administrator/Desktop/file.txt,r)
content = f.read()
print(content)
# result hello world
3. 关闭文件
当完成读写工作后,应该牢记运用close()办法关闭文件。这般能够保准Python进行缓冲的清理(出于效率思虑而把数据临时存储在内存中)和文件的安全性。经过下面代码就可关闭文件。
f = open(C:/Users/Administrator/Desktop/file.txt,r)
content = f.read()
print(content)
f.close()
06 Python面向对象
Python做为一个面向对象的语言,很容易创建一个类和对象。本节重点讲解类的定义及其关联运用办法。
1. 定义类
类是用来描述拥有相同属性和办法的对象集合。人能够经过区别的肤色划分为区别的种族,食品亦有区别的种类,商品亦是形形色色。但划分为同一类的物体,肯定拥有类似的特征和行径方式。
针对同一款自动车而言,它们的构成结构都是同样的,如车架、车轮和脚踏板等。经过Python能够定义这个自行车的类:
class Bike:
compose = [frame,wheel,pedal]
经过运用class定义一个自动车的类,类中的变量compose叫作为类的变量,专业术语为类的属性。这般,顾客购买的自动车构成结构便是同样的了。
my_bike = Bike()
you_bike = Bike()
print(my_bike.compose)
print(you_bike.compose) #类的属性都是
同样的
结果如图1.8所示。
图1.8 类属性引用
在左边写上变量名,右边写上类的名叫作,这个过程叫作之为类的实例化,而my_bike就是类的实例。经过“.”加上类的属性,便是类属性的引用。类的属性会被类的实例共享,因此结果都是同样的。
2. 实例属性
针对同一款自动车来讲,有些顾客买回去后会改造下,如加一个车筐能够放东西等。
class Bike:
compose = [frame,wheel,pedal]
my_bike = Bike()
my_bike.other = basket
print(my_bike.other) #实例属性
结果如图1.9所示。
图1.9 实例属性
说明:
经过给类的实例属性进行赋值,
亦便是实例属性。compose属性属于所有的该款
自动车,而other属性只属于my_bike这个类的实例。
3. 实例办法
读者是不是还记得字符串的format()办法。办法便是函数,办法是对实例进行运用的,因此又叫实例办法。针对自动车而言,它的办法便是骑行。
class Bike:
compose = [frame,wheel,pedal]
def use(self):
print(you are riding)
my_bike = Bike()
my_bike.use()
结果如图1.10所示。
图1.10 实例办法
重视:
这儿的self参数
便是实例本身。
和函数同样,实例办法亦是能够有参数的。
class Bike:
compose = [frame,wheel,pedal]
def use(self,time):
print(you ride {}m.format(time*100))
my_bike = Bike()
my_bike.use(10)
结果如图1.11所示。
图1.11 实例办法多参数
Python的类中有有些“魔法办法”,_init_()办法便是其中之一。在咱们创造实例的时候,不必须引用该办法亦会被自动执行。
class Bike:
compose = [frame,wheel,pedal]
def __init__(self):
self.other = basket
def use(self,time):
print(you ride {}m.format(time*100))
my_bike = Bike()
print(my_bike.other)
结果如图1.12所示。
图1.12 魔术办法
4. 类的继承
共享单车的显现,方便了人们的出行。共享单车和原来的自动车构成结构类似,但多了付费的功能。
class Bike:
compose = [frame,wheel,pedal]
def __init__(self):
self.other = basket #定义实例的属性
def use(self,time):
print(you ride {}m.format(time*100))
class Share_bike(Bike):
def cost(self,hour):
print(you spent {}.format(hour*2))
bike = Share_bike()
print(bike.other)
bike.cost(2)
结果如图1.13所示。
图1.13 类的继承
在新的类Share_bike后面的括号中加入Bike,暗示Share_bike继承了Bike父类。父类中的变量和办法能够完全被子类继承,在特殊状况下,亦能够对其覆盖。
关于作者:
罗攀,知名论坛Python爬虫专题管理员。善于Python爬虫技术,并对Python数据分析与挖掘亦有科研。曾经在CSDN等多个知名博客网站发布多篇技术文案,深受读者的喜欢。日前从事线上Python网络爬虫的培训工作。
蒋仟,喜欢并善于Python编程,并将Python做为学术科研手段。在数据采集、数据分析等方面均有较为深入的科研。对Python网络爬虫技术应用亦颇有心得。日前从事林业遥感技术的科研,并利用业余时间兼职从事Python培训方面的工作。
本文摘编自《从零起始学Python网络爬虫》,经出版方授权发布。
编辑:王菁
校对:林也霖
— 完 —
关注清华-青岛数据科学科研院官方微X公众平台“THU数据派”及姊妹号“数据派THU”获取更加多讲座福利及优秀内容。