在介绍Python3爬虫之前,先说一下为什么需要学习Python3,为什么很多人会安装双版本Python,既Python2与Python3都安装,因为Python2与Python3都需要学习! 只学习Python2,这里有很多理由来反驳:
- Python 3 才是Python的未来
- Python 官方都建议指直接学习Python 3
- Python 2 只维护到2020年
Python2在2020年就不维护了,那么就不学习Python2了吗? 显然不是,windows xp 和 windows 7系统,也照样使用人数占比,高于windows8/10。有一个原因是,老系统人们都使用习惯了,也兼容很多软件,windows 10系统会有一些软件不兼容的问题!同样,Python2 在工业中有很多历史遗留项目,除非使用Python3改写,这都需要时间、人力来完成;还有一个重要原因是,操作系统使用的Python版本也是Python2的,比如linux的yum工具依赖于Python2版本,系统级别的Python版本选择也让Python2的版本占比有很大的优势。 那么,不学习Python3吗? 显然,也不是,Python3有官方的支持,就像windows 10 有微软的支持一样,未来会添加很多功能,这些功能通常是可以高效、方便的解决工业问题的。显然,得重点学习! 所以说,Python 2与Python 3都要学习,Python爬虫也是一样! 关于Python2/3 双版本的安装,可以看前面一篇文章: Python安装及Python双版本安装详细教程
爬虫的概念
网络爬虫指的是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 ## 需要的准备
在学习Python3爬虫之前,需要有一些小小的知识准备: - 一台可以上网的计算机;
- Python3基础知识;
- 如果学过Python2,需要知道Python2 / 3语法区别;
Python2与Python3还是有很多区别的,比如print函数是否需要括号,input函数等等,这两个版本爬虫模块用法也有些不同,比如: 在 Python 3.x 里,urllib2 改名为 urllib,被分成一些子模块:urllib.request、urllib.parse 和 urllib.error。尽管函数名称大多和原来一样,但是在用新的 urllib 库时需要注意哪些函数被移动到子模块里了。
文章评论