博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫_入门
阅读量:4577 次
发布时间:2019-06-08

本文共 1401 字,大约阅读时间需要 4 分钟。

本来觉得没什么可写的,因为网上这玩意一搜一大把,不过爬虫毕竟是python的一个大亮点,不说说感觉对不起这玩意

基础点来说,python2写爬虫重点需要两个模块,urllib和urllib2,其实还有re
先介绍下模块的一些常用功能
urllib.urlopen('http://xxx.xxx.xxx') #打开一个网址,只是打开,和open差不多
urllib2.Request(url) #解析网址,这个可以省略,具体不是很懂,一些功能,比如加head头什么的也需要使用这个
urllib.urlretrieve(url,filename) #下载用,把url提供的东西down下来,并用filename保存
举个蜂鸟爬图片的例子,下面上伪代码:

1、url解析2、打开url3、读取url,就是read()4、使用re.findall找到所有和图片有关系的地址,这里只jpg5、循环下载

看图上,图片链接格式是src="http://index_url/page_num/image_name.jpg?XXXXXXX",那么如果需要下载的话一定是需要红圈部分,也就是http://index_url/page_num/image_name.jpg

分析之后后面的事就好办了,下面上代码

import urllibimport urllib2import re#处理地址,并获取页面全部的图片地址def get_image_url(url):  #url_format = urllib2.Request(url) #1  url_open = urllib.urlopen(url) #2  url_read = url_open.read() #3  re_value = re.compile('(?<=src\=\").*?\.jpg')  image_url_list = re.findall(re_value,url_read) #4  return image_url_list#这个函数专门用来下载,前面两行是将图片连接中/前面的内容全部删除,留下后面的文件名用来保存文件的,try不说了,不清楚请翻回去看容错def down_image(image_url):  rev = '^.*/'  file_name = re.sub(rev,'',image_url)  try:    urllib.urlretrieve(image_url,file_name)  except:    print 'download %s fail' %image_url  else:    print 'download %s successed' %image_urlif __name__ == '__main__':  url = 'http://bbs.fengniao.com/forum/10384633.html'  image_url_list = get_image_url(url)  for image_url in image_url_list:    down_image(image_url) #5

困死,睡觉去。。。。。有时间再说说翻页什么的,就能爬网站了

 

转载于:https://www.cnblogs.com/xiu123/p/8463931.html

你可能感兴趣的文章
网络流 - 最大流
查看>>
随手记note(记事簿)
查看>>
JRE System Library 与Java EE Libraries的区别
查看>>
sqlite3性能优化要点
查看>>
颜色分类函数
查看>>
Oracle数据泵详解
查看>>
(中等) HDU 4725 The Shortest Path in Nya Graph,Dijkstra+加点。
查看>>
一个程序员的时间管理
查看>>
sort-归并排序
查看>>
django 快速实现完整登录系统(cookie)
查看>>
.NET中的out和ref关键字
查看>>
Python之ftp服务器
查看>>
KMP预处理
查看>>
AI2(App Inventor 2)离线版服务器(2019.04.28更新)
查看>>
oracle的wm_concat函数实现行转列
查看>>
微软对外披露两个0day漏洞详情
查看>>
C语 三子棋小游戏
查看>>
[BZOJ 1861] 书架
查看>>
Unity NGUI 批量点击跳转场景
查看>>
送给毕业生的一个学习建议
查看>>