周末没事自己写了个网络爬虫,先介绍一下它的功能,这是个小程序,主要用来抓取网页上的文章,博客等,首先找到你要抓取的文章,比如韩寒的新浪博客,进入他的文章目录,记下目录的连接比如 哈哈,不说了 直接来代码吧
import urllib
import time
j = 0
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read() #目录链接
title = con.find(r'<a title=') #找到第一次出现<a title=的位置
href = con.find(r'href=',title) #找到<a title=之后出现href=的位置
html = con.find(r'.html',href) #同上
while title != -1 and href != -1 and html != -1 and i<50: #目录下面大概50篇文章
url[i] = con[href + 6:html +5] #抓取每篇文章的链接
print url[i]
title = con.find(r'<a title=',html) #循环抓取每篇文章
href = con.find(r'href=',title)
html = con.find(r'.html',href)
i= i+1
while j < 50:
content = urllib.urlopen(url[j]).read() #读取每个链接内的内容
#print content
filename = url[j][-26:]
open(filename,'w+').write(content) #把内容写到你自己定义的文件下
print 'downloading' ,url[j]
j = j+1
time.sleep(1) #睡眠时间