首页
新闻
论坛
小组
Blog
文档
下载
读书
Tag
网摘
搜索
.NET
Java
游戏
视频
人才
外包
第二书店
程序员
logo
您的位置:
CSDN 首页
−>
新闻频道
−>正文
用Python写一个小小的爬虫程序
2007.10.16 来自:网络 共有评论(
0
)条
发表评论
收藏
Python有一个urllib的库,可以很方便的从给定的url抓取网页,以下这段程序实现了抓取一个url并存到指定文件的功能
Python有一个urllib的库,可以很方便的从给定的url抓取网页,以下这段程序实现了抓取一个url并存到指定文件的功能:
爬虫工作的基本原理就是,给定一个初始的url,下载这个url的网页,然后找出网页上所有满足下载要求的链接,然后把这些链接对应的url下载下来,然后再找下载下来的这些网页的url,我们可以用广度优先搜索实现这个算法,不过,首先得有一个函数找出网页上所有的满足要求的url,下面这个例子用正则表达式找出url.
最后就是广度优先搜索了,这个实现起来也很简单:
作者用上面的算法,感觉速度还行,1小时可以抓10000多网页,可以满足小型系统的要求。
【
发表评论
0
条】
其他文章
相关文章
Google和Yahoo产品主管同台揭秘互联网产品开发奥秘
(2007.10.16)
名人故事:少年黑客艾伦与盖茨
(2007.10.16)
泰然处之,网络爬虫程序实例
(2007.10.15)
开源网络爬虫程序(spider)一览
(2007.10.15)
搜索引擎爬虫程序一览表大全
(2007.10.15)
最近评论
正在载入评论列表...
热点评论
热点新闻
最新资源
ASP.Net 图书网站
酒店餐饮管理系统(包括开发文档)
Visual C++.NET案例开发集锦 源代码
vs2005(C#+SQL2000)日文版用户增删改查
银行管理系统源代码下载
PHP网络编程从入门到精通(PPT)
北大青鸟5.0 JSP课程 PPT、源代码和案例
javascript高级程序设计
北大青鸟影院售票系统源码大家一起学习
C#实现的多种文件导入与导出
最新招聘
更多
精彩视频
精彩专题
网站简介
-
广告服务
-
网站地图
-
帮助
-
联系方式
-
诚聘英才
-
English
-
问题报告
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号 世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright © 2000-2008, CSDN.NET, All Rights Reserved