首页 新闻 论坛 小组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 第二书店 程序员

logo

您的位置:CSDN 首页−>新闻频道−>正文

Yahoo更新 Slurp 3.0搜索爬虫机制

2008.04.21       共有评论(0)条 发表评论    收藏

Yahoo于周一(4/14)表示,该公司最近正逐步更新搜索引擎,并采用新的Yahoo! Slurp 3.0搜索爬虫机制,预计要几周内分阶段完成全球更新。此外,新爬虫会发表一个新的Yahoo! Slurp/3.0使用者代理人,既有的Slurp或Yaho

Yahoo于周一(4/14表示,该公司最近正逐步更新搜索引擎,并采用新的Yahoo! Slurp 3.0搜索爬虫机制,预计要几周内分阶段完成全球更新。

搜索爬虫(crawler)或称网络爬虫是搜索引擎后端的重要元素,它在全球的因特网上漫游,并搜集所有网站资料并回传到搜索引擎服务器上。

Yahoo
说明,新的Yahoo! Slurp 3.0仍能辨识与先前Yahoo! Slurp一样的使用者代理人及所有的robots.txt指令,只是它在用户的网页纪录上会将其视为Yahoo! Slurp 3.0

Yahoo! Slurp 3.0
将从一个不同的小群IP地址开始搜集数据,但同样来自crawl.yahoo.net domain。不过,Yahoo表示若网站业者使用以IP为基础的爬虫辨识设定,可能会被Yahoo爬虫所忽略,因此强烈建议业者采用反向DNS辨识,任何利用反向DNS来确认Yahoo爬虫的皆能持续运作。

此外,新爬虫会发表一个新的Yahoo! Slurp/3.0使用者代理人,既有的SlurpYahoo! Slurp底下的robots.txt指令都能继续运作,不过新爬虫无法辨识以Slurp/2.0为名的用户代理人指令。

robots.txt
是一存放于网站根目录中的文本文件,用来定义网站上哪些内容可以或不能供网络爬虫存取,Yahoo也在网站上说明如何利用robots.txt以避免网站或特定网页资料不被搜索引擎搜集及索引

发表评论 0条】
其他文章
相关文章
最近评论

热点新闻
最新资源

最新招聘更多
精彩视频
精彩专题


 
网站简介广告服务网站地图帮助联系方式诚聘英才English问题报告
举报电话:13552009689
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号 世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright © 2000-2008, CSDN.NET, All Rights Reserved