搜索引擎面对海量的网页,他们并不是平行的抓取每一个网页,搜索引擎如何优先抓取最重要的网页


点击次数: 次 发布时间:2013-1-18

  搜索引擎面对海量的网页,他们并不是平行的抓取每一个网页,因为无论搜索引擎数据库怎么扩张,都是无法跟上网页的增长速度,搜索引擎会优先抓取最重要的网页,一方面节省数据库,一方面对普通的用户也是有帮助的,因为,对用户来说,他们并不需要海量的结果,只需要最重要的结果。所以说一个好的搜集策略是优先搜集重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。

  那么搜索引擎如何首先抓取最重要的网页?

  通过对海量的网页特征分析,搜索引擎认为重要的网页有如下的基本特征,虽然不一定完全准确,但是大多数时候确实是这样的:

  1) 网页被其他的网页链接的特点,如果被链接的次数多或者被重要的网页所链接,则是很重要的网页;

  2) 某网页的父网页被链接的次数多或者被重要的网页所链接,比如一个网页是一个网站的内页,但是其首页被链接的次数多,而首页也链接了这个网页,则说明这个网页也比较重要;

  3) 网页的内容被转载传播的广。

  4) 网页的目录深度小,易于用户浏览到。 这里定义“URL 目录深度”为:网页 URL 中除去域名部分的目录层次,即URL 为http://www.tianyv.net,则目录深度为 0;如果是 http://www.chongyv.com/cs,则目录深度为 1,一次类推。需要说明的是,URL 目录深度小的网页并非总是重要的,目录深度大的网页也并非全不重要,有些学术论文的网页 URL 就有很长的目录深度。多数重要度高的网页会同时具有上述 4 个特征。

  5)优先收集网站首页,并赋予首页高的权重值。网站数目远小于网页数,并且重要的网页也必然是从这些网站首页链接过去的,因此搜集工作应当优先获得尽可能多的网站首页。

  这里问题就随之出现,搜索引擎开始抓取网页的时候,可能既不知道网页被链接的情况也不知道被转载的情况,换句话说,最开始的时候他并不能知道前面3项的特征,这些因素只能在获得网页或几乎所有的 Web 链接结构之后才能够知道。那么怎么解决这个问题呢?那就是特征4和5是可以在抓取的时候就能知道的,只有特征 4 是不需要知道网页的内容(没有抓取网页之前)就可以确定某个 URL 是否符合“重要”的标准,而且网页 URL 目录深度的计算就是对字符串的处理,统计结果表明一般的 URL 长度都小于 256 个字符,这使得 URL 目录深度的判别易于实现。所以对于搜集策略的确定,特征 4 和5是最值得考虑的指导因素。


作者天宇科技 - 搜索引擎面对海量的网页,他们并不是平行的抓取每一个网页,搜索引擎如何优先抓取最重要的网页

本文地址:http://www.chongyv.com/News_Show_50_1.html   手机地址http://www.chongyv.com/Mobile/News_Show_50_1.html

版权所有 © 转载时必须以链接形式注明作者和原始出处!
相关文章
关于我们
关于我们
企业文化
最新资讯
核心服务
品牌形象
邢台网站建设
邢台网站优化
成功案例
品牌设计
公司成功案例
邢台网站优化
解决方案
邢台网络公司
邢台网站维护
邢台网络营销
招贤纳士
加入我们
学习发展
常见问题
联系我们
联系我们
我要留言
如何合作
首页
手机网站
FLASH版
旧版邢台网络公司
本站关键词邢台网站建设邢台网站制作邢台网站设计,交换链接QQ:83004814 链接要求:pr>=3,百度快照三天内。