搜索引擎面对海量的网页,他们并不是平行的抓取每一个网页,搜索引擎如何优先抓取最重要的网页


点击次数: 次 发布时间:2013-1-18

  但是,特征 4 和5具有局限性,因为链接的深度并不能完全表明这个网页的重要程度。那么怎么解决这个问题?搜索引擎采用如下的办法:

  1) URL 权值的设定:根据 URL 的目录深度来定,深度是多少,权值就减少多少,权值最小为零。

  2) 设定 URL 初始权值为 一个固定的数值 。

  3) URL 中出现字符”/”,”?” ,或”&” 1 次, 则权值减 一个数值 ,出

  现”search”,”proxy”,或”gate” 1 次,则权值减一个数值;最多减到零。(包含”?”,

  或”&” 的URL 是带参数的形式,需要经过被请求方程序服务获得网页,不是搜索引擎系统侧重的静态网页,因此权值相应降低。包含”search”,”proxy”,或”gate” ,说明该网页极大可能是搜索引擎中检索的结果页面,代理页面,因此要降低权值)。

  4) 选择未访问 URL 的策略。因为权值小不一定说明不重要,所以有必要

  给一定的机会搜集权值小的未访问 URL 。选择未访问 URL 的策略可以采用轮流的方法进行,一次按照权值排序取,一次随机取;或者 N次随机选取。

  当搜索引擎抓取了大量的网页的时候,然后进入到一个阶段,对网页进行前面3个特征的判读,再通过大量的算法判断网页的质量,然后给予相对的排名。
作者天宇科技 - 搜索引擎面对海量的网页,他们并不是平行的抓取每一个网页,搜索引擎如何优先抓取最重要的网页

本文地址:http://www.chongyv.com/News_Show_50_1.html   手机地址http://www.chongyv.com/Mobile/News_Show_50_1.html

版权所有 © 转载时必须以链接形式注明作者和原始出处!
相关文章
关于我们
关于我们
企业文化
最新资讯
核心服务
品牌形象
邢台网站建设
邢台网站优化
成功案例
品牌设计
公司成功案例
邢台网站优化
解决方案
邢台网络公司
邢台网站维护
邢台网络营销
招贤纳士
加入我们
学习发展
常见问题
联系我们
联系我们
我要留言
如何合作
首页
手机网站
FLASH版
旧版邢台网络公司
本站关键词邢台网站建设邢台网站制作邢台网站设计,交换链接QQ:83004814 链接要求:pr>=3,百度快照三天内。