首页 > 优化杂谈 一往情深seo

搜索引擎研究:百度蜘蛛介绍

发布时间:20-06-21优化杂谈围观89

摘要:   从某种角度来看,SEO人员就是跟搜索引擎打交道,想要优化好网站,就需要对搜索引擎有着足够的研究,主要表现在搜索引擎的工作原理、搜索引擎的算法研究等

  从某种角度来看,SEO人员就是跟搜索引擎打交道,想要优化好网站,就需要对搜索引擎有着足够的研究,主要表现在搜索引擎的工作原理、搜索引擎的算法研究等。

  百度蜘蛛是国内搜索引擎中的老大哥,我们今天就百度蜘蛛来做下介绍,探讨下搜索引擎的研究。

  一、什么是百度蜘蛛?

  百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。

百度蜘蛛介绍

  二、百度蜘蛛的工作原理及抓取规则:

  种子URL->待抓取页面->提取URL->过滤重复URL->解析网页链接特征->进入链接总库->等待提取。

  通常来讲,搜索引擎的工作原理主要包括:抓取建库、检索排序、外部投票、结果展现,这四个流程,其中抓取建库与站长经常谈论的百度蜘蛛有直接关系,也是本文重点讨论的对象。

  三、搜索引擎蜘蛛中,如何识别百度蜘蛛?

  快速识别百度蜘蛛的方式有两种:

  ① 分析网站日志,可以通过识别百度蜘蛛UA,来判断蜘蛛来访记录,相对便捷的方式是利用SEO软件去自动识别。关于百度UA的识别,你可以查看官方文档:https://ziyuan.baidu.com/college/articleinfo?id=1002

  ② CMS程序插件,自动嵌入识别百度爬虫,当蜘蛛来访的时候,它会记录相关访问轨迹。

  四、关于百度蜘蛛中一些常见的问题讲解:

  ① 如何判断,百度蜘蛛是否正常抓取

  很多站长新站上线,总是百度不收录内容页面,于是担心百度爬虫是否可以正常抓取,这里官方提供两个简单的工具:

  百度抓取诊断:https://ziyuan.baidu.com/crawltools/index

  百度robots.txt检测:https://ziyuan.baidu.com/robots/index

  你可以根据这两个页面,检测网页的连通性,以及是否屏蔽了百度蜘蛛抓取。

  ② 百度爬虫持续抓取,为什么快照不更新

  快照长时间不更新并没有代表任何问题,你只需要关注是否网站流量突然下降,如果各方面指标都正常,蜘蛛频繁来访,只能代表你的页面质量较高,外部链接非常理想。

  ③ 如何提高百度抓取频率,抓取频率暴涨是什么原因

  早期,由于收录相对困难,大家非常重视百度抓取频率,但随着百度战略方向的调整,从目前来看,我们并不需要刻意追求抓取频率的提升,当然影响抓取频次的因素主要包括:网站速度、安全性、内容质量、社会影响力等内容。

  如果你发现站点抓取频率突然暴涨,可能是因为:存在链接陷阱,蜘蛛不能很好抓取页面,或者内容质量过低,需要从新抓取,也可能是网站不稳定,遭遇负面SEO攻击。

  ④ 百度蜘蛛,真的有降权蜘蛛吗?

  早期,很多SEO人员喜欢分析百度蜘蛛IP段,实际上官方已经明确表示,并没有说明哪些蜘蛛的爬行代表降权,所以这个问题不攻自破。

  ⑤ 网站防止侵权,禁止右键,百度蜘蛛是否可以识别内容

  如果你在查看网页源代码的时候,可以很好的看到页面内容,理论上百度蜘蛛就是可以正常抓取页面的,这个你同样可以利用百度抓取诊断去解析一下看看。

  总结:关于百度蜘蛛,其中市面上的蜘蛛池是一个代表产物,当然市面上很多蜘蛛池都是链接农场,是垃圾链接堆积起来的,不建议想长期优化的站点使用。


Tags: