Googlebot对网页的抓取索引过程详解

 1、抓取

抓取是 Googlebot 发现新网页并更新这些网页以将网页添加到 Google 索引中的过程。

  我们使用许多计算机来获取(或”抓取”)网站上的大量网页。执行获取任务的程序叫做 Googlebot(也被称为漫游器或信息采集软件)。Googlebot 使用算法来进行抓取:计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。

  Google 的抓取过程是根据网页网址的列表进行的,该列表是在之前进行的抓取过程中形成的,且随着网站管理员所提供的 Sitemap 数据不断进行扩充。在 Googlebot 访问每个网站时,它会检测每个网页上的链接,并将这些链接添加到它要抓取的网页列表中。新建立的网站、对现有网站所进行的更改以及无效链接都会被记录下来,并用于更新 Google 索引。

  Google 不允许以收取费用的方式来提高网站抓取频率。我们会对搜索业务和以盈利为目的的 AdWords 服务加以区分。

  2、编制索引

  Googlebot 会处理所抓取的每个网页,以便将其找到的所有字词和这些字词在每个网页上的位置都汇编到包含大量索引的列表中。此外,我们还会处理关键内容标记和属性中的信息,例如 TITLE 标记或 ALT 属性。Googlebot 可处理许多类型的内容,但并非全部类型的内容。例如,我们无法处理某些 Rich Media 文件或动态网页的内容。

  3、提供结果

  用户输入查询时,我们的计算机会搜索索引以查找匹配的网页,并返回我们认为与用户搜索最为相关的结果。相关性由 200 多个因素来确定,其中之一即为指定网页的 PageRank。PageRank 是根据其他网页中的导入链接对某个网页的重要性所进行的衡量。简单来说,其他网站中指向您网站网页的各个链接构成了您网站的 PageRank。并非所有链接都具有同样的价值:Google 致力于通过指明垃圾链接和其他会对搜索结果造成负面影响的行为来不断改善用户体验。根据您所提供的内容的质量所指定的链接是最好的链接。

  要让您的网站在搜索结果页中获得较好的排名,您一定要确保 Google 能够正确地抓取您的网站并将其编入索引。我们的网站管理员指南列出了一些可帮助您避免常见问题并改善网站排名的最佳实践。

  Google 的相关搜索、拼写建议和 Google 建议功能旨在通过显示相关字词、常见拼写错误和常见查询来帮助用户节省搜索时间。与我们的 google.com 搜索结果相似,这些功能所使用的关键字会由我们的网络抓取工具和搜索算法自动生成。我们只有在认为这些建议可以节省用户时间时才会显示这些建议。如果某个网站因某一关键字而获得较高的排名,这是因为,我们已通过算法确定了其内容对用户的查询更具相关性。