搜索引擎通过三个主要功能工作:
爬虫是搜索引擎派出一组机器人(称为爬虫或蜘蛛)来查找新内容和更新内容的发现过程。内容可能会有所不同——它可以是网页、图像、视频、PDF 等——但无论格式如何,内容都是通过链接发现的。
蜘蛛首先获取几个网页,然后按照这些网页上的链接查找新网址。通过沿着这条链接路径跳跃,蜘蛛能够找到新内容并将其添加到索引中——一个包含已发现 URL 的庞大数据库。
搜索引擎处理和存储他们在索引中找到的信息,索引是一个巨大的数据库,包含他们发现的所有内容,并认为足以为搜索者提供服务。
当有人搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行排序,以期解决搜索者的查询。这种按相关性对搜索结果进行排序称为排名。一般来说,您可以假设网站排名越高,搜索引擎认为该网站与查询越相关。
可以将您网站的部分或全部网页不让搜索引擎爬虫,或告诉搜索引擎不将某些页面存储在其索引中。虽然这样做可能是有原因的,但如果您希望搜索者找到您的内容,您必须首先确保爬虫可以访问它并且可以编入索引。否则,它就像看不见一样好。
正如您刚刚了解到的,确保您的网站被抓取并编入索引是出现在搜索结果中的先决条件。如果您已经有一个网站,最好先查看索引中的页面数量。这将有助于深入了解网站是否正在抓取并找到您想要的所有页面,而没有您不想要的页面。
检查索引页面的一种方法是“site:yourdomain.com”,这是一种高级搜索方式。前往搜索引擎并在搜索栏中输入“site:yourdomain.com”。这将返回整个网站在其索引中针对指定站点的结果。
如果您使用"site:yourdomain.com"高级搜索方式发现索引中缺少某些重要页面或某些不重要的页面被错误地编入索引,则您可以进行一些优化实施以更好地指导蜘蛛如何抓取您的网站内容。告诉搜索引擎如何抓取您的网站可以让您更好地控制索引中的内容。
大多数人都考虑确保搜索引擎可以找到他们的重要页面,但很容易忘记有些页面您可能不想让搜索引擎找到。这些可能包括诸如内容稀少的旧 URL、重复 URL(例如电子商务的排序和过滤参数)、特殊促销代码页、暂存或测试页等内容。
要引导搜索引擎远离您网站的某些页面和部分,请使用 robots.txt。
Robots.txt 文件位于网站的根目录(例如 yourdomain.com/robots.txt),并建议您的网站搜索引擎应该和不应该抓取哪些部分,以及它们抓取您网站的速度。
并非所有网络机器人都遵循 robots.txt。怀有恶意的人(例如电子邮件地址抓取工具)会构建不遵循此协议的机器人。事实上,一些不法分子使用 robots.txt 文件来查找您不想被爬取的网页路径。尽管可以(例如登录和管理页面)阻止爬虫以使其不显示在索引中似乎是合乎逻辑的,但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着怀有恶意的人可以更容易地找到它们。最好对这些页面进行 NoIndex 并将它们放在登录表单后面,而不是将它们放在您的 robots.txt 文件中。
现在您已经了解了一些确保搜索引擎抓取工具远离您不重要的内容的策略,让我们了解可以帮助搜索引擎找到您的重要页面的优化。
有时,搜索引擎可以通过抓取来找到您网站的某些部分,但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎能够发现您想要编入索引的所有内容,而不仅仅是您的主页,这一点很重要。
如果您要求用户在访问某些内容之前登录、填写表格或回答调查,搜索引擎将看不到这些受保护的页面。爬虫是不会注册登录的。
爬虫不能使用搜索。有些人认为,如果他们在自己的网站上放置搜索框,搜索引擎将能够找到访问者搜索的所有内容。但是实际上不会。
不应使用非文本媒体形式(图像、视频、GIF 等)来显示您希望编入索引的文本。虽然搜索引擎在识别图像方面变得越来越好,但不能保证他们现在能够阅读和理解它。最好在网页的 标记中添加文本。
正如爬虫需要通过来自其他站点的链接来发现您的站点一样,它也需要您自己站点上的链接路径来引导它从一个页面到另一个页面。如果您希望搜索引擎找到某个页面,但没有从任何其他页面链接到该页面,那么它就像不可见一样好。许多网站犯了一个严重错误,以为搜索引擎以访问域名的方式收录,从而导致网站无法在搜索结果中展现。
这就是为什么您的网站必须具有清晰的导航和有用的 URL 文件夹结构的原因。
信息架构是在网站上组织和标记内容以提高效率和用户可查找性的实践。最好的信息架构是直观的,这意味着用户不必费力地浏览您的网站或查找某些内容。
站点地图顾名思义:您网站上的 URL 列表,爬虫可以使用它来发现和索引您的内容。虽然提交站点地图并不能取代对良好站点导航的需求,但它当然可以帮助爬虫跟踪到您所有重要页面的路径。
4xx 错误是客户端错误,意味着请求的 URL 包含错误的语法或无法实现。最常见的 4xx 错误之一是“404 – 未找到”错误。这些可能是由于 URL 错别字、删除的页面或损坏的重定向而发生的,仅举几个例子。当搜索引擎遇到 404 时,他们无法访问该 URL。当用户遇到 404 时,他们可能会感到无奈并离开。
5xx 错误是服务器错误,意味着网页所在的服务器未能满足搜索者或搜索引擎访问该页面的请求。
幸运的是,有一种方法可以告诉搜索者和搜索引擎您的页面已经移动——301(永久)重定向。
假设您将页面从example.com/young-dogs/移动到example.com/puppies/。搜索引擎和用户需要一座桥梁来从旧 URL 跨越到新 URL。该桥是 301 重定向。
301 状态代码本身意味着页面已永久移动到新位置,因此请避免将 URL 重定向到不相关的页面——旧 URL 内容实际上并不存在的 URL。如果某个页面正在针对某个查询进行排名,而您将其 301 指向具有不同内容的 URL,则它的排名位置可能会下降,因为与该特定查询相关的内容不再存在。301 很强大——负责任地移动 URL!
您还可以选择 302 重定向页面,但这应该保留用于临时移动以及在传递链接公平性不是那么重要的情况下。302有点像绕道而行。您暂时通过某条路线吸收流量,但不会永远如此。
一旦您确定您的网站已被抓取,接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取,并不一定意味着它会被存储在他们的索引中。在上一节关于抓取中,我们讨论了搜索引擎如何发现您的网页。索引是存储您发现的页面的位置。爬虫找到页面后,搜索引擎会像浏览器一样呈现它。在此过程中,搜索引擎会分析该页面的内容。所有这些信息都存储在其索引中。
搜索引擎如何确保当有人在搜索栏中键入查询时,他们会得到相关结果作为回报?该过程称为排名,或按与特定查询最相关到最不相关的搜索结果排序。
为了确定相关性,搜索引擎使用算法、过程或公式,通过该算法以有意义的方式检索和排序存储的信息。这些算法多年来经历了许多变化,以提高搜索结果的质量。例如,谷歌每天都会进行算法调整——其中一些更新是微小的质量调整,而另一些则是为解决特定问题而部署的核心/广泛算法更新,例如企鹅解决链接垃圾邮件。
为什么算法变化如此频繁?谷歌只是想让我们保持警觉吗?虽然谷歌并不总是透露他们为什么这样做的细节,但我们知道谷歌在进行算法调整时的目标是提高整体搜索质量。这就是为什么在回答算法更新问题时,谷歌会回答类似这样的话:“我们一直在进行高质量的更新。” 这表明,如果您的网站在算法调整后受到影响,这表明您的网站需要优化
搜索引擎一直想要同样的东西:以最有用的格式为搜索者的问题提供有用的答案。如果这是真的,那么为什么现在的 SEO 看起来与过去几年不同呢?
从学习一门新语言的人的角度来考虑它。
起初,他们对语言的理解非常初级——“见 Spot Run”。随着时间的推移,他们的理解开始加深,他们学习语义——语言背后的意义以及单词和短语之间的关系。最终,通过足够的练习,学生可以很好地了解语言,甚至可以理解细微差别,并且能够为模糊或不完整的问题提供答案。
当搜索引擎刚刚开始学习我们的语言时,通过使用实际上违反质量指南的技巧和策略来操纵系统要容易得多。以关键字填充为例。如果您想为“有趣的笑话”等特定关键字进行排名,您可以在页面上多次添加“有趣的笑话”一词,并使其加粗,以期提高您对该词的排名:
这种策略造成了糟糕的用户体验,而不是嘲笑有趣的笑话,人们被烦人的、难以阅读的文本轰炸。它可能在过去有效,但这绝不是搜索引擎想要的。
如果链接没有将搜索者定向到某些内容,则链接将毫无意义。东西是内容!内容不仅仅是文字;它是搜索者要消费的任何东西——有视频内容、图像内容,当然还有文本。如果搜索引擎是答录机,那么内容就是引擎提供这些答案的手段。
每当有人进行搜索时,都会有数以千计的可能结果,那么搜索引擎如何决定搜索者会发现哪些页面有价值呢?确定您的网页在给定查询中排名的很大一部分是您网页上的内容与查询意图的匹配程度。换句话说,此页面是否与搜索的词匹配并帮助完成搜索者试图完成的任务?
由于这种关注用户满意度和任务完成情况,因此对于您的内容应该多长时间、应该包含多少关键字或您在标题标签中放置的内容没有严格的基准。所有这些都可以影响页面在搜索中的表现,但重点应该放在将阅读内容的用户上。
今天,有数百甚至数千个排名信号,前三名保持相当一致:您网站的链接(作为第三方可信度信号)、页面内容(满足搜索者意图的优质内容)以及排名大脑。