搜索引擎通过三个主要功能工作:
爬虫是搜索引擎派出一组机器人来进行的发现过程,这些机器人被称为爬虫或蜘蛛,用于查找新内容和更新内容。内容的形式可能有所不同,它可以是网页,也可以是图像、视频、PDF 等。但无论内容的格式如何,都是通过链接来发现的。
蜘蛛先获取几个网页,接着依据这些网页上的链接去查找新网址。凭借沿着这条链接路径进行跳跃,蜘蛛能够找到新的内容,并且把新内容添加到索引里,这个索引是一个包含已发现 URL 的庞大数据库。
搜索引擎会处理和存储在索引中找到的信息。索引是一个巨大的数据库,其中包含了搜索引擎所发现的所有内容。搜索引擎认为这个索引足以为搜索者提供服务。
当进行搜索时,搜索引擎会在其索引里搜索高度相关的内容,接着对这些内容进行排序,目的是解决搜索者的查询。将搜索结果按相关性排序这一行为被称为排名。通常来讲,你可以认为网站的排名越高,搜索引擎就越认为该网站与查询越相关。
您可以让您网站的部分或全部网页不被搜索引擎爬虫,或者告知搜索引擎不将某些页面存储在其索引中。这种做法可能是有原因的。然而,如果您希望搜索者能够找到您的内容,那么您必须首先确保爬虫能够访问这些网页并且可以将其编入索引。否则,这些网页就如同看不见一样。
您刚刚了解到,要使您的网站出现在搜索结果中,前提是确保它被抓取并编入索引。如果您已有一个网站,最好先查看索引中的页面数量。这样有助于深入了解网站是否正在被抓取,以及是否能找到您想要的所有页面,同时不会有您不想要的页面。
检查索引页面有一个方法是“site:”,它属于一种高级搜索方式。接着前往搜索引擎,然后在搜索栏里输入“site:”。这样做会返回整个网站在其索引中针对特定站点的结果。
如果您使用“site:”这种高级搜索方式后,发现索引里缺少一些重要页面,或者一些不重要的页面被错误地编入了索引,那么您可以实施一些优化措施,以便更好地指导蜘蛛抓取您的网站内容。让搜索引擎知晓如何抓取您的网站,能让您对索引中的内容有更好的掌控。
大多数人会考虑让搜索引擎找到他们的重要页面,然而却容易忽略有些页面是不想让搜索引擎找到的。这些页面可能包含内容稀少的旧 URL,也可能有重复的 URL,像电子商务中的排序和过滤参数那样,还可能有特殊促销代码页以及暂存或测试页等。
如果您希望引导搜索引擎避开您网站的某些页面和部分,那么可以使用.txt 文件。
.txt 文件处于网站的根目录当中,比如 /.txt 。同时,它会建议您的网站搜索引擎知晓哪些部分可以抓取,哪些部分不可以抓取,以及它们抓取您网站的速度情况。
并非所有网络机器人都遵循.txt 这一规定。怀有恶意的人,像电子邮件地址抓取工具等,会构建不遵循此协议的机器人。实际上,一些不法分子会利用.txt 文件来探寻您不希望被爬取的网页路径。虽然阻止爬虫不显示在索引中(比如通过登录和管理页面等方式)看似合乎逻辑,但是将这些 URL 的位置放在可公开访问的.txt 文件中,也就意味着恶意之人能够更轻易地找到它们。最好是对这些页面进行处理,将它们放置在登录表单之后,而不要放在您的.txt 文件里。
现在您已经知晓了一些能让搜索引擎抓取工具避开您不太重要内容的策略。接下来,让我们来了解那些可以协助搜索引擎找到您重要页面的优化措施。
搜索引擎有时能通过抓取找到您网站的某些部分,然而其他页面或部分或许会因某种缘由而被遮挡。重要的是要确保搜索引擎能够发现您希望编入索引的所有内容,而不只是您的主页。
如果您让用户在访问某些内容之前需要进行登录操作,或者填写表格,亦或是回答调查,那么搜索引擎就无法看到这些受到保护的页面。爬虫本身是不会去注册登录的。
爬虫无法进行搜索。有人认为,若在自己的网站上设置搜索框,搜索引擎就能找到访问者搜索的所有内容。但实际情况并非如此。
不应使用图像、视频、GIF 等非文本媒体形式去显示希望编入索引的文本。搜索引擎虽在识别图像方面越来越好,但无法保证他们现在能阅读和理解图像。最好在网页的 标记中添加文本。
爬虫发现您的站点需要来自其他站点的链接,就像它需要您自己站点上的链接路径来引导从一个页面到另一个页面一样。如果您希望搜索引擎找到某个页面,却没有从其他任何页面链接到该页面,那么这个页面就如同不可见。许多网站犯了一个严重错误,以为搜索引擎以访问域名的方式收录,结果导致网站无法在搜索结果中展现。
您的网站必须具有有用的 URL 文件夹结构,这也是原因之一。
信息架构是在网站上对内容进行组织和标记的一种实践,其目的是提高效率和用户的可查找性。最好的信息架构具有直观性,这表明用户无需费力地浏览网站或寻找某些内容。
站点地图的意思是:它是您网站上的 URL 列表,爬虫能够利用这个列表去发现和索引您的内容。尽管提交站点地图不能替代对良好站点导航的需求,但是它确实可以协助爬虫追踪到您所有重要页面的路径。
4xx 错误属于客户端错误,这表明请求的 URL 存在错误的语法或者无法达成。“404 – 未找到”错误是较为常见的 4xx 错误之一。这些错误可能因 URL 出现错别字、页面被删除或者重定向损坏等情况而发生,仅列举几个例子而已。当搜索引擎遭遇 404 时,它们无法访问该 URL。当用户遇到 404 时,他们可能会感到无奈并离开。
5xx 错误属于服务器错误。这表明网页所在的服务器无法满足搜索者或者搜索引擎访问该页面的需求。
有一种方法是幸运的,它可以告诉搜索者和搜索引擎您的页面已经移动,这种方法就是 301(永久)重定向。
假设您把页面从/-dogs/移动到了//。搜索引擎以及用户都需要一座桥梁,以便能够从旧的 URL 跨越到新的 URL。而这座桥梁就是 301 重定向。
那么它的排名位置可能会下降,因为与该特定查询相关的内容不再存在。301 很强大——负责任地移动 URL!
您可以选择 302 重定向页面。此页面应保留用于临时移动。并且在传递链接公平性不是很重要的情况下也可使用。302 就像在绕道而行。您会暂时通过某条路线吸收流量,但不会一直这样。
您确定您的网站已被抓取后,接下来要确保它能被编入索引。确实,仅网站能被搜索引擎发现和抓取,并不意味着会被存储在其索引中。在上一节抓取的内容中,我们讨论了搜索引擎如何发现网页。索引是存储所发现页面的地方。爬虫找到页面后,搜索引擎会像浏览器那样呈现它。搜索引擎在这个过程中会对该页面的内容进行分析。这些信息都被存储在它的索引里。
搜索引擎要确保在有人于搜索栏中键入查询时,能得到相关结果作为回报。这个过程被称作排名,也就是将搜索结果按照与特定查询的相关性从最相关到最不相关进行排序。
搜索引擎为确定相关性会使用算法、过程或公式,通过这些来以有意义的方式检索和排序存储的信息。这些算法多年来有许多变化,目的是提高搜索结果的质量。比如,谷歌每天会进行算法调整,其中有些更新是微小的质量调整,有些则是为解决特定问题而部署的核心/广泛算法更新,像企鹅就是用来解决链接垃圾邮件的。
为什么算法会频繁变化?谷歌是想让我们保持警觉吗?谷歌虽不总透露为何这样做的细节,但我们知晓谷歌在进行算法调整时的目标是提升整体搜索质量。这就是为何在回答算法更新问题时,谷歌会说类似“我们一直在进行高质量的更新”这样的话。这表明,您的网站在算法调整后受到了影响。这意味着您的网站需要进行优化。
搜索引擎一直渴望着相同的事物:以最为有益的形式为搜索者的问题给予有价值的答案。倘若这是真实的情况,那么为何现今的 SEO 与过去数年呈现出不同的模样呢?
从学习一门新语言的人的角度来考虑它。
起初,他们对语言的理解处于初级阶段,比如“见 Spot Run”。随着时间的流逝,他们的理解逐渐加深,开始学习语义,也就是语言背后所蕴含的意义以及单词和短语之间的关系。最终,经过足够的练习,学生能够很好地理解语言,甚至可以领会细微差别,并且能够针对模糊或不完整的问题给出答案。
搜索引擎刚开始学习我们的语言时,操纵系统通过使用违反质量指南的技巧和策略要容易很多。比如关键字填充。若要为“有趣的笑话”等特定关键字排名,可在页面上多次添加“有趣的笑话”一词并加粗,以期望提高对该词的排名。
这种策略导致了糟糕的用户体验,它没有让人去嘲笑有趣的笑话,而是用烦人的、难以阅读的文本去轰炸人们。这种策略或许在过去是有效的,但这绝不是搜索引擎所期望的。
如果链接没有把搜索者引导到某些内容,那么链接就没有意义。东西属于内容!内容不只是文字,它是搜索者要去消费的任何东西,包括视频内容、图像内容,当然还有文本内容。如果搜索引擎像是答录机,那么内容就是引擎用来提供这些答案的方式。
每当有搜索行为发生时,会出现数以千计的可能结果。那么,搜索引擎是怎样决定搜索者会发现哪些页面具有价值呢?确定您的网页在特定查询中的排名,很大程度上取决于您网页上的内容与查询意图的契合程度。也就是说,此页面是否与搜索的词相匹配,并有助于完成搜索者试图完成的任务?
因为关注用户满意度和任务完成情况,所以对于您的内容在长度、包含的关键字数量以及标题标签中放置的内容等方面,没有严格的标准。所有这些因素都能影响页面在搜索中的表现,而重点应当放在关注阅读内容的用户身上。
今天,存在着数百甚至数千个排名信号。前三名的情况保持相当一致,分别是:您网站的链接,它作为第三方可信度信号;页面内容,要满足搜索者意图的优质内容;以及排名大脑。
工作时间:8:00-18:00
电子邮件
扫码二维码
获取最新动态