已收藏,可在 我的资料库 中查看
关注作者
您可能还需要

SEO优化搜索引擎工作原理

搜索引擎优化,又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律

SEO优化搜索引擎工作原理

什么是SEO

搜索引擎优化,又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。

换句话说,用户在搜索引擎(例如百度)中搜索某个与你网站内容相关的关键词时,SEO可以让你的网站排名更加靠前,可以为你的网站带来源源不断的流量,为你带来更多的用户。

搜索引擎工作原理

搜索引擎工作的原理简单分为三部分,分别是爬行和抓取、预处理、排名。

爬行和抓取:爬行和抓取是搜索引擎工具获得内容的基础,搜索引擎本身不生产内容,搜索引擎只不过是内容(大自然)的搬运工。

预处理:就像我们在整理文件时候要进行整理一样,搜索引擎在获取到了大量的内容之后,要对杂乱的内容进行预处理。

排名:根据一定的规则,将这么多规整好的内容进行排名处理。

爬行和抓取:

提到对互联网内容的爬行和抓取,就得提到蜘蛛(侠)Spider(man)

蜘蛛是搜索引擎用来爬行和访问页面的程序,他就想真实世界的蜘蛛一样,在互联网这张大网上面不断的爬行,当爬到一个网站的时候,就会把网站的内容记录下来,这样搜索引擎就会收录下来,其他用户通过搜索引擎就可以搜索到这个网站了。

搜索引擎收录网站内容的过程中,其实含有更复杂的逻辑,这里就不做衍生了。另外关于反爬,一版之主爬行网站的时候会优先访问根目录下的robots.txt,如果该文件禁止搜索引擎抓取某些文件或目录,则蜘蛛将不进行抓取被禁止的网站。

接下来我们将网络爬虫的抓取策略:

广度优先遍历策略:广度优先策略是按照树的层级进行搜索,如果此层没有搜索完成,不会进入下一层搜索。也就是说会首先完成一个层级的搜索,其次进行下一层级的搜索,我们也可以理解为分层处理。再或者说,就是优先遍历种子页面的所有二级页面,遍历完二级页面后,在遍历所有的三级页面

深度优先遍历策略:深度优先遍历策略是指网络爬虫会从其起始页开始,一个链接一个链接跟踪下去,处理完这条线路的链接之后,再转入下一个起始页,继续跟踪链接。换言之,就是优先遍历种子页面某一个二级页面之后的所有分支,当蜘蛛爬到该分支的最低端,没有新链接供蜘蛛继续爬行后,则蜘蛛返回种子页面,爬取另外一个二级页面下面的分支。如下图:

除了这两种策略之外,还有部分的PageRank策略、OPIC策略、大站优先策略等,此处不做衍生。

正常情况下,在实际的爬行过程中,会根据页面结构的不同,爬行策略会进行有机组合。

如何吸引蜘蛛

整个互联网的内容如同星辰大海,以目前技术,蜘蛛无法也没必要对整个互联网的所有内容进行爬取,而没有被蜘蛛爬取过的内容,则无法通过搜索引擎搜索到,因此我们要取了解蜘蛛的习性,这样就可以吸引蜘蛛过来爬取我们的网站,从而被搜索引擎收录,那么如何吸引蜘蛛呢?

提高网站和页面的权重

俗话讲,有人的地方就有江湖,互联网也是如此,一些老牌网站,由于网站建设时间长,有一定的江湖地位,所以蜘蛛会优先对这些网站进行爬取。

提高页面内容质量

人们都喜欢新鲜事物,蜘蛛也不例外,蜘蛛对新的内容爬取优先级非常高,如果你的网站持续有原创的新鲜内容,蜘蛛会非常喜欢光顾你的网站,但如果蜘蛛每次来到你的网站,发现都是一些转载或者抄袭的内容,它就会认为你的网站没有创造新内容的能力,甚至会再也不造访你的网站。

持续对网站进行更新

蜘蛛喜欢勤劳的小蜜蜂,如果网站持续更新,那么蜘蛛将有可能定时对该网站进行爬取。

找知名网站引入友链

前面提到,知名网站蜘蛛会优先进行爬取,而蜘蛛爬取的逻辑是顺着链接不断爬行,所以我们可以找一些已经成熟的网站,让他们帮忙引入一条我们自己网站的链接,蜘蛛就可以顺着这条链接爬到我们的网站。

(来源:K哥聊出海)

以上内容属作者个人观点,不代表雨果跨境立场!如有侵权,请联系我们。

相关标签:

分享到:

--
评论
最新 热门 资讯 资料 专题 服务 果园 标签 百科 搜索

收藏

--

--

分享
K哥聊出海
分享不易,关注获取更多干货