今天,我将与您分享有关倒排索引的一些信息。 为什么要说倒排索引? 因为当用户搜索单词时,返回的搜索结果页面是按倒排索引和一系列算法排序的结果。 这不是您要努力追求的目标吗? 简而言之,搜索引擎的索引就像我们在读书时通常会阅读的目录。 为了让每个人都能更快地找到适合我们的东西,例如,导航站实际上是Internet上的一小部分索引。 结构案例。 将有一些类别,例如新闻,电影,小说,图片等,以便用户可以快速找到所需的内容。 索引是搜索引擎中最核心的技术之一,因为在大量的网页中,我们如何能够快速而准确地找到用户查询的搜索意图。 首先让我告诉您一些概念,以便每个人都能在下面的描述中理解。 1.文档:我们看到的是网页形式的Internet页面,并且网页包含许多内容,例如:TXT,EXCEL,PDF等,许多不同的文件都变成了文档。 2.文档集合:由许多文档组成的集合称为文档集合。 3.文档编号:Internet上的每个文档都有其自己的唯一编号。 4.单词编号:每个单词都有自己的唯一编号,该数字用于表示单词或短语。 5,倒排索引:在搜索引起的索引库中,网页对应的单词的存储形式可以根据该单词快速获取相关文档。 实际上,倒排索引非常简单。 让我们结合一些典型案例深入分析该算法。 您首先可以了解一些基本思想。 上图显示了与每个文件编号对应的不同文件。 例如,数字“ 1”对应于“小明吃早餐”,数字“ 2”对应于“小明在早上吃了什么”,依此类推。 另外,由于中英文的文化属性不同,因此像英文单词这样的汉字之间没有明显的分隔符。 索引首先需要对中文进行分段(在下面的示例中,暂时不删除停用词),这样一个句子就变成了一组短语,如下图所示。 上图中的单词ID记录了每个单词的编号。 第二列是与数字相对应的单词,第三列是包含该单词的文档。 例如,单词““小明”,其单词号为“ 1”,而反向列表“ 1、2、4、5”表示此单词已包含在这几个文档集中。 实际上,搜索引擎更加复杂,不仅记录了单词的文档编号,还记录了单词的出现频率(TF,这是什么意思?许多seo从业人员都在谈论关键字的密度。有三个计算公式 计算页面上关键字密度的方法:公式1:关键字数量/页面上的总单词数x 100%公式2:关键字数量/页面上的总单词数/关键字词x 100%公式3:关键字数量/ 页面上的单词数x 100%我们不讨论哪个公式更准确。我们找到了该公式:关键字在中出现的次数,则此TF为单词在页面上出现的次数) 当搜索引擎计算搜索结果的排名时,用于分析查询词的参考因素以及文档库中哪个文档更相关。 上图更复杂。 让我们看一下在多个文档中包含此单词的文档的出现频率,例如:“小明”出现在“ 4个文档”中。 “吃”出现在“ 4个文档”中,然后是等等。 在倒排的表Xiaoming(1; 1 )中,1是文档1,中间的1是该文档中单词的出现频率,是该单词在文档1中的位置,即, 文档中的第一个单词。 实际应用中,无论在纸上谈多少,最好通过实战验证该论点,是否对排名有帮助。 让我们在下面看看。 这10个网站在首页上自然排名,例如,网页类型和标题:首页,排名第一,“早期培训_早餐培训_早期培训学校[免费住宿和住宿]“首页,排名第二,“早餐培训_早餐培训班_免费早餐培训学校[免费加入] 】“首页,排名第三,”上海定正小吃培训学校_早期培训_蒸包子培训_烧烤全国最特殊培训...“首页,排名第四,“上海早期培训|重庆小面培训|山东杂粮饼类培训|酱料培训|快餐培训 .......“网页,排名第五,”零食培训_特殊小吃_零食项目加入旧炉灶特殊零食培训学校“,排名第六,”早期培训正式早期培训班-培训通行证“首页,排名第七,” 《宜商时代早餐早训》首页,“小吃培训,早训”第八名培训,上海糕点培训,上海德智烹饪艺术与食品培训中心021 -...”,排名第九,“早餐店特许经营_营养早餐特许经营_特色早餐特许经营店_早餐连锁店特许经营培训_打开。” 对“早期培训课程真实的早期培训中心-培训通行证”的分析显示,这10个网站中基本上有2个单词用于早期培训。您是否发现“早期”和“早餐”是同义词,(例如: 吃了早餐。这两个句子表示相同的意思。)这相当于再次增加单词频率,即3次。这里我提醒您不要使用关键字Stacking,必须保持自然。 在先前的实验数据中,发现标题的最左边单词权重最高,仅将这两点结合起来,顶部的网站标题就比其他网站的标题要好。 标题末尾的[[免费食物和住宿]]这是一个吸引用户点击的营销点,因此标题是技术与艺术的结合。 下图是网站从在线到当前包含和权重的部分屏幕截图:从上面的两张图片中,我们可以看出,自12月11日网站站长权重以来,该网站的权重相对容易。 2017年是0,并且权重在4天后达到1。 此外,该网站上的文章在提交之前已有5个月未更新。 为什么会有一些歌手? 每天更新文章,但是网站排名无法完成吗? 一些朋友说,如果您不写文章,那么您每天都不知道该做什么。 在我看来,这并不是影响排名的重要因素,因为早期的良好网站信任可以在后期节省很多东西(PS:这是佛教SEO,让网站自行排名)。 通过上面的图片,可以发现早期培训一词一直是首页上的第一个单词,非常稳定。 因此通过算法优化网站是非常可靠的。 搜索引擎是世界上最复杂的程序之一,并且有无数的开放算法。 有兴趣的朋友可以查看他们申请专利的搜索引擎公司的文档。 该文档还将涉及高级数学和其他知识。 ,如果您坚持并结合实际进行操作,则无需猜测排名即可优化您的网站。 作者:秦羽资料来源:陆松松博客
可能您还想看