了解什么是 TF-IDF,它是如何工作的,为什么它是 SEO 词典的一部分,最重要的是——谷歌是否将它用作排名因素。
TF-IDF 的效果是什么,它真的可以帮助您的 SEO 策略吗?
在本章中,您将了解 TF-IDF 是什么、它是如何工作的、为什么它是 SEO 词典的一部分,以及最重要的是——Google 是否将其用作排名因素。
TF-IDF 是否是谷歌排名因素?
如果你想了解更多关于这个主题的信息,你会看到一些疯狂的头条新闻,这些标题会让你感觉错过了今年没有为 TF-IDF 分配预算而遗憾:
1、用于Google SEO 的 TF-IDF:什么有效,什么无效。
2、TF-IDF:SEO 没有使用的最佳内容优化工具。
3、TF IDF SEO:如何使用 TF-IDF 粉碎你的竞争对手。
TF-IDF 作为Google排名因素的证据
让我们从这个开始:什么是 TF-IDF?
tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。
tf-idf和搜索有什么关系?
好吧,谷歌是一个巨大的信息检索系统。假设您有 500 个文档的集合,并且您希望按照与术语 [rocking and rolling] 的相关性对它们进行排序。
等式的第一部分,术语频率 (TF),将:
1、忽略不包含所有三个单词的文档。
2、计算 每个术语在每个剩余文档中出现的次数。
3、考虑文档的 长度。
下一步,逆文档频率 (IDF),为您的 TF 提供更多上下文。
文档频率 = 计算文档集合中的术语。
Inverse = 反转最常出现的术语的重要性。
在这里,系统从等式中删除了术语 [and],因为我们可以看到它在所有 500 个文档中出现得如此频繁,以至于与此特定查询无关。
我们不希望 [and] 实例最多的文档排名最高。
[rocking] 和 [rolling] 权重最高的文档,同时对文本长度进行规范化,更有可能与寻找 [rocking and rolling] 信息的人相关。
否定TF-IDF 作为谷歌搜索排名因素的证据
随着文档集合的大小和种类的增加,该指标的效用会缩小。
谷歌的约翰穆勒谈到了这一点并解释说:“这是一个相当古老的指标,多年来情况已经发生了很大变化。还有很多其他指标。”
我不认为这说明这不是一个因素。我认为他很清楚地说这不再那么重要了。尽管人们喜欢相信穆勒正试图在他们身上拉扯一个,但他不可能在这个问题上撒谎。
识别哪些文档包含搜索者正在查询的词是返回响应的必要的第一步。但话虽如此,这是一个旧的指标,它本身并没有用。
在谷歌大小的索引中,TF-IDF 能做的最好的事情就是带回数百万或数十亿的结果。你能优化它吗?NO
尝试针对 TF-IDF 进行优化意味着尝试达到一定的关键字密度,这称为关键字填充,千万不要一味的堆积关键词。
尽管如此,这并不意味着这个概念对 SEO 专业人士来说就毫无价值的。
TF-IDF 能否作为谷歌排名因素:我们深圳全球搜专业谷歌优化师的判断
谷歌是否在其搜索排名算法中使用 TF-IDF——甚至可能作为其算法的基础部分?
我们的回答是:绝对不是。
为什么?因为它是一个古老的(在技术年代)信息检索概念。
今天,谷歌有非常优秀的方法来评估网页(例如,词向量、余弦相似度和其他自然语言处理方法)。
了解用户正在搜索的单词是否出现在文档中以及出现频率只是第一步。
对于初学者来说,如果没有无数其他分析层来确定诸如专业知识、权威性和信任度之类的东西,TF-IDF 就没有多大意义。
这意味着 TF-IDF 不是您可以用来优化网站的工具或策略。
你不能用 TF-IDF 做任何有用的分析,或者用它来改进你的谷歌SEO优化,因为它需要整个搜索结果语料库来运行计算。
此外,我们已经不再只是想知道使用了哪些关键字以及如何使用它们以及出现了哪些相关主题,以确保上下文和意图与我们自己的匹配。
交替使用术语 TF-IDF 和语义搜索的 SEO 专业人士误解了 TF-IDF。它只是衡量一个单词在文档集合中出现的频率。
如果有更多关于谷歌seo推广的专业知识,欢迎大家联系交流。