对《搜索背后的奥秘——浅谈语义主题计算》的一些理解

SEO zhaosay 2849℃ 0评论

此文章讲述了很多,但最主要的是主题模型与文档的关系,因为百度是机器,能判断文章文字的排列和文字的原创性,却无法判断语言的主题思想。

世上任何东西都可以复制,唯有思想不能复制。

这不仅仅是搜索引擎的难题,在很多现实生活中,依然存在这样的例子。比如一个人在苹果树下,人们可能不惊讶,但是当牛顿在树下,这个事件就不一样了。

这是一个语义的转变,仅仅一个人名,就转变了整个事件的走向。那么到底是什么影响了整个事件的走向呢?这就是人的思想,换种说法,就是主题的变换。

主题,说白了,就是对语义的分析,得到的一个综合结果。像文中所提到的,如果苹果公司和乔布斯没有联系,那么这世界上这些词语就不会联系到一起,但是当一些特定的东西产生的时候,语义就会倾向与一个结果。如何让搜索引擎认识并学习到这种综合的结果,才是这篇文章的主旨。

针对这个主旨,当今时代,很多人都在挑战搜索引擎面临的一向大问题:智能化。

我所认为的智能化,不仅仅是对语言进行分析处理,而是有独立的思考,但是相比现在的搜索引擎,智能化只能说是不在人工干预下进行的一些行为综合判断,无法做到独立思考。

虽然可以通过一些经典的算法知道文章的关键是什么,但是却无法去自己理解并拓展,只会在词语产生以后,根据一些行为分析,这篇文章的主题究竟会是什么。

究竟搜索引擎的是不是在重复一些经典算法的老路,比如起步“关键词”,只不过加入了一些条件语句,使得最后的判定结果有一个指向性?

回到文章的基本构成,词语。

词语是怎么在百度里面产生的呢?

在百度懒人下拉框未出现的时候,可以看到,在一定次数以后,会产生一个关键词的排列,即使搜索是错误的,最后也会得到正确的结果,而找到正确的结果后,会按照一定的规则排列出现。这就是一个词语的学习过程,像小时候不会写一些字的时候,我们会开始大量的记录、重复写和组词,然后才能掌握。这就是词语的产生。

那么对于已经产生的词语,究竟是如何做的呢?

已经产生的词语有一大特点,那就是不断的重复。这恐怕是搜索引擎最不喜欢的事情了,就像一个人,吃多了一样东西,总是会产生厌恶感的,虽然吃这东西的有全部经验,但是还是及其厌烦的。

而文章(文档)的出现,让这些无序和单一的词语有了新鲜感。但是当文章一直重复着一些关键词的时候,厌恶感就又开始出现。这就是搜索引擎开始讨厌伪原创和垃圾文了。

如何时刻保持文字的新鲜感,这是编辑最主要的事情——也就是说,原创是一篇文章的灵魂,但是原创却不是每个人都写得出来的。因为原创的一个基本因素就是文章的独特性,不仅仅是文字的独特性,还有思想的独特性。

文字的独特性现在的搜索引擎都能抓取到,只不过是词语的一些排列,但面对更大的难题是无法抓取到思想的独特性,因为思想是最复杂的,这种独特性的模拟太难,无法对现实一些突发性的联想以及对多种因素的现象,通过一定概率或者纯数字的模拟实现主题的判定。

最简单的说法,说“牙”,“病”,当快照存在时,想找的是牙医,但是当所有的“病”的结果不存在的时候,仅仅只提到了“牙”的文章,就会被搜索到。

换种说法,当我们不想搜索到一些结果的时候,有SEO在做“牙”这个词语和“水泥”的关联性,这样的结果就会被搜索到。这就是机器的一种模拟学习性,但是它却无法判定这两个关键词所要表达的含义。不会自然过滤,除非人工干预。

仅仅只因为SEO做过这些优化,当词库中存在的时候,就必然匹配到。所以断定,机器的概念应该是:“存在即是真理。”

所以目前,只要找一些关键词,去建立一些关键词之间的关系,说不定会有出其不意的效果。

SEO是一种趋势,百度自己也明白,所以他现在急切的想要进行主题模型的研究,因为这种独特性是无法复制的,能让百度走的更远。

zhaosay写于2011年11月27日

注:《搜索背后的奥秘——浅谈语义主题计算》一文是百度搜索研发部曾经发在百度知道上发布的文章,现在还能搜索到。

转载请注明:三五二萌文网 » 对《搜索背后的奥秘——浅谈语义主题计算》的一些理解

喜欢 (2)

您必须 登录 才能发表评论!