关于Google判断原创内容及如何应对问题我说下我的几点看法(里面有转自网络的也有些我自己的)。希望对大家有点帮助。8 B& x5 `" u, n
1.相似度:相似度是搜刮引擎去重用的最多的算法,用的多的一种是TF/IDF算法
当一篇文章被TF/IDF算法筛选后,形成了一个多维的向量,这个向量便是这篇文章的内容特性向量,当两篇文章的特性向量趋于同等的时间,我们以为这两篇文章的内容靠近,要是同等则阐明是反复的。
2.数据指纹:当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。
...