首页 > SEO, 外贸SEO > 关于伪原创
2013四月15

关于伪原创

 

    前几天在QQYY上跟大伙讨论了下伪原创的问题。主要是让我来讲,网站分析和GA的不太适合医疗,自己也没多少水,所以给大家来扯了扯伪原创的。

    对于常规的伪原创的话,一般我们都是采集过来一篇文章,进行换词、调整段落等,其实这种方法效率是非常低的。而我们可以站在搜索引擎的角度上来考虑。根据目前搜索引擎主流的去重策略,每个页面都有专门的编号,搜索引擎首先提取指纹。

        指纹算法:在SEO 应用方面比较多的是数据指纹:基于文章的指纹特征,判断标点符号规则。假设世界上的文字标点符号是唯一的,因此每一篇文章都应该是不重复的。所以关键词替换操作,是能被检查到是伪原创。

     比如,你的文章有100个文字,那么搜索引擎从中找到5、6个你页面中独一无二的词,进行散列。散列到4段16字节的数值中,在这4段数值中,取去掉公共的部分。比如,取第一段是相同的,然后余下的三段在网页中进行对比,这样就能够去掉重复的。如果你只是简单的换词、调整段落的话,根本就没有把指纹去掉,这样做的全部都是无用功的。

    当然还有其他算法了,就是提前特征的指纹,算是一种投机取巧的方式吧。一般用于报纸、论文等的去重,比如就是提取页面中的标点、助词、停词等,提取这些词在页面中的分布;还有就是,提前这些词的前后的词语是什么,作为一种指纹进行对比。当你了解了这些,就会发现我们传统的伪原创效率是非常低的。

        TF/IDF算法

  TF-IDF 算法在两个方面都有重要的作用:1. 提取文章的关键字词2. 根据关键词检索出相关度高的文本。

  TF-IDF 的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

  TF 词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。

  IDF 反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

  当一篇文章根据TF/IDF 进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。

  TFIDF 的理论依据及不足之处

  TFIDF 算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF 词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF 法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。

         因此引入了逆文本频度IDF 的概念,以TF 和IDF 的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF 的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF 是一种试图抑制噪音的加权,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。

        IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。

  此外,在TFIDF 算法中并没有体现出单词的位置信息,对于Web 文档而言,权重的计算方法应该体现出HTML 的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。

  代码噪音

  搜索引擎为减少代码分析负担,会对网站头部,底部,固定区域进行代码过滤,从而得到内容部分。通过降噪之后得到的内容部分,用TF-IDF 算法、指纹算法等进行分析,判断页面内容是否为原创。

  判断原创的方法还是有很多,上面提到的仅仅是其中3 个很小的部分。但是我们将上面3个算法的核心理解,进而想出对策,也基本上能符合原创内容要求。  

  在搜索引擎原理中有这么四点就是:

  相同内容相同模板  这样的类似于镜像站,搜索引擎对于这样的网页的话,会进行聚类,讲这些网页聚成一个网页。

  相同内容不同模板  这样的类似于转载,聚类不一定的。

  内容略不同模板相同 很有可能被搜索引擎判为作弊,如果是转载过来的话,那么内容中应该是相同的,如果你调整了内容的话,可能是作弊方面的,比如采集。

  内容略不同模板不同 这种类似大型门户网站的转载情况,比如新闻类的,就一件事,内容怎么改也是大同小异,这种不会类聚,搜索引擎会放出来的。

  关于伪原创的话,内容很重要,但是模板同样也是非常重要的。这里处理模板的时候,需要注意一些细节方面的问题。比如说,如何应对全站的重新生成静态页面。我们的网站都是更新的,在不断的添加内容。每次添加之后,都会生成一个静态页面,而我们大多数的网站,都会有一个最新文章版块。当我们添加内容的时候就会显示,如果我们在同一个时间段内更新了大量的文章的话,那么这些页面上的最新文章版块的链接是不一样的。

        比如,你如果发一万篇文章的话,需要花费一定的时间,在你发布了一篇文章之后,发布的这篇文章页面上的最新文章版块链接生成,这样以此类推。这一万篇文章页面上的最新文章版块链接都是不同的,这样是建立了一个灵魂的内部链接。如果,当你要改动网站模板或者搬移网站的时候,在重新生成全站页面之后,那么这个最新版块,将会全部调用此时最新的文章。

        那么,以前那么强大的内部链接结构就会被彻底打乱了,这一万篇文章页面的内链都会指向当前的最新文章。本来很好很强大的内部链接消失了,因而可能会导致排名消失,进而影响SEO流量。所以,这种情况下,你什么都没有做,但是排名和流量都下下降甚至消失了,这就是一个模板处理的细节。

  还有就是网站的随机调用版块,如果你网站的内容是比较多的话,那么在随机调用文章的话,会影响到服务器速度,这个同样会影响SEO流量的,如果不知道的话可以参考国平的博客。而且在调用内容的时候,最好还是相关内容的调用。

  随机模板:可以根据每个类目设定特定的内容模板,以减少整体网站的重复率。页面重复率过大,将影响整体网站的排名。我们做原创页面主要是通过这个功能操作。

  原创内容的意义:原创内容并不一定等于排名,对于竞争不是很高的关键词,内容原创对于排名的提升有很大的帮助。原创内容更大的意义是在于培育网站的基础,持续原创的内容,对于网站权重的提升有很大的帮助。

  基本应对方法

  通过模板设计,将随机,上下,推荐等内容调入内容区域,阻碍搜索引擎判断,写入一个div 架构增加代码噪音。这个能基本上阻碍Google 的基础判断,但是这不是长久之策,因此我们需要添加更多的应对操作。

  目前流行的一个说法:30%以上内容是独一无二的,基本上可以判断内容原创。

  每个页面有网络上独一无二的内容

  每一套网站模板,都应该有一个独立的元素写法,多增加一个元素,原创率将会越高。每一个产品的属性基本上可以第一为不同,介绍信息也不同。介绍信息里面也会有一些标点符号,组合而成的段落,就完全可以过Google 的指纹算法。有自己的独立元素,就能达到原创要求。将可用的信息调入同一个div 框架,既增加了干扰,也增加了内部链接的权重。

 

示例1

 

示例2

    具体例子:http://www.jumei.com/k/nazhongjiemaogaohaoyong.html

                       http://www.jd.com/series/1411/knowledge/8159.html

              可以去百度下,他们的文章,标红一片。(他们这里不仅仅是伪原创,还有更高的含义,这里不多说)

  网站后期操作

  网站做完后有几个要点:

  1. 制作sitemap.html、sitmap.xml等

  2. 提交Google 网站管理员工具的sitemap设置最高的抓取速度是为了让搜索最快速度收录页面。如果需要精准流量,可对目标地理区域进行设置。

  3. 将rss 文件夹里面的所有xml用社会化媒体发布一次,引导收录。

  加快收录技巧:将dedecms 生成的xml,发到自己的博客或者SNS帐号上面,能极大的加速收录,百度ping下 google抓取方式抓取下,重新提交sitemap、外链发些sitemap

  一些基本的外链推广,目前比较可行的策略:选择100 个左右的内页,list页,给每个内容做最少一个外链。

        就扯这么多吧,共享一份:关联规则数据挖掘.ppt

 

     关联规则

文章作者:houzhi
本文地址:http://www.hozseo.com/144.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

本文目前尚无任何评论.

发表评论

使用新浪微博登陆