网站地图    收藏   

主页 > 前端 > 网站SEO >

关于百度搜索引擎对原创文章识别机制之己见

来源:自学PHP网    时间:2015-04-15 10:58 作者: 阅读:

[导读] 百度官方搜索运营团队一再重申原创,只有对用户有用的内容才能得到百度给予排名的推荐,将优质内容展示给用户。作为百度搜索展示的内容供应商,我们所有站长必须为其百度用户...

  百度官方搜索运营团队一再重申“原创”,只有对用户有用的内容才能得到百度给予排名的推荐,将优质内容展示给用户。作为百度搜索展示的内容供应商,我们所有站长必须为其百度用户输送新鲜血液,以“为用户创造价值”为己任,这才是站长朋友们发展的方向与动力,同时是为百度搜索引擎提供新的源泉,继而成就百度搜索引入了流量间接也成就了自己,为此百度搜索为整个原生态系统平衡启用了原创星火计划,以打击采集类网站。首批对象是受邀的新闻源网站,作为我们中小站长而言看到了一丝希望,百度正努力改善原创文章识别机制,识别中还存在有很多不足之处,快速反应及识别原创面临着很大的挑战,整个网络中数以千万计的文章暂时无法做到百分百精确,百度官方也积极表示原创是生态问题,需要长期改善,让我们拭目以待。下面就谈下编者通过最近运营的首推网站长文章类资讯站点及之前运行的一系列个人博客、企业营销网站所观察到的一些相关数据进行了分析总结,现将我对百度目前对原创文章识别机制的一些观点(请注意,只是我个人观点)分享给大家,希望能为新站站长带来一点帮助。

  参考因素一、首次爬取确认时间

网站日志图

  图片说明:上面是18日的访问日志,红框内1是百度蜘蛛来访IP段220.181.108.171,2是来访问的时间2013-8-18 04:09:08,3是爬取的相关路径根目录下的/seo/350.html。

  百度蜘蛛首次爬行网站原创文章的URL路径时间(如图1),百度蜘蛛来访问时间是2013-8-18 04:09:08此时蜘蛛爬取了路径为/seo/350.html这篇文章,并将爬取的文章内空发送回网页分析系统,至于何时放出这就要看你网站的权重及可信度,此时百度网页分析系统将文章进行初次筛选并存入到网页爬取数据总库,同时记录下爬取时间、类似文章对比排序编号、文章title标签等信息等,以便以后对类似信息对行对比筛选归类,这里可以作为是考察属于首次原创信息的基本因素之一,因为蜘蛛对各个网站的爬取时间不一,有些低权重站可能发一篇文章要几天后或更久才会被蜘蛛所爬取,在此期间或被其它高权重站所转载或又没有保留作者版权,而易被误认为是转载方,对原创作者不公平也无法维持原创生态发展,转载方却冒充原创坐享其成,百度绝不允许这种事情发生,并将严力打击这种行为;

\

  图片说明:百度蜘蛛爬取时间2013-08-19 00:07:55,在此篇文章发布后20分钟左右被爬取。

  作者支招:新站或权重低的网站,在网站上发布了一篇原创文章时,多预备一篇文章在权重高的网站进行发布,并保留自己网站上的原创文章URL路径,当这篇文章被百度爬取时会顺着网页内容上的网址去爬取原创的URL网址,不一定非要留锚文本,只要百度能识到是网址,且是在百度索引库中未存在的网址都会在短期内都去爬一次。站长朋友们就可利用这点来引导蜘蛛对原创URL路径的爬取,虽然不一定是放出来,只要搜索引擎爬取了至会认定你这篇文章的原创因素会大一点,如有可查看网页日志的朋友查询日志便可知晓百度蜘蛛是否来爬取过(如图2),只要保持每天更新一篇原创文章,百度蜘蛛会百常喜欢来的,就本文而言发布刚好在20分钟左右就被百度爬取回去,此时在被其它网站转载也无防,给百度的第一印象,本篇文章是本站的原创性较大。

  参考因素二、链接的指向关系

链接指向识别

  图片说明:链接指向,语义结构及内链等

  百度在爬取网页内容时,根据内容关键词、语义、图片等信息分析进行综合计算后与所在目录标签、网站关键词类型、内链结构关系等进行技术分析对比,判断出文章原创价值系数(如图2),各种内链指向对应关系以同种色彩表示,与其它文章建设内应关系;内容语义与标签都是同个类目,文章关键词,描述等以搜索优化为主,符合网站主题,那么本文章对于我的网站首推网而言,百度判定文章原创系数到少为中等,首推网符合原创本篇文章的对应要求。通过链接指向判断基本可确定为原创信息的基本因素之二。

  作者支招:原创文章需做好网站的内链,将关键词指向到对应类似的文章,并且原创的文章必须符合自己网站的主题,图片方面必须通过自己的网站上传,可得到自己网站的路径信息,并加注ALT标签,如若在其它权重高的网站发布能图文类的信息,图片最好采用远程URL路径加图(即图片URL路径为原创网站的),有些人转载文章图方便直接复制过去,图片路径仍保留原网站的,这点百度系统足以判断文章系转载。

  参考因素三、文章特征关键词

  首先我要说下百度为每个网站所建立特征信息编码,一般百度收录到一个新的网站后都会建立属于该网站独一无二的特征编码,以备对文章原性质进行识别判断。文章特征关键词也称内容特定关键词,类似于人的特征信息,如相貌,言行举止等,若作为文章来讲,比如说作者署名、编辑名及特定的名称,如作者的网站“首推网”,这个就可做为网站独有的特征关键词,百度首先经过词库判断选出文章的特征词一个或多个然后通过数据对比分析库判定文章的特征词在当前网站中所使用的频率,文章中的特征词与当前网站对比,计算出该文章的特定词与网站特征库对比获取的概率高,将会列入作为原创基本因素之三的特征。

  作者支招:在原创文章中尽量合理地穿插自己网站的名称、作者名称或网站所常用且较为独特的词语(可参考本篇文章,关键是合理,能让阅读顺畅,切不可盲目乱加,否则适得其反)。

  参考因素四、转发的轨迹

  转发的轨迹就不用我多说了吧,我只说下百度判断原理,之前我们说过,百度每收取一个页面都会将页面中所有的网址或属于具有网址特征如后缀为.com、.cn的域名等等,都将会纳入到链接选取系统进行分析获取转发的轨迹次数,文章版权所留的网址或所标名的来源网址在百度所爬取的信息中存在最多的,且指向的是同一个网页URL来源,那么百度基本可以确定其文章的归属。这就是百度作为原创文章考虑的第四个因素。但现在的个别站长动机不纯,将文章转载过去后去除头尾,甚至打乱段落排序进行二次原创,俗称伪原创,在以前还可以,但现在的百度完全可以识别,进行二次加工实属多余,百度官方明确表示将加大力度打击该类文章和全部用软件采集类的文章,鼓励原创,还明确指出转载文章需保持文章的完整性,也至于不影响用户的正常阅读,降低用户体验。

  作者支招:文章作为二次首发,介意把稿件推荐到知名站点,如站长类网站,红黑联盟或chinaz等知名站点,优质文章还是有很多网站转载,并保留了作者版权信息,在此借此平台像这类站长编辑表时感谢(如:919站长站、易得米、红黑联盟、海内、站长百科、看客网等等,由于文章限制不一一说明),尊重作者版权,尊重别人的劳动果实,相信更多站长会像你们一样,互联网圈将会有更好的发展氛围,更多的原创作品面市。

  参考因素五、站点的历史原创情况

  百度将会考虑网站的历史原创信息,将网站以往发的原创文章放入到文章原创库,并建立网站原创评分系统,这也是百度对网站的搜索排名权重考评的一个机制系统,你网站的原创评分系数高说明网站原创文章丰富,所发布的新文章给的权重相对也较高,不管是否原创,这类网站只要一发出新文章百分百是会被收录并且放在第一页,然后根据系统分析识别到是转载他人的文章后适当降降权,文章也不会被K掉,被这类网站所转载一般都保留了版权信息,对文章原创作者无害反而间接推荐了作者网站。作为新网站十天半个月都发出不了一篇原创文章,甚至更本就没有写过原创文章,突然放出一篇原创,百度也很难判定文章是你的网站所出,因为你网站的历史原创系数为零,内容基本靠转载或都采集而来,这就相当于狼来了的故事,一次上当了,二次上当了,三次肯定不会在上当了,百茺蜘蛛也是一样,作为刚上线的新站百度蜘蛛会天天来,来了却没有收获久而久之就不来了,因为百度蜘蛛很忙,偶尔不声不响地放个屁出来百度也不敢相信是你放的,所以文章原创重在坚持,掌握百度蜘蛛来访习惯,来时一定不要让她空手而归,再差的东西也要让她拿点回去,当然东西还得是自己写出来的,长期以往你网站的原创评分系数在不知不觉中便提高了,若不受其它因素影响你的网站权重提升也会很快。关于文章的历史原创评分这点作者也没有什么好招可支,作为新站必须原创一点新内容,相信只要坚持原创,持之以恒,滴水穿石,终将会有回报。

\

  图片说明:百度站长平台官方关于原创星火计划的说明

  关于文章原创的判断据百度发言人Lee通报,原创星火计划所涉及各项判断达100余项(如图3),原文可在百度站长资讯中可搜索到,有兴趣的朋友可以去看一下,作者认为上面说到的5个因素百度肯定是考虑在其中了的。另在百度站长聚会中也探讨了百度搜索引擎对于文章原创机制识别的讨论,但Lee总是含糊其词,不作正面回答,当然这涉及到了企业商业机密,在三大巨头竞争激烈的今天,谁能为用户推荐出优质的资源谁便可以占领更多市场。在根据百度站长官方的回答,其中作者信息,发布时间,版权链接信息等都是可以由转载方自由更改,用这个来作为判断因素肯定是不靠谱的,但可作为识别机制里的一点小小补充。另补充一点,上文中有提到伪原创问题,关于伪原创的识别,相信很多站长都用过伪原创工具,就是采用软件将文章段落打乱,部份词用同义词替换,这种机械性的动作介意大家少用为佳,你都能通过伪原创软件创出来,难道百度就不能在把文章给你“伪”回原行,当然这个过程肯定比创造伪原创的过程难,但现在百度蜘蛛已经很智能了,并且百度关键词字库中已搜集了海量的关键词并进行了大量的归类处理。如果实在无法原创出来,那就拿一篇文章来,按照文章的意思自己在构思一次写出来,这肯定是原创,百度在智能也无法真正理解文章的含意,毕竟再怎么智能也是人发明出来的一台机器而也,虽然运算快,反应快但终究无法超越聪明的人。

  写在最后的话:本篇文章版权属于首推网,由作者v460.com原创,作者长期的观察最后用了几个小时才总结出来,虽然文采差,但希望转载的站长们尊重作者的劳动成果,转载请注明出处:http://www.v460.com/seo/363.html,那些转载了文章去除版权的换成自己的,对于搜索引擎原创的识别,我还是很自信敢保证百分百不属于你,你转载只是想用来吸引蜘蛛或充实网站内容,这个我也完全支持,在底部加一链接便可达到目的,但请保留版权链接,我将感激不尽。我也鼓励站长朋友们转载,传递站长圈正能量,引导网络原创生态发展。

自学PHP网专注网站建设学习,PHP程序学习,平面设计学习,以及操作系统学习

京ICP备14009008号-1@版权所有www.zixuephp.com

网站声明:本站所有视频,教程都由网友上传,站长收集和分享给大家学习使用,如由牵扯版权问题请联系站长邮箱904561283@qq.com

添加评论