您现在的位置: 网站首页 / SEO优化 / 正文

百度排名数据截获解读

作者: 叶落荒原 发布: 2012-3-28 分类: SEO优化 阅读: 次 查看评论

很久,没对百度进行研究了,今天打算更深入一些,对百度进行,深层次的探测,扫描,分析百度页面的代码,引用的路径,在看看引用的路径下,有没有可以查看的东西。直接软件探测这个目录,看看有没有可以下载读取的,再看看百度的URL,每个都有什么含义呢。 声明:我可不是入侵百度服务器,拿到的这些数据的,只能怪百度工程师马虎,暴漏给了我。百度排名结果的后台数据,不知道以前有没有人拿到,可能我是第一个发的吧.很些收获,发现了很多百度的神秘端口,神秘页面,还有BUG漏洞,哈哈,居然可以有一些比较隐私的竞价推广数据。 最重要的发现,要数百度网页排名数据了,收获颇丰,为了分享精神,我分享部分研究心得,和截获到的,新闻搜索排名数据, 百度页面的排名数据,暂时保密,这个可是我立足的资本啦,慢慢研究。嘿嘿 先来看一个百度,关键词数据页面,呵呵, 在来看一个百度新闻排名规则数据 是json数组 格式的 我汉化翻译了,这可能是第一次看,除了百度搜索前端界面,以外的排名数据,让我们了解的他的排名数据引用来源。 上面的很好理解了,这个是2011年11月15日,的百度新闻-“抚顺”的搜索排名数据, 我截取,第19位和第20位的2个数据来说明下 上次更新后,居然很多人说看不懂,狗小云我到是,解读出了很多排名信息,重要的是你会不会解读, 百度排名算法解读(二)快照相关性归类 首先我们要理解json数组 ,它是轻量级的数据交换格式,非常适合于服务器与 JavaScript 的交互,他是百度服务器与百度前端页面的搬运工,是个中枢,我们一直查看百度搜索结果的前端页面,他的排名数据来源,就是这个来源这个json文件,这个文件,没有交代更深的排名算法,只是首次让我们知道了,百度前端页面的排名结果来源于哪里,要想了解更深的算法,就需要找json的更下一层,可能交代json这些值是怎么定义的, 不过也透漏了一些信息,首先我们可以知道,百度服务器,有一个非常庞大的词库,这个有点像我们网站的TAG标签,他把抓取的快照贴标签归类,根据隐含语义索引原理,建立一个沙盘,去掉修饰词,分析主词密度,分配类别,定义类别值,先把快照归类 这个快照归类,就可能会有,人物词库,地区词库,品牌词库,科技名词库等等,假如你的快照,被归类到,地区词库,搜索地区词汇,你就会出现地区排名结果, 进了人物词库,搜人物词汇你就可以出现,如果同时都进了人物和地区词库, 搜某一个地区的名人,你就会优先出现了,所以让百度收录你时,你页面地区词汇和人物词汇的原创密度要足够哦。别和我说还在计算密度已经落伍了,用大脑想想,任何庞大数据的处理,第一步就是分类,这样才能高效,有序处理数据,所以百度处理你快照,第一步就是鉴别和分类,百度又不是人工看你文章,唯一快速处理,就是密度啦。 类别:{ 标签:“人物” 值:“娱乐明星” } 通过这个命令,我们看到,他分完总类之后,还会继续分类,越分越细,如以下延伸 类别:{ 标签:“人物” 值:“娱乐明星” 值:“周杰伦” } 我们来看下,这个命令是具体怎么工作的,首先我们要知道,百度服务器词库,有一个很大的关系网,他把很多相关性,很强的词汇 串联起来, 上面的标签“人物”是总类,值“娱乐明星”是分类,也是一个大词组,他涵盖了,所有和娱乐明星相关的词组如:港台明星,香港明星,台湾明星,大陆明星,等等、” 这个时候我们搜“港台明星”就也可以看到,周杰伦的这条快照了。 从图片地址我们了解到,百度蜘蛛爬取后,会进行分割,文字,图片,等等,然后进行重组,因为发现很多图片都是不是当前文章的,是其它文章转载后, 配了图片,百度给发布最新的文章配图了。这说明了,即便你转载后文章,页面做的在精美,配图+视频,也不能取代百度认为最先发布的页面,看来 单篇文章的排名和,发布时间很大的关系,这也很容易理解,保障原创者的利益,公序良俗,百度也要维护这样行业的发展, 11月21日更新,抛砖引玉的效果不错,有很多SEO同行联系我,有的人觉得没用,我自己也觉得透漏的信息不多,只是把以前猜测的东西,肯定化了,之前就猜测百度肯定会归类种种,只是没有官方口径说明,这些百度数据,我也就看懂一点点,总是有强人出现,我把数据文件给一个朋友后,人家通过这些数据,都在搞数据库推衍排名了,这就是人跟人的差距啊。 (以下内容是和朋友讨论所得,) 我们来看这个文件,这个是百度的切词,分词记录文件,可以琢磨并发现百度的分词方法,和隐含类型的判断准则,它就是TAG ,拆分密度词组 ,可以知道百度怎么分拆,如“XBOX360"这个,就拆分成了,"XBOX" 和“360”,我们发现基本是一元词,再多点就是二元词,可以看到,百度的排名之前,还有一道工序,就是通过一元词,或者高频二元词,进行分类,然后通过词来建立索引,搜索的时候,简单理解为将长尾词剖开,将每个一元词索引求并集,这个东西,在程序里面叫做“逆文档频度” 如:黄金价格,这个词组 在 黄金 中,得分比如3,价格 中得分2 最终不是5,而是3*一个数+2*另一个数,越普遍的词,权值越小,也就是说主词权值高,修饰词权值小 我们在来计算长尾词,长尾词是很长的词组的组合。 一元词几千个吧,记做n,多元词,其实比如3元词,都索引的话相当于n^3个。天文数字了,所以我们可以断定长尾词,在百度的数据库里不是独立存在的,(这里废话了,笨蛋都能理解,每个长尾词都建立权值计算,地球所有服务器给百度也计算不过来)他是,一元词汇和二元词,的公式乘出来的数据, 长尾词的权值=(一元词汇权值+二元词汇权值X算法公式) 既然长尾词,在百度的数据库不是独立存在,这个时候我们我们又得出结论,长尾词的排名因素是最少的,而一元词汇,会计算,外链,文章质量,跳出率,用户行为,等等因素,因为一元词是基础词汇,独立存在的,百度工程师写代码的时候,可以任意对,一元词这些基础词,赋值,和外链数据对接计算权值,和附加框计算等等。 如:我们搜:周杰伦,可以看到,百度MP3,百度视频,微博,明星资料库等等,我们搜,CEO,WTO,这些可以看到百度词典,我们搜:阿里巴巴,可以出现股票, 比较明显是搜地区名字,如,天津,北京 ,出现地图,天气,政府网站等等,这个时候地区政府网站,的排名机制也被算进去了, 长尾词不可能向,一元词那么,丰富的拓展,进行数据对接计算等等,如果那样设计程序,是比较臃肿和蹩脚的,海量的长尾词,只能机械化的靠程序去推衍。 先去睡觉,吃饭,明天继续解读。数据比较多,大家给点留言,我好有动力,继续解读,呵呵 我手里百度排名文件很多,慢慢解读,直指核心排名算法,而且本人所有推断,来源百度后台数据,准确权威。 转载的请著名:www.256seo.com

« 上一篇下一篇 » 原创文章,转载请注明出处!标签: 百度排名  排名数据  百度算法  

苏州网络营销广告征集中,详情联系369822816

评论列表:

说两句吧:

必填

选填

选填

必填,不填不让过哦,嘻嘻。

记住我,下次回复时不用重新输入个人信息

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

控制面板
网站分类
搜索
最新留言
友情链接