要查看留言请输入您的密码。

密码保护:生成索引 – 学习笔记

- SEO - 阅 1,422

索引后如何计算排名: 通过索引中的字符表(非专业术语): postion  位置(索引中位置) wunm    次数(文档中出现次数) doc         文档 tag          语义(eg:strong、H1 title等) relate   &nb…

2

DOM是什么

- SEO - 阅 2,456

    文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。Document Object Model的历史可以追溯至1990年代后期微软与Netscape的“浏览器大战”,双方为了在JavaScript与JScript一决生死,于是大规模的赋予浏览…

要查看留言请输入您的密码。

密码保护:SE判断正文

- SEO - 阅 1,366

1 HTML标签的命名:ID/CLASS包含如content、body、main可能为正文 2 DOM的高和宽,占比较大,可能为正文 3 不在广告区和模板区 4 基于重复结构的正文抓取(重复结构为代码的结构)

要查看留言请输入您的密码。

密码保护:内容处理 – 学习笔记

- SEO - 阅 1,279

判断页面质量: 受众群体 时效性 稀缺性 网站权重 死链接 文本信息 多媒体资源数量和种类 多媒体资源下载速度 多媒体资源是否有文本描述 多媒体资源和文本是否相关   受众:个人日记、心情随笔 稀缺性:重复、价值增益 死链接:及时处理,影响权重

要查看留言请输入您的密码。

密码保护:分布式抓取 – 学习笔记

- SEO - 阅 1,454

1 IP <——>网站   IP                 168.192.168.XX                                 Timeslice domain     &…

要查看留言请输入您的密码。

密码保护:页面回访机制 – 学习笔记

- SEO - 阅 1,324

   判断网页是否需要更新: 1 Head: last-modified content-length 2 用户需求:排名 点击无明显好的变化 3 网站历史数据:以往每次来,抓取多少有价值内容 4 聚类分析:DZ论坛帖子列表页、最新版块、日期等显然版块

3

http响应Last-Modified和ETag – 转载

- SEO - 阅 3,273

    1) 什么是”Last-Modified”?   在浏览器第一次请求某一个URL时,服务器端的返回状态会是200,内容是你请求的资源,同时有一个Last-Modified的属性标记此文件在服务期端最后被修改的时间,格式类似这样:   Last-Modified: Fri, 12 May 2006 18:53…

0

OPIC算法-转载

- SEO - 阅 4,159

OPIC算法是针对静态图的。OPIC算法的基本思想是:每个页面都有一个初始的cash,在抓取某页面时,该页面的cash会平均地分配到其所接向的页面,总的整个网络图中总的cash量是个定值,在抓取网页的过程这些一定量的cash在页面之间流通,很直观地,OPIC算法中页面的重要性就定义为流…

1

正则的学习在于实践

- SEO - 阅 19,356

    直接写了一篇关于Google Analytics正则表达式与高级过滤器,运用的重要的是在实践,最近也在边看边练,这样才能记得更牢。   代码 说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的…

4

加小鹿微信:tbtmnbyh(淘宝天猫内部优惠-首字母享受内部价格 网站顶部有淘宝店铺可以直接点击进店