搜索引擎优化魔法书TXT第27部分小说阅读和下载-策策文学

这个图片在网页上显示不出来，在该图片的位置会出现替换文本的信息。　　

　　　　图片的ALT　替换文本信息属性原本是考虑到残障人士（如盲人）的访问体验而准备的，　

他们在浏览网页的时候很难获取图片中的文字信息，只能通过　ALT　　替换文本的描述来了解　

图片影像内容。　　

　　　　搜索引擎会把ALT　部分的内容纳入整个页面的文本分析，所以建议在填写图片ALT　部　

分的内容时要灵活地在描述中布置合适的关键词。　　

四、Robots。txt　　

　　　　搜索引擎都有自己的“搜索机器人”（Robots），并通过这些　Robots　　在网络上沿着网页　

上的链接（一般是http　和　src　链接）不断抓取资料建立自己的数据库。　　

　　　　对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被　Robots　　抓取　

公开。为了解决这个问题，Robots　开发界提供了两个办法：一个是robots。txt，另一个是The　　

Robots　META　标签。　　

　　　　Robots　META　标签已经在前面有所叙述，这个部分我们将不再说明。　　

1、什么是robots。txt？　　

　　　　robots。txt　　是一个纯文本文件，通过在这个文件中声明该网站中不想被　robots　　访问的部　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　85　页　

…　Page　94…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录　

指定的内容。　　

　　　　当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots。txt，　

如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那　

么搜索机器人就沿着链接抓取。　　

　　　　robots。txt　必须放置在一个站点的根目录下，而且文件名必须全部小写。　

　　　　一般来说相应的网站就会拥有一个对应的robots。txt　文件，如：　　

　　　　w3。org/　

　　　　w3。org/robots。txt　

2、robots。txt　的语法　　

　　　　　“robots。txt　”文件包含一条或更多的记录，这些记录通过空行分开（以CR，CR/NL，　or　　

NL　作为结束符），每一条记录的格式如下所示：　　

　　　　　“：”。　

　　　　在该文件中可以使用#进行注解，具体使用方法和　UNIX　　中的惯例一样。该文件中的记　

录通常以一行或多行User…agent　开始，后面加上若干Disallow　行，详细情况如下：　　

　User…agent　：　　　

　　　　该项的值用于描述搜索引擎robot　的名字，在〃robots。txt〃文件中，如果有多条User…agent　

记录说明有多个robot　会受到该协议的限制，对该文件来说，至少要有一条User…agent　记录。　

如果该项的值设为*，则该协议对任何机器人均有效，在〃robots。txt〃文件中，　〃User…agent：　*〃　

这样的记录只能有一条。　　

　Disallow　：　　

　　　　该项的值用于描述不希望被访问到的一个URL，这个URL　可以是一条完整的路径，也　

可以是部分的，任何以Disallow　　　　　　　　　　开头的URL　均不会被robot　访问到。例如〃Disallow：　　　/help〃　

对/help。html　和/help/index。html　都不允许搜索引擎访问，而〃Disallow：　　　　　　　　/help/〃则允许robot　访　

问/help。html，而不能访问/help/index。html　。　

　　　　任何一条Disallow　记录为空，说明该网站的所有部分都允许被访问，在〃/robots。txt〃文件　

中，至少要有一条Disallow　记录。如果　　〃/robots。txt〃是一个空文件，则对于所有的搜索引擎　

robot，该网站都是开放的。　　　

3、一些robots。txt　基本的用法：　　

　　　　A。　禁止所有搜索引擎访问网站的任何部分：　

　　　　User…agent：　*　

　　　　Disallow：　/　

　　　　B。　允许所有的robot　访问　

　　　　User…agent：　*　

　　　　Disallow：　

　　　　或者也可以建一个空文件　　〃/robots。txt〃　file　

　　　　C。　禁止所有搜索引擎访问网站的几个部分（下例中的cgi…bin、tmp、private　　目录）　

　　　　User…agent：　*　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　86　页　

…　Page　95…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

　　　　　Disallow：　/cgi…bin/　

　　　　　Disallow：　/tmp/　

　　　　　Disallow：　/private/　

　　　　　D。　禁止某个搜索引擎的访问（下例中的BadBot　）　

　　　　　User…agent：　BadBot　

　　　　　Disallow：　/　

　　　　　E。　只允许某个搜索引擎的访问（下例中的WebCrawler　）　

　　　　　User…agent：　WebCrawler　

　　　　　Disallow：　

　　　　　User…agent：　*　

　　　　　Disallow：　/　

　　　　　F。　常见搜索引擎机器人Robots　名字　　

　　　　　　　　　　　　　　　　　　　　　　　　表　6…8…1　　常见搜索引擎机器人　Robots　名字　　

　　　　　　　　　　　　　　　　　　　　　　　　　名　　　称　　　　　　　　　　　　　　　　　　　　　　　　搜　索　引　擎　　

　　　　　　　　　　　　　　　　Baiduspider　　　　　　　　　　　　　　　　　baidu　　

　　　　　　　　　　　　　　　　Scooter　　　　　　　　　　　　　　　　　　　　　altavista　　

　　　　　　　　　　　　　　　　ia_archiver　　　　　　　　　　　　　　　　　alexa　　

　　　　　　　　　　　　　　　　Googlebot　　　　　　　　　　　　　　　　　　　google　　

　　　　　　　　　　　　　　　　FAST…WebCrawler　　　　　　　　　　　　　alltheweb　　

　　　　　　　　　　　　　　　　Slurp　　　　　　　　　　　　　　　　　　　　　　　inktomi　　

　　　　　　　　　　　　　　　　MSNBOT　　　　　　　　　　　　　　　　　　　　　　search。msn　　

4、robots。txt　举例　　

　　　　　下面是一些著名站点的robots。txt：　

　　　　　cnn/robots。txt　

　　　　　google/robots。txt　

　　　　　ibm/robots。txt　

　　　　　sun/robots。txt　

　　　　　eachnet/robots。txt　

5、常见robots。txt　错误　　

　　　　　A。　颠倒了顺序　

　　　　　错误写成：　

　　　　　User…agent：　*　

　　　　　Disallow：　GoogleBot　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　87　页　

…　Page　96…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

　　　　正确的应该是：　

　　　　User…agent：　GoogleBot　

　　　　Disallow：　*　

　　　　B。　把多个禁止命令放在一行中　

　　　　例如错误写成：　

　　　　Disallow：　/css/　/cgi…bin/　/images/　

　　　　正确的应该是：　

　　　　Disallow：　/css/　

　　　　Disallow：　/cgi…bin/　

　　　　Disallow：　/images/　

　　　　C。　行前有大量空格　

　　　　例如写成：　

　　　　Disallow：　/cgi…bin/　

　　　　尽管在标准没有谈到这个，但是这种方式很容易出问题。　

　　　　D。　404　重定向到另外一个页面　

　　　　　　　　当Robot　访问很多没有设置　robots。txt　文件的站点时，会被自动　404　重定向到另外　

　　　　一个Html　页面。这时Robot　常常会以处理robots。txt　文件的方式处理这个Html　页面文　

　　　　件。虽然一般这样没有什么问题，但是最好能放一个空白的　robots。txt　　文件在站点根目　

　　　　录下。　

　　　　E。　采用大写。例如　

　　　　USER…AGENT：　EXCITE　

　　　　DISALLOW：　

　　　　虽然标准是没有大小写的，但是目录和文件名应该小写：　

　　　　user…agent：GoogleBot　

　　　　disallow：　

　　　　F。　语法中只有Disallow，没有Allow　

　　　　错误的写法是：　

　　　　User…agent：　Baiduspider　

　　　　Disallow：　/john/　

　　　　allow：　/jane/　

　　　　G。　忘记了斜杠/　

　　　　错误写作：　

　　　　User…agent：　Baiduspider　

　　　　Disallow：　css　

　　　　正确的应该是：　

　　　　User…agent：　Baiduspider　

　　　　Disallow：　/css/　

　　　　下面一个小工具专门检查　robots。txt　文件的有效性：　

　　　　searchengineworld/cgi…bin/robotcheck。cgi　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　88　页　

…　Page　97…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

五、链接锚文本　　

　　　　什么是链接锚文本？举个例子解释说明一下：诸如，有一个网站做了个点石的友情链接，　

其具体代码表现为　　点石互动　　　　　，其中“点石互动”即为　

该链接的锚文本。　　

1、链接锚文本（Anchor　Text）描述在SEO　中有什么作用？　　

　　　　搜索引擎可以根据指向某一个网页链接的锚文本描述来判断该网页的内容属性，点石是　

一个搜索引擎优化研究团队，所以有很多指向点石的链接锚文本描述为“搜索引擎优化”，　

这样会让搜索引擎根据属性投票来给点石在搜索引擎优化的自然排名方面有一个考虑，尤其　

是这样的反向链接的质量和数量上升到一定层次时，这种排名优势也就越明显。　　

　　　　很多网站的锚文本的形式诸如以下形式：more、更多、阅读详细信息、点击这里等，这　

样的做法没办法让搜索引擎对某一个被链接的网页内容属性有一个好的判断，从而影响网页　

排名。　　

2、链接锚文本（Anchor　Text）的优化　　

　　　　每个页面的内容都不同，因此我们在进行关键词策略部署的时候，就应该针对某一个目　

标页面有一个关键词考虑。一般来说一个页面的核心关键词在　1…3　个范围（范围太大，关键　

词的权重就有可能被稀释），所以我们一般在其他页面做指向该页面的链接的锚文本描述中　

就应该布置预先规划的核心关键词，而且锚文本描述的形式应尽量多样化。　

六、Sitemap。xml　　

　　　　Sitemaps　　协议使你能够告知搜索引擎网站中可供抓取的网址。最简便的方式就是，使　

用　　Sitemaps　协议的　　Sitemaps　就是列有某个网站所有网址的　　XML　　　　　　　　　　　　　文件。此协议可高度扩　

展，因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息（上　

次更新的时间、更改的频率、与网站中其他网址相比它的重要性等），以便搜索引擎可以更　

智能地抓取该网站。　

　　　　Sitemaps　　协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜　

索引擎提交一个　　Sitemaps　　　　　　（或多个　Sitemaps　），可帮助搜索引擎更好地抓取你的网站。　

1、XML　Sitemaps　语法格式　　

　　　　Sitemaps　　协议格式由　　XML　　　　标记组成，Sitemaps　　　　　的所有数据数值应为实体转义过的，　

文件本身应为　　UTF…8　　　　　　编码的。　

　　　　以下是只包含一个网址并使用所有可选标记的　　Sitemaps　　　　　　　　　　　　　　　　　　示例。可选标记为斜体。　

　

　　《　urlset　xmlns=〃google/schemas/sitemap/0。84〃》　

　　　《　url》　

　　　　《　loc》example/　

　　　　　《　lastmod》2005…01…01　

　　　　《　changefreq》monthly　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　第　89　页　

…　Page　98…

搜索引擎优化魔法书　SEO　Magic　Book　　浩维互动免费电子书　timev　

　　　　《　priority》0。8　

　　　　

　　　

Sitemaps　　应：　

　　　　　以　　　　开始标记开始，以　　　　　　　　结束标记结束。　

　　　　　每个网址包含一个作为父标记的　　　　　　　　　　　　　　　　　　条目。　

　　　　　每一个　　　　　　　父标记包括一个　　　　　　　　　子标记条目。　

2、XML　标记定义　　

　　　　以下对可用　　XML　　　　　　标记进行说明。　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　

《搜索引擎优化魔法书》

下载本书

搜索引擎优化魔法书- 第27部分