《搜索引擎优化魔法书》

下载本书

添加书签

搜索引擎优化魔法书- 第27部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!

这个图片在网页上显示不出来,在该图片的位置会出现替换文本的信息。  

    图片的ALT 替换文本信息属性原本是考虑到残障人士(如盲人)的访问体验而准备的, 

他们在浏览网页的时候很难获取图片中的文字信息,只能通过 ALT  替换文本的描述来了解 

图片影像内容。  

    搜索引擎会把ALT 部分的内容纳入整个页面的文本分析,所以建议在填写图片ALT 部 

分的内容时要灵活地在描述中布置合适的关键词。  



四、Robots。txt  



    搜索引擎都有自己的“搜索机器人”(Robots),并通过这些 Robots  在网络上沿着网页 

上的链接(一般是http 和 src 链接)不断抓取资料建立自己的数据库。  

    对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被 Robots  抓取 

公开。为了解决这个问题,Robots 开发界提供了两个办法:一个是robots。txt,另一个是The  

Robots META 标签。  

    Robots META 标签已经在前面有所叙述,这个部分我们将不再说明。  



1、什么是robots。txt?  



    robots。txt  是一个纯文本文件,通过在这个文件中声明该网站中不想被 robots  访问的部 



                                                                       第 85 页 


… Page 94…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录 

指定的内容。  

    当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots。txt, 

如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那 

么搜索机器人就沿着链接抓取。  

    robots。txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。 

    一般来说相应的网站就会拥有一个对应的robots。txt 文件,如:  

    w3。org/ 

    w3。org/robots。txt 



2、robots。txt 的语法  



     “robots。txt ”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or  

NL 作为结束符),每一条记录的格式如下所示:  

     “:”。 

    在该文件中可以使用#进行注解,具体使用方法和 UNIX  中的惯例一样。该文件中的记 

录通常以一行或多行User…agent 开始,后面加上若干Disallow 行,详细情况如下:  



 User…agent :   



    该项的值用于描述搜索引擎robot 的名字,在〃robots。txt〃文件中,如果有多条User…agent 

记录说明有多个robot 会受到该协议的限制,对该文件来说,至少要有一条User…agent 记录。 

如果该项的值设为*,则该协议对任何机器人均有效,在〃robots。txt〃文件中, 〃User…agent: *〃 

这样的记录只能有一条。  



 Disallow :  



    该项的值用于描述不希望被访问到的一个URL,这个URL 可以是一条完整的路径,也 

可以是部分的,任何以Disallow          开头的URL 均不会被robot 访问到。例如〃Disallow:   /help〃 

对/help。html 和/help/index。html 都不允许搜索引擎访问,而〃Disallow:        /help/〃则允许robot 访 

问/help。html,而不能访问/help/index。html 。 

    任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问,在〃/robots。txt〃文件 

中,至少要有一条Disallow 记录。如果  〃/robots。txt〃是一个空文件,则对于所有的搜索引擎 

robot,该网站都是开放的。   



3、一些robots。txt 基本的用法:  



    A。 禁止所有搜索引擎访问网站的任何部分: 

    User…agent: * 

    Disallow: / 



    B。 允许所有的robot 访问 

    User…agent: * 

    Disallow: 

    或者也可以建一个空文件  〃/robots。txt〃 file 



    C。 禁止所有搜索引擎访问网站的几个部分(下例中的cgi…bin、tmp、private  目录) 

    User…agent: * 



                                                                       第 86 页 


… Page 95…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



     Disallow: /cgi…bin/ 

     Disallow: /tmp/ 

     Disallow: /private/ 



     D。 禁止某个搜索引擎的访问(下例中的BadBot ) 

     User…agent: BadBot 

     Disallow: / 



     E。 只允许某个搜索引擎的访问(下例中的WebCrawler ) 

     User…agent: WebCrawler 

     Disallow: 



     User…agent: * 

     Disallow: / 



     F。 常见搜索引擎机器人Robots 名字  



                        表 6…8…1  常见搜索引擎机器人 Robots 名字  



                         名   称                        搜 索 引 擎  



                Baiduspider                 baidu  



                Scooter                     altavista  



                ia_archiver                 alexa  



                Googlebot                   google  



                FAST…WebCrawler             alltheweb  



                Slurp                       inktomi  



                MSNBOT                      search。msn  



4、robots。txt 举例  



     下面是一些著名站点的robots。txt: 

     cnn/robots。txt 

     google/robots。txt 

     ibm/robots。txt 

     sun/robots。txt 

     eachnet/robots。txt 



5、常见robots。txt 错误  



     A。 颠倒了顺序 

     错误写成: 

     User…agent: * 

     Disallow: GoogleBot 



                                                                                       第 87 页 


… Page 96…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



    正确的应该是: 

    User…agent: GoogleBot 

    Disallow: * 



    B。 把多个禁止命令放在一行中 

    例如错误写成: 

    Disallow: /css/ /cgi…bin/ /images/ 

    正确的应该是: 

    Disallow: /css/ 

    Disallow: /cgi…bin/ 

    Disallow: /images/ 



    C。 行前有大量空格 

    例如写成: 

    Disallow: /cgi…bin/ 

    尽管在标准没有谈到这个,但是这种方式很容易出问题。 



    D。 404 重定向到另外一个页面 

        当Robot 访问很多没有设置 robots。txt 文件的站点时,会被自动 404 重定向到另外 

    一个Html 页面。这时Robot 常常会以处理robots。txt 文件的方式处理这个Html 页面文 

    件。虽然一般这样没有什么问题,但是最好能放一个空白的 robots。txt  文件在站点根目 

    录下。 



    E。 采用大写。例如 

    USER…AGENT: EXCITE 

    DISALLOW: 

    虽然标准是没有大小写的,但是目录和文件名应该小写: 

    user…agent:GoogleBot 

    disallow: 



    F。 语法中只有Disallow,没有Allow 

    错误的写法是: 

    User…agent: Baiduspider 

    Disallow: /john/ 

    allow: /jane/ 



    G。 忘记了斜杠/ 

    错误写作: 

    User…agent: Baiduspider 

    Disallow: css 

    正确的应该是: 

    User…agent: Baiduspider 

    Disallow: /css/ 



    下面一个小工具专门检查 robots。txt 文件的有效性: 

    searchengineworld/cgi…bin/robotcheck。cgi  



                                                                           第 88 页 


… Page 97…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



五、链接锚文本  



    什么是链接锚文本?举个例子解释说明一下:诸如,有一个网站做了个点石的友情链接, 

其具体代码表现为  点石互动     ,其中“点石互动”即为 

该链接的锚文本。  



1、链接锚文本(Anchor Text)描述在SEO 中有什么作用?  



    搜索引擎可以根据指向某一个网页链接的锚文本描述来判断该网页的内容属性,点石是 

一个搜索引擎优化研究团队,所以有很多指向点石的链接锚文本描述为“搜索引擎优化”, 

这样会让搜索引擎根据属性投票来给点石在搜索引擎优化的自然排名方面有一个考虑,尤其 

是这样的反向链接的质量和数量上升到一定层次时,这种排名优势也就越明显。  

    很多网站的锚文本的形式诸如以下形式:more、更多、阅读详细信息、点击这里等,这 

样的做法没办法让搜索引擎对某一个被链接的网页内容属性有一个好的判断,从而影响网页 

排名。  



2、链接锚文本(Anchor Text)的优化  



    每个页面的内容都不同,因此我们在进行关键词策略部署的时候,就应该针对某一个目 

标页面有一个关键词考虑。一般来说一个页面的核心关键词在 1…3 个范围(范围太大,关键 

词的权重就有可能被稀释),所以我们一般在其他页面做指向该页面的链接的锚文本描述中 

就应该布置预先规划的核心关键词,而且锚文本描述的形式应尽量多样化。 



六、Sitemap。xml  



    Sitemaps  协议使你能够告知搜索引擎网站中可供抓取的网址。最简便的方式就是,使 

用  Sitemaps 协议的  Sitemaps 就是列有某个网站所有网址的  XML             文件。此协议可高度扩 

展,因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息(上 

次更新的时间、更改的频率、与网站中其他网址相比它的重要性等),以便搜索引擎可以更 

智能地抓取该网站。 

    Sitemaps  协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜 

索引擎提交一个  Sitemaps      (或多个 Sitemaps ),可帮助搜索引擎更好地抓取你的网站。 



1、XML Sitemaps 语法格式  



    Sitemaps  协议格式由  XML    标记组成,Sitemaps     的所有数据数值应为实体转义过的, 

文件本身应为  UTF…8      编码的。 

    以下是只包含一个网址并使用所有可选标记的  Sitemaps                  示例。可选标记为斜体。 



 

  《 urlset xmlns=〃google/schemas/sitemap/0。84〃》 

   《 url》 

    《 loc》example/ 

     《 lastmod》2005…01…01 

    《 changefreq》monthly 



                                                                       第 89 页 


… Page 98…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



    《 priority》0。8 

    

   



Sitemaps  应: 



     以    开始标记开始,以        结束标记结束。 

     每个网址包含一个作为父标记的                  条目。 

     每一个       父标记包括一个         子标记条目。 



2、XML 标记定义  



    以下对可用  XML      标记进行说明。 



                            
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架