您当前的位置是:首页 >> 网站建设 >> 教你几招防止你的网站被采集
  • 教你几招防止你的网站被采集
  • 2008-9-29 9:22:43 中国WebSite网(网站制作) 

     


      如今互联网上的采集系统是一个比一个厉害啊,站长们辛苦收集制作的网站内容总是很快出现在在另一个网站上,一个网站轻易的就被复制了又复制。那么有没有办法既不影响搜索引擎的正常收入又能解决网站被采集之苦呢?答案是肯定的。

        最常用的防采集方法:

        1.每个文章的命名不要有任何规律,比如你的文章是<%=id%>.htm的话,请在前面或后面生成个日期,如:20070911-1234.htm,前面的就是日期了,这样对采集新手来说是非常有效的。

        2.不要把所有的文章都放在一个目录下,你可以利用日期生成不同的目录名。

        3.不要所有的文章都用一个模板,制作尽量多的模板,添文章的时候可有选要用哪个模板,一般采集者的采集程序是有针对性的,他在采集前会对你的页面进行分析,如果你所有的页面排版无规律可寻,那么我想他就会放弃了。

        以上三种方法能防住初级采集的,但是对高手来说没什么用。
       
        下面三种方法用限制采集人的IP或SESSION的方法来达到防采集的目的。

    方法一:(asp代码):

    以下为引用的内容:
    <%
    Dim AppealNum,AppealCount
    AppealNum=10 '同一IP60秒内请求限制10次
    AppealCount=Request.Cookies("AppealCount")
    If AppealCount="" Then
    response.Cookies("AppealCount")=1
    AppealCount=1
    response.cookies("AppealCount").expires=dateadd("s",60,now())
    Else
    response.Cookies("AppealCount")=AppealCount+1
    response.cookies("AppealCount").expires=dateadd("s",60,now())
    End If
    if int(AppealCount)>int(AppealNum) then
    response.write "中国WebSite网(www.nwzzz.com)提醒您:抓取很累,歇一会儿吧!"
    response.end
    End If
    %>


    方法二(asp):

    以下为引用的内容:
    <%
    user_agent=Request.ServerVariables("HTTP_USER_AGENT")
    http_reffer=Request.ServerVariables("HTTP_REFERER")
    server_name=Request.ServerVariables("SERVER_NAME")
    '检查当前用户是否是蜘蛛人
    function check(user_agent)
    allow_agent=split("Baiduspider,Scooter,ia_archiver,Googlebot,FAST-WebCrawler,MSNBOT,Slurp",",")
    check_agent=false
    for agenti=lbound(allow_agent) to ubound(allow_agent)
    if instr(user_agent,allow_agent(agenti))>0 then
    check_agent=true
    exit for
    end if
    next
    check=check_agent
    end function
    if check(user_agent)=False then
    if http_reffer="" or left(http_reffer,len("http://"&server_name)+1)<>"http://"&server_name&"/" then
    %>





    <%response.end
    end if
    end if
    %>


    方法三:

        用Persistence为静态页面增加session功能  

        一般来说,只有服务器端的CGI程序(ASP、PHP、JSP)具有session会话功能,用来保存用户在网站期间(会话)的活动数据信息,而对于数量众多的静态页面(HTML)来说,只能使用客户端的cookies来保存临时活动数据,但对于cookies的操作是个很烦琐的过程,远没有对于session操作那样简便。为此,本文向读者推荐一种在DHTML中的解决方案“Persistence技术”,使得在静态页面中也能使用session会话功能。

        Microsoft Internet Explorer 5浏览器和以后的版本都支持使用状态保持(Persistence)技术,让我们能够在当前会话过程中保存一些数据对象到客户端,减少了对服务器的访问请求,充分发挥了客户端计算机的数据处理能力,从而也整体提升了页面显示效率。

        Persistence技术有以下几种行为可供调用:

    · saveFavorite—当页面被添加到收藏夹时保存页面状态和信息
    · saveHistory—在当前会话中保存页面状态和信息
    · saveSnapshot—当页面被保存到硬盘时,保存页面状态和信息
    · userData—在当前会话中用XML格式保存页面状态和信息
        Persistence技术打破了以前使用cookies和session的传统,继承了cookies的一些安全策略,同时也增加了存储和管理数据的能力。我们的每个页面有64KB的用户数据存储容量,对于每个站点总计有640KB的存储上限。

    [1] [2] 下一页

  • 团队介绍
  • 联系我们
  • 网站地图
  • 建站流程
  • 本站关键词:网站制作 | 网站建设 | 北京网站制作 | 北京网站建设 | 做网站 | 北京做网站
    Copyright 2007-2008 中国Web网  All Rights reserved
    业务电话:15810436520 联系人:张冬行 E-mail:zhang-donghang@163.com
    联系地址:北京市海淀区南平庄164号
    京ICP备012345678号