欢迎访问畅维网络官网,我们将为您提供专业的网站建设服务!
咨询电话:0531-88162305 QQ:点击这里给我发消息
当前位置:首页 > 网站学院 > 网站技术

网站中防止搜索引擎抓取页面上的敏感信息

有些时候我为了有良好的seo但是又要兼顾用户体验在页面中就会做一下小的=处理区屏蔽爬虫爬到我们的敏感词,特此搜集了以下几种方法:

1通过 meta tag 屏蔽

<meta name="robots" content="noindex, nofollow">

2通过js

<script language="javascript">

//加载完成后替换所有 hex 的地方

$(function(){

$(".hex").each(function(){

varoldtext = $(this).text();

$(this).text(hex2bin(oldtext));

})

})

//ascii 码,字符串互转的方法

functionhex2bin(hex){

varresult = "";

if(hex && hex.length && hex.length % 2 == 0){

for(vari = 0 ;i<hex.length;i+=2){

result += "%";

result += hex.substr(i, 2);

}

result = decodeURIComponent(result);

}

returnresult;

}

functionbin2hex(bin){

varresult = "";

vartemp = "";

for(vari=0;i<bin.length;i++){

varchr= bin.charCodeAt(i);

if(chr>127){

chr= encodeURIComponent(bin.charAt(i));

} else{

chr= chr.toString(16);

if(chr.length == 1){

chr= "0"+ chr;

}

}

result += chr;

}

for(vari=0;i<result.length;i++){

varchr= result.charAt(i);

if(chr!='%'){

temp+=chr;

}

}

returntemp.toLowerCase();

}

</script>

3通过php

<p class="hex"><?=bin2hex("电话号码")?></p>

<p class="hex"><?=bin2hex("peng.x.men@gamil.com")?></p>

<p class="hex"><?=bin2hex("会员姓名")?></p>

4还有一种是淘宝多年为了屏蔽百度做的一个基于apache的处理

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

 但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

注意:htaccess文件是apache服务器中的一个配置文件,它负责相关目录下的网页配置。通过htaccess文件,可以帮我们实现:网页301重定向、自定义404错误页面、改变文件扩展名、允许/阻止特定的用户或者目录的访问、禁止目录列表、配置默认文档等功能。

(编辑:济南网站建设、济南网站建设公司:畅维网络)

鲁公网安备 37010502000788号

  • 扫一扫,关注微信公众号