Robots协议(爬虫协议、机器人协议)
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Rob
会去识别网页的HTML代码,然后解析到其中的规则,它会首先检查该站点根目录下是否存在robots.txt。
比如电商网站的商品信息被爬取可能会被竞争对手利用,比如说百度的爬虫列表是这样的: Disallow 行列出的是要拦截的网页,访问频率控制等。
因此搜索引擎爬虫需要有一个分析Robots协议的模块,如果网站有数据需要保密。
其他网站仍可能链接到该网站,
广告位
评论列表