我试图阻止网络爬虫索引网站上的 pdf 文件。我知道如何使用 .htaccess 文件而不是 web.config 文件来执行此操作。此代码段将阻止爬虫索引整个站点正确吗?为了阻止 pdf 被抓取,我需要什么?可能吗?
<httpProtocol>
<customHeaders>
<add name="X-Robots-Tag" value="noindex" />
</customHeaders>
</httpProtocol>
我试图阻止网络爬虫索引网站上的 pdf 文件。我知道如何使用 .htaccess 文件而不是 web.config 文件来执行此操作。此代码段将阻止爬虫索引整个站点正确吗?为了阻止 pdf 被抓取,我需要什么?可能吗?
<httpProtocol>
<customHeaders>
<add name="X-Robots-Tag" value="noindex" />
</customHeaders>
</httpProtocol>
我无权访问 nginx.config 文件,但我需要提供 webp 图像并同时增加缓存时间。我们制定了这条规则,并且运行良好:
location ~* \.(png|jpe?g|gif)$ {
add_header Vary Accept;
default_type image/webp;
try_files $uri$webp $uri =404;
}
但添加此规则后,停止提供 webp 图像:
location ~* \.(png|jpe?g|gif)$ {
expires 365d;
}
是否可以结合这两个规则?我不想将它们结合起来并让网站中断,因为更新此文件的人需要一段时间才能做出响应。
我的问题是,这行得通吗?
location ~* \.(png|jpe?g|gif)$ {
expires 365d;
add_header Vary Accept;
default_type image/webp;
try_files $uri$webp $uri =404;
}