如何阻止任何爬虫访问 gitlab 上的任何内容?
应该有一个 robots.txt 或类似的东西告诉不要爬行。这将是很好的第一步。
但更重要的是,我如何告诉 gitlab 只允许经过身份验证的访问?例如
https://gitlab.yourdomain.com/可公开访问
还
https://gitlab.yourdomain.com/explore可公开访问
如果两个 URL 都受到身份验证的保护,则爬虫甚至无法获取任何内容。但是如何用 gitlab CE 配置呢?
更清楚地说,除了登录对话框之外,其他任何东西都应该是公开可见的。如何用 gitlab CE 管理这个?
robots.txt
存储库中有一个https://gitlab.com/gitlab-org/gitlab-foss/blob/master/public/robots.txt
此外,如果您将项目可见性设置为
private
,您将无法在示例中的 URL 处查看项目。正如这里提到的,使用 robots.txt 是不够的
所以你需要使用
noindex
.