Como baixar um arquivo no terminal cujo link redireciona e parece funcionar apenas na GUI?

Question

SeSa

Asked: 2018-01-24 23:51:42 +0800 CST2018-01-24 23:51:42 +0800 CST 2018-01-24 23:51:42 +0800 CST

Obtendo o endereço URL do arquivo e verificando o código HTTP

772

Estou criando um script bash para verificar qual código HTTP uma determinada URL está retornando. Tenho arquivo com cerca de 50k de URLs no formato JSON; é o primeiro (cabeçalho):

"responseHeader":{
    "status":0,
    "QTime":7336},
  "response":{"numFound":50032,"start":0,"maxScore":1.0,"docs":[
      {
        "documentURL":"http....."},

    and so on

Preciso fazer um loop neste arquivo, verificar qual código HTTP cada URL está retornando e salvá-lo em outro arquivo no formato código HTTP + URL. Até agora, tenho apenas este comando curl para verificar o código http

  curl -s -o /dev/null -I -w "%{http_code}\n" URL >> httpCodeFile

Agradeço qualquer ajuda e conselhos sobre quais ferramentas/abordagem (grep,awk,sed) devo usar.

Eu criei esta função para obter o URL do arquivo, mas tenho certeza sobre a sintaxe:

function checkHTTP(){



        cat URL_list | while read line
        do
                var =  $(grep documentURL) URL_list

                curl -s -o /dev/null -I -w "%{http_code}\n" ${var} +  " TEST "  >> httpCodeFile


        done
}

Estou obtendo apenas 000, apesar de muitos URLs retornarem 404.

1 respostas

Voted

RomanPerekhrest · Answer 1 · 2018-01-25T01:23:24+08:00

Best Answer

RomanPerekhrest

2018-01-25T01:23:24+08:002018-01-25T01:23:24+08:00

O caminho certo com jq+ curlsolução:

Amostra válida input.json:

{
  "responseHeader": {
    "status": 0,
    "QTime": 7336
  },
  "response": {
    "numFound": 50032,
    "start": 0,
    "maxScore": 1,
    "docs": [
      {
        "documentURL": "https://unix.stackexchange.com/questions"
      },
      {
        "documentURL": "https://unix.stackexchange.com/problems"
      },
      {
        "documentURL": "https://stackoverflow.com/questions"
      },
      {
        "documentURL": "https://stackoverflow.com/issues"
      }
    ]
  }
}

Em processamento:

jq -r '.response.docs[].documentURL 
       | "curl -s -o /dev/null -I -w \"%{http_code} \(.)\n\" --url \(.)"' input.json \
       | sh > http_codes.out

http_codes.outO conteúdo resultante :

$ cat http_codes.out 
200 https://unix.stackexchange.com/questions
404 https://unix.stackexchange.com/problems
200 https://stackoverflow.com/questions
404 https://stackoverflow.com/issues

1

Obtendo o endereço URL do arquivo e verificando o código HTTP

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Obtendo o endereço URL do arquivo e verificando o código HTTP

1 respostas

relate perguntas