Pergunta sobre wget
, subpasta e index.html.
Digamos que eu esteja dentro da pasta "travels/" e esta em "website.com": "website.com/travels/".
A pasta "travels/" contém muitos arquivos e outras (sub)pastas: "website.com/travels/list.doc" , "website.com/travels/cover.png" , "website.com/travels/[1990 ] America/" , "website.com/travels/[1994] Japan/", e assim por diante...
Como posso baixar apenas todos os ".mov" e ".jpg" que residem apenas em todas as subpastas? Não quero pegar arquivos de "travels/" (por exemplo, não "website.com/travels/list.doc")
Encontrei um wget
comando (no Unix&Linux Exchange, não me lembro qual foi a discussão) capaz de baixar das subpastas apenas o seu "index.html", não outros conteúdos. Por que baixar apenas arquivos de índice?
Este comando baixará apenas imagens e filmes de um determinado site:
De acordo com wget man :
Se você deseja baixar subpastas, você precisa usar o sinalizador
--no-parent
, algo semelhante a este comando:Em relação à página index.html. Ele será excluído assim que o sinalizador
-A
for incluído no comandowget
, porque este sinalizador forçaráwget
o download de um tipo específico de arquivos, ou seja, sehtml
não estiver incluído na lista de arquivos aceitos para download (ou seja, sinalizadorA
), ele não será baixado ewget
exibirá no terminal a seguinte mensagem:wget
pode baixar tipos específicos de arquivos, por exemplo (jpg, jpeg, png, mov, avi, mpeg, .... etc) quando esses arquivos existem no link URL fornecido,wget
por exemplo:Digamos que gostaríamos de baixar arquivos .zip e .chd deste site
Neste link existem pastas e arquivos .zip (role até o final). Agora, digamos que gostaríamos de executar este comando:
Este comando fará o download dos arquivos .zip e ao mesmo tempo criará uma pasta vazia para os arquivos .chd.
Para baixar os arquivos .chd, precisaríamos extrair os nomes das pastas vazias e, em seguida, converter esses nomes de pastas em seus URLs reais. Em seguida, coloque todas as URLs de interesse em um arquivo de texto
file.txt
, finalmente alimente este arquivo de texto parawget
, da seguinte forma:O comando anterior encontrará todos os arquivos chd.