exportar variáveis env programaticamente, via stdout do comando [duplicado]

Question

Matt Zabojnik

Asked: 2018-04-03 09:25:39 +0800 CST2018-04-03 09:25:39 +0800 CST 2018-04-03 09:25:39 +0800 CST

Como posso obter de uma lista com várias linhas em um nome de arquivo?

772

Gostaria de obter uma lista de itens que estou recuperando de um arquivo XML. Estou usando sed para limpar o XML e estou terminando com uma saída como esta:

CountofMonteCristo.zip
English.
http://www.archive.org/download/count_monte_cristo_0711_librivox/count_monte_cristo_0711_librivox_64kb_mp3.zip
Alexandre.
Dumas.
LettersofTwoBrides.zip
English.
http://www.archive.org/download/letters_brides_0709_librivox/letters_brides_0709_librivox_64kb_mp3.zip
Honoréde.
Balzac.
BleakHouse.zip
English.
http://www.archive.org/download/bleak_house_cl_librivox/bleak_house_cl_librivox_64kb_mp3.zip
Charles.
Dickens.

Eu gostaria de usar wget -i para baixar esses arquivos como Language.Lastname.Firstname.Title.zip

Estou aberto para reorganizar o arquivo de alguma forma para que eu possa usar $ filename $ url

Eu tentei alguns comandos sed diferentes. Sed é o que usei para limpar as tags XML, mas não consigo descobrir como mover o texto para o local apropriado. Os títulos, nomes e idiomas variam para cada arquivo.

EDIT: Antes de limpar as tags com sed, cada linha é agrupada em tags, como English e FileTitle. Acho que isso pode ser útil para identificar padrões para reorganizar as coisas.

EDIT2: Aqui está a fonte XML

EDIT3: Algo assim parece que funcionaria, mas estou tendo problemas para modificá-lo para atender às minhas necessidades.

Meu objetivo final é organizar todos os arquivos em pastas, com uma hierarquia de Language -> AuthorLastnameFirstname -> Files.zip

Se o que estou fazendo não for a melhor prática, estou aberto a outros métodos.

Obrigado

3 respostas

Voted

Jamie Lindsey · Answer 1 · 2018-04-03T15:15:00+08:00

Se o que estou fazendo não for a melhor prática, estou aberto a outros métodos.

Vou sugerir que você não use bashou sedetc.! E siga o método python, que é definitivamente uma maneira muito melhor de analisar o xml que você precisa analisar. Acabei de escrever e testar isso com python3.6 e ele faz exatamente o que você pediu.

#!/usr/bin/python3
# Let's import the modules we need
import wget
import os
import requests
from bs4 import BeautifulSoup as bs

# Assign the url to a variable (not essential as we 
# only use it once, but it's pythonic)
url = 'https://librivox.org/api/feed/audiobooks/?offset=0&limit=3&fields=%7Blanguage,authors,title,url_zip_file%7B'

# Use requests to fetch the raw xml
r = requests.get(url)

# Use BeautifulSoup and lxml to parse the raw xml so 
# we can do stuff with it
s = bs(r.text, 'lxml')

# We need to find the data we need. This will find it and create some 
# python lists for us to loop through later

# Find all xml tags named 'url_zip_file' and assign them to variable
links = s.find_all('url_zip_file')

# Find all xml tags named 'last_name' and assign them to variable
last_names = s.find_all('last_name')

# Find all xml tags named 'last_name' and assign them to variable
first_names = s.find_all('first_name')

# Find all xml tags named 'language' and assign them to variable
language = s.find_all('language')

# Assign the language to a variable
english = language[0].text

# Make our new language directory
os.mkdir(english)

# cd into our new language directory
os.chdir(str(english))

# Loop through the last names (ln), first names(fn) and links
# so we can make the directories, download the file, rename the 
# file then we go back a directory and loop again
for ln, fn, link in zip(last_names, first_names, links):
    os.mkdir('Author{}{}'.format(str(ln.text), str(fn.text)))
    os.chdir('Author{}{}'.format(ln.text, fn.text))
    filename = wget.download(link.text)
    os.rename(filename, 'File.zip')
    os.chdir('../')

Você pode salvar isso em um arquivo ou apenas colar/digitar em um cli do interpretador python3, depende de você.

Você precisará instalar python3-wget e beautifulsoup4 usando pip ou easy_install etc.

muru · Answer 2 · 2018-04-03T21:03:11+08:00

Se você pode usar jq, a API do Librivox também fornece saída JSON e provavelmente é mais fácil analisar JSON jqdo que XML com ferramentas XML adequadas.

u='https://librivox.org/api/feed/audiobooks/?offset=0&limit=3&fields=%7Blanguage,authors,title,url_zip_file%7B&format=json'
curl "$u" -sL |
  jq -r '.books[] | "\(.language).\(.authors[0].last_name + .authors[0].first_name).\(.title).zip", .url_zip_file'

Dá saída como:

English.DumasAlexandre.Count of Monte Cristo.zip
http://www.archive.org/download/count_monte_cristo_0711_librivox/count_monte_cristo_0711_librivox_64kb_mp3.zip
English.BalzacHonoré de.Letters of Two Brides.zip
http://www.archive.org/download/letters_brides_0709_librivox/letters_brides_0709_librivox_64kb_mp3.zip
English.DickensCharles.Bleak House.zip
http://www.archive.org/download/bleak_house_cl_librivox/bleak_house_cl_librivox_64kb_mp3.zip

Depois disso, é relativamente simples de usar xargs:

curl "$u" -sL |
  jq -r '.books[] | "\(.language).\(.authors[0].last_name + .authors[0].first_name).\(.title).zip", .url_zip_file' |
  xargs -d '\n' -n2 wget -O

Onde xargsuse duas linhas como argumento cada uma para wget, com a primeira linha se tornando o -Oparâmetro de opção e a segunda a URL.

Embora eu recomende uma solução baseada em Python como a de Jamie , exceto usar JSON e os recursos JSON integrados do Python em vez de bs4.

bu5hman · Answer 3 · 2018-04-03T13:06:00+08:00

Best Answer

bu5hman

2018-04-03T13:06:00+08:002018-04-03T13:06:00+08:00

Força bruta.

Se o seu xml analisado estiver embooks

while read a; read b; read c; read d; read e; do wget $c -O $b$e$d$a; echo $c; done < books

Apenas recomponha suas linhas como variáveis e você está pronto, desde que seus blocos de registro sejam preenchidos em 5 linhas.

0

Como posso obter de uma lista com várias linhas em um nome de arquivo?

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como posso obter de uma lista com várias linhas em um nome de arquivo?

3 respostas

relate perguntas