Estou tentando reduzir um enorme banco de dados para usar as informações relevantes para um arquivo JSON. Tem algumas linhas muito longas (~ 400 caracteres por linha) e alguns milhares de entradas nas quais preciso omitir tudo do (
e além, tudo do http
e além, ou tudo do MISSING
e além, dependendo da linha.
A maioria das linhas não contém as ()[]
informações, mas todas contêm as http
informações. A http
informação sempre segue a ()
informação nas linhas que a contém.
Aqui está um exemplo, cortei o comprimento por razões óbvias.
PCSH10160 Attack of the Toy Tanks (3.61+!) [3.69] http://zeu
PCSH10162 Paradox Soul http://zeus.dl.playstation.net/cdn
PCSH10146 Hoggy2 http://zeus.dl.playstation.net/cdn/HP2005/
PCSB01394 Mekabolt http://zeus.dl.playstation.net/cdn/EP0
PCSH10186 Himno http://zeus.dl.playstation.net/cdn/HP2
PCSG01285 MELLKISS http://zeus.dl.playstation.net/cdn/JP0
PCSB01365 Habroxia http://zeus.dl.playstation.net/cdn/EP5
PCSE01423 Color Slayer http://zeus.dl.playstation.net/cdn
PCSE01396 Habroxia http://zeus.dl.playstation.net/cdn/UP4
PCSG01127 Sen no Hatou, Tsukisome no Kouki http://zeus.dl
PCSB01396 Tic-Tac-Letters by POWGI http://zeus.dl.playsta
PCSH10203 Gravity Duck http://zeus.dl.playstation.net
PCSH10175 Crossovers by POWGI http://zeus.dl.playstation
PCSH10169 Mixups by POWGI (3.61+!) [3.69] http://zeus.dl
PCSH10167 One Word by POWGI http://zeus.dl.playstation
PCSH10166 Word Search by POWGI http://zeus.dl.playsta
PCSH10179 Word Wheel by POWGI http://zeus.dl.playstation
PCSH10180 Wordsweeper by POWGI http://zeus.dl.playsta
PCSH10168 Word Sudoku by POWGI http://zeus.dl.playsta
PCSB00625 SENRAN KAGURA: Bon Appétit! Stacked Soundtrack ht
O resultado final deve ser
PCSH10160 Attack of the Toy Tanks
PCSH10162 Paradox Soul
PCSH10146 Hoggy2
PCSB01394 Mekabolt
PCSH10186 Himno
PCSG01285 MELLKISS
PCSB01365 Habroxia
PCSE01423 Color Slayer
PCSE01396 Habroxia
PCSG01127 Sen no Hatou, Tsukisome no Kouki
PCSB01396 Tic-Tac-Letters by POWGI
PCSH10203 Gravity Duck
PCSH10175 Crossovers by POWGI
PCSH10169 Mixups by POWGI
PCSH10167 One Word by POWGI
PCSH10166 Word Search by POWGI
PCSH10179 Word Wheel by POWGI
PCSH10180 Wordsweeper by POWGI
PCSH10168 Word Sudoku by POWGI
PCSB00625 SENRAN KAGURA: Bon Appétit! Stacked Soundtrack
Não estou preocupado com o espaçamento entre ID e título, pois isso pode ser corrigido manualmente.
Oooof. eu brinquei. Depois de executar a(s) expressão(ões) fornecida(s), notei um punhado de linhas que continham a palavra MISSING
seguida por várias informações. Existe uma maneira de incluir isso na expressão ao lado do (
e http
?
Ou como uma expressão separada, apenas tem que respeitar o caso, pois estou preocupado com a palavra "desaparecida" estar presente em um título em algum lugar e ser eliminada além do referido ponto.
PCSG00742 Kiss Ato
PCSG00744 One Piece: Burning Blood - Gold Edition
PCSG00747 Zero Escape: Zero Time Dilemma
PCSG00748 Jikkyou Powerful Pro Yakyuu 2016 MISSING KO5ifR1dQ+d7
PCSG00750 Kai-ri-Sei Million Arthur
PCSG00751 Arcana Famiglia -La Storia Della Arcana Famiglia- Ancora
PCSG00752 Touhou Soujinengi V
PCSG00753 Eikoku Tantei Mysteria: The Crown MISSING KO5ifR1dQ+d7
PCSG00756 I am Setsuna
Eu preciso omitir tudo de
(
e além, ou tudo dehttp
e alémMenu "Pesquisar" > "Substituir" (ou Ctrl+ H)
Defina "Encontrar o quê" para
\(.*?$|http.*?$
Deixe "Substituir por" vazio
Ativar "Expressão regular"
Clique em "Substituir tudo"
Antes :
Depois :
Observação:
\(.*?$|http.*?$|MISSING.*?$
Seguindo as conversas nos comentários, a expressão regular mais rápida é
\h+(?:\(|http|MISSING).+$
Leitura adicional
Melhore o desempenho (graças a @IsmaelMiguel) e responda a novos requisitos.
\h+(?:\(|http|MISSING).+$
LEAVE EMPTY
. matches newline
Explicação:
Captura de tela (antes):
Captura de tela (depois):