AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 79489705
Accepted
Milos Stojanovic
Milos Stojanovic
Asked: 2025-03-06 22:38:52 +0800 CST2025-03-06 22:38:52 +0800 CST 2025-03-06 22:38:52 +0800 CST

Regex para remover substrings como "Vídeo oficial", "Áudio", "Vídeo musical"... da string

  • 772

Estou tentando limpar o título do vídeo do YouTube de palavras desnecessárias como "Vídeo Oficial", "Áudio", "Vídeo Musical" etc. Preciso de ajuda para construir regex que eu possa usar. O que tentei até agora:

const regex = /\s*[-\(\[]?\s*(-|official|video|audio|lyrics|lyric|hd|full|4k|music\s+video|\d{4})\s*[\)\]]?$/gi;

Pelo que entendi, isso removeria apenas a última ocorrência de palavras-chave. O que eu fiz foi usá-lo em um loop como este:

function clearSearchTerm(title) {
    const regex = /\s*[-\(\[]?\s*(-|official|video|audio|lyrics|lyric|hd|full|4k|music\s+video|\d{4})\s*[\)\]]?$/gi;
    let newTitle;

    do {
        newTitle = title;
        title = title.replace(regex, "");
    } while (newTitle !== title);

    return title;
}

Agora funciona para mim, pois não encontrei nenhum exemplo em que não funcionasse. O que foi mencionado nos comentários é que eu tinha um problema que meu regex anterior removia palavras-chave se elas aparecessem no meio do título, o que eu acho que foi resolvido com isso. Se você tiver alguma ideia de como isso pode ser melhorado, estou todo ouvidos. Na próxima parte, escreverei exemplos do que preciso remover.

As palavras que estou tentando remover são do tipo:

Audio
Video
Lyrics
Official
Remaster
2020 (or years in general)
...

E todas essas palavras (e talvez mais) podem aparecer entre (and )ou between [and ]or depois de -. Essas palavras podem ser combinadas, por exemplo: Some title - Official Videowhich should be cleaned to be Some titleetc.

javascript
  • 2 2 respostas
  • 101 Views

2 respostas

  • Voted
  1. Best Answer
    Patrick Janser
    2025-03-07T19:29:38+08:002025-03-07T19:29:38+08:00

    Com PCRE (tipicamente em PHP), você pode evitar a repetição de palavras declarando um subpadrão e então reutilizá-lo mais tarde no padrão principal. Também é possível adicionar comentários e espaços para legibilidade com o sinalizador x :

    /
    (?(DEFINE)
      (?<words_to_drop>
        (?:
          \s*
          \b(?:Official|Video|Audio|Music|Lyrics?|Remaster(?:ed)?|HD|LP|HQ|4k|Full|Version)\b
          \s*
        )+
      )
    )
    # Finishing by - and words to remove (but not years).
    \s+[-–]\s+\g<words_to_drop>$
    | # or
    # Words or years to remove between brackets or parenthesis.
    \s*[[(](?:\g<words_to_drop>|\s*\d{4}\s*)+[\])]
    /ix
    

    Veja em ação com a explicação: https://regex101.com/r/kPeYzb/1

    Se você tiver que usar o mecanismo do JavaScript, terá que remover os espaços, comentários e copiar e colar o padrão das palavras, resultando no mesmo padrão, no estilo JavaScript:

    const pattern = /\s+[-–]\s+(?:\s*\b(?:Official|Video|Audio|Music|Lyrics?|Remaster(?:ed)?|HD|LP|HQ|4k|Full|Version)\b\s*)+$|\s*[[(](?:(?:\s*\b(?:Official|Video|Audio|Music|Lyrics?|Remaster(?:ed)?|HD|LP|HQ|4k|Full|Version)\b\s*)+|\s*\d{4}\s*)+[\])]/gi;
    

    Em ação aqui: https://regex101.com/r/kPeYzb/2

    Agora, sobre sua questão de evitar ter essa lista de palavras inseridas duas vezes no regex, é possível criar o regex a partir de uma string, com o RegExp()construtor. Isso significa que você pode ter um array de palavras (ou regexes de palavras) a partir de uma configuração:

    const input = document.getElementById('input');
    const output = document.getElementById('output');
    
    // Original commented regular expression : https://regex101.com/r/kPeYzb/1
    
    // We will build this regular expression from a custom list of words,
    // for example taken from a configuration page.
    const wordsToRemove = [
      'Official',
      'Video',
      'Audio',
      'Music',
      'Lyrics?',
      'Remaster(?:ed)?',
      'HD',
      'LP',
      'HQ',
      '4k',
      'Full',
      'Version'
    ];
    // IMPORTANT: compared to the regex syntax, if we build a RegExp instance
    //            from a string, each backslash should be escaped.
    // The regex to match multiple words from this list of words to remove.
    const regexWordsToRemove = '(?:\\s*\\b(?:' + wordsToRemove.join('|') + ')\\b\\s*)+';
    // The full regex pattern.
    const patternCleanup = '\\s+[-–]\\s+' + regexWordsToRemove + '$|\\s*[[(](?:' + regexWordsToRemove + '|\\s*\\d{4}\\s*)+[\\])]';
    // Create the regex object.
    const regexCleanup = new RegExp(patternCleanup, 'gmi');
    // Printing it should give the same result as the original regex we
    // made here: https://regex101.com/r/kPeYzb/2
    console.log(regexCleanup);
    
    function updateOutput() {
      output.value = input.value.replace(regexCleanup, '');
    }
    
    document.addEventListener('DOMContentLoaded', (loaded) => {
      // When the input changes, update the output text.
      input.addEventListener('input', updateOutput);
      
      // Update the output for the initial input value.
      updateOutput();
    });
    body {
      font-family: Arial, sans-serif;
    }
    
    .two-cols {
      display: grid;
      grid-template-columns: 1fr 1fr;
      grid-column-gap: .5em;
    }
    
    textarea {
      /* Just because the snippet space is small. */
      font-size: 0.8em;
      /* Don't wrap the text, to make comparaison easier. */
      white-space: pre;
      overflow-wrap: normal;
      overflow-x: scroll;
      box-sizing: border-box;
      width: 100%;
    }
    
    textarea[readonly] {
      color: #666;
      background: #f8f8f8;
    }
    <form id="clean-up" class="two-cols" action="#">
    
      <div>
        <label for="input">Input:</label>
        <textarea id="input" name="input"
                  placeholder="Put your text here"
                  rows="10">Some title - Official Video
    Some title [Official Video]
    Some title (Official Video)
    The Buggles - Video killed the Radio Star
    The Smashing Pumpkins - 1979 (Official Music Video)
    The Smashing Pumpkins – 1979
    1979 (Remastered 2012)
    New Order – 1963 (Lyrics)
    Paul Davis - '65 Love Affair (1981 LP Version HQ)
    Pulp - Disco 2000</textarea>
      </div>
      
      <div>
        <label for="output">Output: <small>Automatically updated</small></label>
        <textarea id="output" name="output"
                  placeholder="Modified text" readonly
                  rows="10"></textarea>
      </div>
      
    </form>

    • 3
  2. rich neadle
    2025-03-07T05:56:15+08:002025-03-07T05:56:15+08:00

    Esta regex corresponderá -a ou [ou (seguido por qualquer número de espaços literais , seguido por qualquer uma das palavras OFFICIAL VIDEO|REMASTER|LYRICS|AUDIOou um número de quatro dígitos, seguido por qualquer número de espaços seguido por um colchete de fechamento correspondente (quando aplicável).

    PADRÃO REGEX (sabor ECMAScript(JavaScript))(Sinalizadores: gmi):

    (?:-|\((?:(?<=\()(?= *[^)\n]+ *\)))|\[(?:(?<=\[)(?= *[^\]\n]+ *\]))) *(?:OFFICIAL VIDEO|REMASTER|LYRICS|AUDIO|\d{4})\s*(?:\]|\))?(?= |\n|$)
    

    Demonstração de Regex: https://regex101.com/r/Wy2I0w/8 (10 correspondências)

    NOTAS:

    • (|\[(?:(?<=\[)(?= *[^\]\n]* *\])))
    • (?:(?:...) Abra a instrução de alternância de grupo não capturado (...|...|...). Corresponda a um dos elementos na instrução de alternância separados pelo pipe ( |).
    • -Corresponder traço literal -( 1ª opção )
    • |Delimitador de elemento de alternância. Seguido pela 2ª opção.
    • \(Correspondência literal(
    • (?:Iniciar grupo não-capturador (?:...)( 2ª opção )
    • (?<=Comece a olhar para trás (?<=...) para verificar se há abertura (.
    • \(Corresponder literal (. Este caractere deve preceder este ponto de índice.
    • )Dê uma olhada de perto para trás .
    • (?=Comece a olhar para frente (?=...) para ter certeza de que há um fechamento correspondente ). Não consumirá caracteres.
    • *Corresponde a 0 ou mais ( *) espaços literais .
    • [^)\n]+ A classe de captura negada [^...] corresponde a qualquer caractere que não seja )ou nova linha \n, 1 ou mais vezes ( +).
    • *Corresponde a 0 ou mais ( *) espaços literais .
    • \)Corresponder literalmente ).
    • )Visão antecipada de perto .
    • )Fechar grupo não-capturador (2ª opção)
    • |Delimitador de elemento de alternância. Seguido pela 3ª opção.
    • \[Corresponder literalmente [.
    • (?: Iniciar grupo de não captura (?:...)( 3ª opção )
    • (?<=Comece a olhar para trás (?<=...) para verificar se há abertura.
    • \[Corresponder literalmente [.
    • )Feche *olhe para trás.
    • (?=Comece a procurar à frente para localizar o colchete de fechamento correspondente ]. Não consumirá caracteres.
    • *Corresponde a 0 ou mais espaços literais .
    • [^\]\n]+ Classe de caractere negado Corresponde a qualquer caractere que não seja ]ou nova linha \n, uma ou mais vezes ( +).
    • *Corresponde ao espaço literal 0 ou mais vezes.
    • \]Corresponder literalmente ].
    • )Visão antecipada de perto .
    • )Feche o grupo que não captura.
    • )Fechar grupo de alternância.
    • *Corresponde a 0 ou mais espaços literais .
    • (?:Comece um grupo não capturado contendo uma alternância.
    • OFFICIAL VIDEO|REMASTER|LYRICS|AUDIO|\d{4} A altenação corresponde a uma das palavras listadas ou quatro dígitos \d{4}(ano).
    • )Feche o grupo que não captura.
    • \s*Corresponde a 0 ou mais caracteres de espaço em branco \s.
    • (?:Grupo aberto não capturado contendo alternância.
    • \]|\)Corresponde a um literal ]ou a um literal ).
    • )?Feche o grupo de alternância. Torne-o opcional ( ?).
    • (?=Iniciar lookahead , não consumirá caracteres.
    • |\n|$Corresponde a um caractere de espaço literal , uma nova linha \nou fim de linha $.
    • )Visão antecipada de perto .

    CADEIA DE TESTE:

    FIRST title - Official Video 
    SECOND title [Official VIDEO]
    THIRD title (Lyrics) 
    FOURTH title - Remaster
    FIFTH title - [ Audio ]
    SIXTH title ( Lyrics ) 
    SEVENTH title (2020) 
    EIGHT title (1999)
    NINTH title (20)
    TENTH title [ 2002 ]
    ELEVENTH title [ 200 ]
    TWELFTH  title ( 1999 )
    THIRTEENTH  title ( Official Lyrics )
    FOURTEENTH  title ( Official VIDEO]
    FOURTEENTH  title ( Official VIDEO
    FOURTEENTH  title [Official VIDEO)
    FOURTEENTH  title Official VIDEO]
    

    RESULTADO:

    FIRST title 
    SECOND title 
    THIRD title  
    FOURTH title 
    FIFTH title - 
    SIXTH title  
    SEVENTH title  
    EIGHT title 
    NINTH title (20)
    TENTH title 
    ELEVENTH title [ 200 ]
    TWELFTH  title 
    THIRTEENTH  title ( Official Lyrics )
    FOURTEENTH  title ( Official VIDEO]
    FOURTEENTH  title ( Official VIDEO
    FOURTEENTH  title [Official VIDEO)
    FOURTEENTH  title Official VIDEO]
    
    • 0

relate perguntas

  • classificação de mesclagem não está funcionando - código Javascript: não é possível encontrar o erro mesmo após a depuração

  • método select.remove() funciona estranho [fechado]

  • Sempre um 401 res em useOpenWeather () - react-open-weather lib [duplicado]

  • O elemento de entrada não possui atributo somente leitura, mas os campos ainda não podem ser editados [fechado]

  • Como editar o raio do primeiro nó de um RadialTree D3.js?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve