AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77850833
Accepted
danday74
danday74
Asked: 2024-01-20 19:30:38 +0800 CST2024-01-20 19:30:38 +0800 CST 2024-01-20 19:30:38 +0800 CST

Como faço para dividir uma string em palavras e rastrear o índice de cada palavra (dentro da string original)?

  • 772

Eu tenho uma string:

const str = 'a string, a long string'

Quero dividi-lo em palavras (não há problema aqui) e depois rastrear o índice de cada palavra na string original.

Resultado atual:

[
  { word: 'a',      idx: 0 },
  { word: 'string', idx: 2 },
  { word: 'a',      idx: 0 },
  { word: 'long',   idx: 12 },
  { word: 'string', idx: 2 }
]

Resultado desejado:

[
  { word: 'a',      idx: 0 },
  { word: 'string', idx: 2 },
  { word: 'a',      idx: 10 },
  { word: 'long',   idx: 12 },
  { word: 'string', idx: 17 }
]

Código até agora:

const str = 'a string, a long string'

const segmenter = new Intl.Segmenter([], { granularity: 'word' })

const getWords = str => {
  const segments = segmenter.segment(str)
  return [...segments]
    .filter(s => s.isWordLike)
    .map(s => s.segment)
}

const words = getWords(str)

const result = words.map(word => ({
  word,
  idx: str.indexOf(word)
}))

console.log(result)

javascript
  • 4 4 respostas
  • 89 Views

4 respostas

  • Voted
  1. Best Answer
    jonrsharpe
    2024-01-20T19:44:27+08:002024-01-20T19:44:27+08:00

    Os objetos sobre os quais você está iterando, que contêm e segmentse it ou não isWordLike, também têmindex :

    const str = 'a string, a long string'
    
    const segmenter = new Intl.Segmenter([], { granularity: 'word' })
    
    const getWordsWithIndexes = str => {
      const segments = segmenter.segment(str)
      return [...segments]
        .filter(s => s.isWordLike)
        .map(s => ({ idx: s.index, word: s.segment }))
    }
    
    const result = getWordsWithIndexes(str)
    
    console.log(result)

    Aqui está a definição do tipo :

    interface SegmentData {
        /** A string containing the segment extracted from the original input string. */
        segment: string;
        /** The code unit index in the original input string at which the segment begins. */
        index: number;
        /** The complete input string that was segmented. */
        input: string;
        /**
         * A boolean value only if granularity is "word"; otherwise, undefined.
         * If granularity is "word", then isWordLike is true when the segment is word-like (i.e., consists of letters/numbers/ideographs/etc.); otherwise, false.
         */
        isWordLike?: boolean;
    }
    
    
    • 3
  2. KooiInc
    2024-01-20T20:23:07+08:002024-01-20T20:23:07+08:00

    Talvez uma ideia para String.matchAllrecuperar palavras e índices.

    Ou apenas reduza o Intl.Segmenter.segmentresultado.

    Algo como:

    const str = 'a string, a long string';
    
    console.log(getWordStartIndexes(str));
    console.log(segment2Words(str));
    
    function getWordStartIndexes(str) {
       return [...str.matchAll(/(\p{L}+?)([\p{Z}\p{P}]|$)/gu)]
        .map( match => ({word: match[1], index: match.index }) );
       
    }
    
    function segment2Words(str) {
      return [...new Intl.Segmenter([], { granularity: 'word' }).segment(str)]
        .reduce( (acc, {segment, index, isWordLike}) => 
          isWordLike ? [...acc, {word: segment, index}] : acc, []);
    }
    .as-console-wrapper {
        max-height: 100% !important;
    }

    • 1
  3. Alexander Nenashev
    2024-01-20T21:59:21+08:002024-01-20T21:59:21+08:00

    Você poderia tentar um regex, é 25x mais rápido que um segmentador:

    const result = [];
    'a string, a long string'.replace(/\w+/g, (word, idx) => result.push({word, idx}));
    
    result.forEach(r => console.log(JSON.stringify(r)));

    ` Chrome/120
    ---------------------------------------------------------------
    Alexander           1.00x  |  x1000000  234  239  240  245  246
    cached Segmenter   26.79x  |   x100000  627  636  643  650  663
    Segmenter          71.79x  |    x10000  168  169  170  171  177
    ---------------------------------------------------------------
    https://github.com/silentmantra/benchmark `
    

    const segmenter = new Intl.Segmenter([], { granularity: 'word' })
    
    // @benchmark Segmenter
    {
    const segmenter = new Intl.Segmenter([], { granularity: 'word' })
    
    const getWordsWithIndexes = str => {
      const segments = segmenter.segment(str)
      return [...segments]
        .filter(s => s.isWordLike)
        .map(s => ({ idx: s.index, word: s.segment }))
    }
    
    getWordsWithIndexes('a string, a long string');
    }
    
    // @benchmark cached Segmenter
    {
    const getWordsWithIndexes = str => {
      const segments = segmenter.segment(str)
      return [...segments]
        .filter(s => s.isWordLike)
        .map(s => ({ idx: s.index, word: s.segment }))
    }
    
    getWordsWithIndexes('a string, a long string');
    }
    
    // @benchmark Alexander
    const result = [];
    'a string, a long string'.replace(/\w+/g, (word, idx) => result.push({word, idx}));
    result;
    
    /*@end*/eval(atob('e2xldCBlPWRvY3VtZW50LmJvZHkucXVlcnlTZWxlY3Rvcigic2NyaXB0Iik7aWYoIWUubWF0Y2hlcygiW2JlbmNobWFya10iKSl7bGV0IHQ9ZG9jdW1lbnQuY3JlYXRlRWxlbWVudCgic2NyaXB0Iik7dC5zcmM9Imh0dHBzOi8vY2RuLmpzZGVsaXZyLm5ldC9naC9zaWxlbnRtYW50cmEvYmVuY2htYXJrL2xvYWRlci5qcyIsdC5kZWZlcj0hMCxkb2N1bWVudC5oZWFkLmFwcGVuZENoaWxkKHQpfX0='));

    • 1
  4. Nathan Rodet
    2024-01-20T19:40:12+08:002024-01-20T19:40:12+08:00

    Decompus sua string em uma matriz de objetos contendo a palavra e o índice da palavra.

    const str = 'a string, a long string';
    
    const words = str.split(' ').map((word, index) => ({ word, index }));
    
    console.log(words)
    

    Se você quiser a pontuação como uma palavra, poderá usar um regex.

    const words = str.split(/\s+|(?=\p{P})|(?<=\p{P})/u).map((word, index) => ({ word, index }));
    
    • -2

relate perguntas

  • classificação de mesclagem não está funcionando - código Javascript: não é possível encontrar o erro mesmo após a depuração

  • método select.remove() funciona estranho [fechado]

  • Sempre um 401 res em useOpenWeather () - react-open-weather lib [duplicado]

  • O elemento de entrada não possui atributo somente leitura, mas os campos ainda não podem ser editados [fechado]

  • Como editar o raio do primeiro nó de um RadialTree D3.js?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Quando devo usar um std::inplace_vector em vez de um std::vector?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Martin Hope
    Aleksandr Dubinsky Por que a correspondência de padrões com o switch no InetAddress falha com 'não cobre todos os valores de entrada possíveis'? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer Quando devo usar um std::inplace_vector em vez de um std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB Por que o GCC gera código que executa condicionalmente uma implementação SIMD? 2024-02-17 06:17:14 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve