Olá e desculpe pelo nome longo do título! Estou trabalhando com alguns dados que têm uma longa sequência de texto (algumas observações têm até ~2000 caracteres). Dentro dessas sequências pode haver uma palavra (AB/CD) que pode estar em qualquer lugar dentro da sequência. Estou tentando detectar AB/CD dentro da sequência de texto e criar uma variável binária (ABCD_present) se a palavra aparecer no texto.
Abaixo estão alguns dados de exemplo
data test;
length status $175;
infile datalines dsd dlm="|" truncover;
input ID Status$;
datalines;
1|This is example text I am using instead of real data. I am making the length of this text longer to mimic the long text strings of my data AB/CD
2|This is example AB/CD text I am using instead of real data. I am making the length of this text longer to mimic the long text strings of my data
3|This is example text I am using instead of real data. I AB/CD am making the length of this text longer to mimic the long text strings of my data
4|This is example text I am using instead of real data. I am making the length of this text longer to mimic the long text strings of my data
5|This is example text I am using instead of real data. I am making the length of this text longer to mimic the long text strings of my data
6|This is example text I am using instead of real data. I am making the length of this text longer to AB/CD mimic the long text strings of my data
;
run;
Qualquer orientação sobre isso seria adorável! Não tenho muita experiência usando longas sequências de texto.
Agradeço antecipadamente
Você pode usar a
find
função.Duas outras funções que detectam a presença de uma substring são
INDEX
ePRXMATCH