Leyla Elkhamlichi提出的问题 -coding

Leyla Elkhamlichi

Asked: 2024-11-04 18:54:27 +0800 CST

使用长数据框的条件用另一列的值填充一列

6

我想用另一列的值填充数据框，我使用条件来填充值。我想要填写的条件是当列“Essentieel_Optioneel”中的值 ==“essentieel”时，需要用 perc_essentieel_skill 填充值。当值为“optioneel”时也是如此。

当我削减这个时我得到一个错误

conditions = [
     (df1['Essentieel_Optioneel'] <= 'essentieel'),
     (df1['Essentieel_Optioneel'] <= 'optioneel')

]

values = df1[['perc_essentieel_skill','perc_essentieel_skill']]
df1['vector'] = np.select(conditions, values)

df1

    811 'list of cases must be same length as list of conditions')
    813 # Now that the dtype is known, handle the deprecated select([], []) case
    814 if len(condlist) == 0:

ValueError: list of cases must be same length as list of conditions

我觉得我的数据框太长了，我有一个 19913 * 12 列的框。

我感觉我必须使用 for 循环。

Leyla Elkhamlichi

Asked: 2024-08-30 19:19:18 +0800 CST

按特定值计数并分组

6

我有一个数据框，我想在其中计算一行中出现的特定值。下面的代码给出了正确的答案，现在我想向数据框中添加一个新列

occur = df.groupby(['Code_5elaag','Essentieel_Optioneel']).size()
occur

**Code_5elaag  Essentieel_Optioneel**
1101         essentieel               8
             optioneel                8
1102         essentieel               8
             optioneel               51
1103         essentieel               8
                                     ..
96231        optioneel                6
96232        essentieel               1
             optioneel                2
96290        essentieel               9
             optioneel               17

当我为框架分配一个新列时，这是输出：

uniq['ess'] = df.groupby(['Code_5elaag'])['Essentieel_Optioneel'].transform(np.size)

    Code_5elaag Omschrijving_5elaag Soort_Skill Aantal_skills   ess
0   1101    Officieren landmacht    taken   16  16              15
16  1102    Officieren luchtmacht   taken   59  59              59
75  1103    Officieren marechaussee taken   16  16              16

但这不是我想要的，我想将Aantal_skills的数量划分为第一行的基本和可选部分，应该是8 个基本部分和8 个可选部分

Leyla Elkhamlichi

Asked: 2024-08-09 02:13:50 +0800 CST

LinkedIn 个人资料的正则表达式

5

我想要一个函数来替换我在字符串中找到的 LinkedIn 个人资料。

例子：

你可以找到我的 linkedin https: www.linkedin.com/in/kim-zand-3126573/

使用该功能后应为：

你可以找到我的 linkedin [Linkedin]

strA ='[Linkedin]'

Def linkedin(sentence):
urlReg = "^https?:\/\/?(w{3}.)? linkedin\.\/.$"
res = re.search(urlReg, sentence)
print(res)
if res != None:
    ## replace urls
    sentence= re.sub(urlReg,strA, sentence)
return (sentence)

当我打印（res）时它没有接受字符串，我认为我的正则表达式不正确

Leyla Elkhamlichi

Asked: 2024-08-06 02:33:13 +0800 CST

使用正则表达式无法替换单词的函数

5

我有一个脚本，用于匿名化个人数据，因此当字符串中有一些以大写字母开头的单词时，它会用另一个函数替换它们（即匿名化名称）

我想编写一个函数，其中正则表达式正在查找列表中给出的单词。当字符串具有给定列表中的单词之一时，不应替换它。举个例子： Mijn naam is kim en ik heb een opleiding gevolgd aan de Universiteit van Amsterdam

因此，由于Universiteit van Amsterdam是用大写字母书写的，因此将被另一个函数匿名化。我想创建一个使用正则表达式的额外函数，当字符串与列表中的单词匹配时，将忽略包含某些单词的给定列表。
我有一个可以替代它的函数，但我希望匹配的单词被忽略。

这是 anonymizeNames **的函数

def anonymizeNames(sentence):
    '''
        :param sentence: the input sentence
        :return: the sentence without names
    '''

    ##define x
    x = ""

    ##Check naam: indication
    names0Reg = "[Aa]chternaam:|[Vv]oornaam:|[Nn]aam:|[Nn]amen:"
    res = re.search(names0Reg, sentence)
    if res != None:
        ##Achternaam:, voornaam: or naam: or namen: occurs; next Standardize
        sentence = re.sub('[Nn]amen:', 'naam:', sentence)
        sentence = re.sub('[Aa]chternaam:', 'naam:', sentence)
        sentence = re.sub('[Vv]oornaam:', 'naam:', sentence)
        sentence = re.sub('Naam:', 'naam:', sentence)

        ##Extract names
        names00Reg = "naam: [A-Za-z]+"
        x = re.findall(names00Reg, sentence)
        for y in x:
            ##remove naam:\s
            y = re.sub('naam: ', '', y)
            ##Check for tussenvoegsels
            if y in tussenVList:
                ##Add next word
                regTest = y + " " + "[A-Za-z]+"
                x2 = re.search(regTest, sentence)
                if x2 != None:
                    ##Name found
                    y = x2.group()
                    ##replace
                   sentence = re.sub(y, strz, sentence)

    ##Always check sentences for names 1
    names1Reg = "[Ii]k [Bb]en ([A-Z]{1}[a-z ]{2,})+[\\.\\,]*"
    res = re.search(names1Reg, sentence)
    if res != None:
        ##adjust result
        x = re.sub('[Ii]k [Bb]en ', '', res.group())
        x = re.sub('[\\,\\.]', '', x)
        ##use NLP to only keep names
        

    ##Always check sentences for names 2
    names2Reg = "[Mm]ijn [Nn]aam is ([A-Z]{1}[a-z\s-]{2,})+[\\.\\,]*"
    res = re.search(names2Reg, sentence)
    if res != None:
        ##adjust result
        x = re.sub('[Mm]ijn [Nn]aam is ', '', res.group())
        x = re.sub('[\\,\\.]', '', x)
        ##use NLP to only keep names
        

    ##Check for single letter followed by dot and series of letters
    if x == "":
        regNameLet = "^[A-Z]{1}\\.[A-Za-z]{2,}|\s[A-Z]{1}\\.[A-Za-z]{2,}"
        res = re.search(regNameLet, sentence)
        if res != None:
            ##replace word in sentence, first at start
            sentence = re.sub('^[A-Z]{1}\\.[A-Za-z]{2,}', strz, sentence)
            ##next in sentence with additional space
            strY = " " + strz
            sentence = re.sub('\s[A-Z]{1}\\.[A-Za-z]{2,}', strz, sentence)

    ##Check for occurence of two subsequent uppercase words (might be a name)
    if x == "":
        res = re.findall("[A-Z]{1}[a-z]{2,}\s[A-Z]{1}[a-z]{2,}", sentence)
        if res != []:
            for y in res:
                if len(y) > 1:
                    ##replace name with strX
                    sentence = re.sub(y, strz, sentence)

    ##Always recheck remaining sentence with NLP to make sure all personal info is removed
    sentence = pureNLP2(sentence)  ##pureNLP2 tries to include entity checks

    return (sentence)

这是我查找大学名称的功能，我不想用此功能替换它们

school ['Hogenschool Amsterdam', 'Universiteit van Amsterdam']
strX='xxx'

def school (sentence):
   for schoolname in school:
     res = re.findall(schoolname,sentence)
     if res !=[]:
        for y in res:
            if len(y) >1:
               sentence = replaceNice(sentence, strX, y)
      return(sentence)
print(school('Mijn naam is Kim en ik volg een opleiding aan de Universiteit van Amsterdam'))

输出：Mijn naam xxx en ik volg een opleiding aan de xxx xxx

我想要的输出是： Mijn naam is Kim en ik volg een opleiding aan de Universiteit van Amsterdam

我觉得我已经开始写了。但是当我想完成变量句子时，我有点卡住了，因为我想说如果字符串中有来自School列表的匹配单词，则不要替换它，而只是将其打印回来。

Leyla Elkhamlichi

Asked: 2023-08-17 20:51:42 +0800 CST

从列中计算百分比是表 neo4j/Cypher

5

我想计算每种职业的每种技能的百分比。我做了a有不同的节点占用和Soft_skills它们有关系[r:MAPS_TO]该关系有两个属性类型（'essentieel'，'optioneel'）和b（这种权重essentieel = 1.0和optioneel = 0.5）

请参阅下面我正在使用的文件的示例

职业	职业代码	技能代码	姓名	类型	乙
博士	sk_565	sk_687	勒伦	选项	0.5
博士	sk_565	sk_687	勒伦	选项	0.5
博士	sk_565	sk_687	勒伦	精华	1.0
博士	sk_565	sk_687	勒伦	精华	1.0

我做了一个查询，可以计算每个职业的总和，请参阅下面的查询：

match (b:BOC_beroep)-[r:MAPS_TO]-(s:Soft_Skill)                                                     
return b.beroepstitel as beroep,                             
sum(toFloat(r.b)) as sum order by sum desc                         
limit 10

这是我的输出

贝罗普	和
多克	5
卡珀	7

知道我想要达到我计算的技能类型的百分比

Dokter have in total 4 skills en the percentage of each skill is 
2/4 * 100 = 50% essentieel 
1/4 * 100 = 25% optioneel 

i was trying to make a new calculation with this query:

  MATCH (b:BOC_beroep)-[r:MAPS_TO]->(s:Soft_skill)
  WITH SUM(toFloat(r.b)) As total
  MATCH (b:BOC_beroep)-[r:MAPS_TO]->(s:Soft_Skill)
  RETURN b.beroepstitel  AS beroep, 
  (toFloat(total/(r.b)))*100 AS percent
  order by percent desc

我的输出是 Cannot split 'Long' by 'string' 我不明白错误

我受到这个问题和答案的启发，这是stackoverflow的内联链接。

使用长数据框的条件用另一列的值填充一列

按特定值计数并分组

LinkedIn 个人资料的正则表达式

使用正则表达式无法替换单词的函数

从列中计算百分比是表 neo4j/Cypher

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

Leyla Elkhamlichi's questions