Como divido o loop for em 3 quadros de dados individuais?

Question

Bobby Ocean

Asked: 2024-04-12 06:23:44 +0800 CST2024-04-12 06:23:44 +0800 CST 2024-04-12 06:23:44 +0800 CST

Fórmula para o enésimo bit_count (ou contagem de população) de tamanho M

772

Estou interessado em encontrar uma fórmula simples para determinar a enésima vez que uma determinada contagem de bits ocorre na sequência de números naturais. Especificamente, qual é a relação entre Ke Nna tabela abaixo. Então, por exemplo, qual é o Nde K=123456789123456789123456789, posso dizer que Mé 50, mas qual é o N?

length = 5
for K in range(2**length):
    bits = bin(K)[2:].zfill(length)
    M    = K.bit_count() # numbers of "1"s in the binary sequence
    N    = sum(1 for i in range(K) if M==i.bit_count())
    print(f'{K: <2}',bits,M,N)

'''
K  bits  M N
0  00000 0 0
1  00001 1 0
2  00010 1 1
3  00011 2 0
4  00100 1 2
5  00101 2 1
6  00110 2 2
7  00111 3 0
8  01000 1 3
9  01001 2 3
10 01010 2 4
11 01011 3 1
12 01100 2 5
13 01101 3 2
14 01110 3 3
15 01111 4 0
16 10000 1 4
17 10001 2 6
18 10010 2 7
19 10011 3 4
20 10100 2 8
21 10101 3 5
22 10110 3 6
23 10111 4 1
24 11000 2 9
25 11001 3 7
26 11010 3 8
27 11011 4 2
28 11100 3 9
29 11101 4 3
30 11110 4 4
31 11111 5 0
...
'''

Então, parece que resolvi metade disso. Parece que

N = (K-sum(2**i for i in range(M)).bit_count()

em qualquer momento N<=M. Isto parece ser porque,

K = sum(2**i for i in range(M)) + sum(2**(M-1-i) for i in range(N))

novamente, sempre que N<=M. Parece que isso N<=Mocorre cerca de metade das vezes.

length = 5
for K in range(2**length):
    bits = bin(K)[2:].zfill(length)
    M    = K.bit_count() # numbers of "1"s in the binary sequence
    N    = sum(1 for i in range(K) if M==i.bit_count())
    if N <= M:
        A = sum(2**i for i in range(M)) + sum(2**(M-1-i) for i in range(N))
        B = (K - sum(2**i for i in range(M))).bit_count()
    else:
        A = '-'
        B = '-'
    print(f'{K: <2}',bits,M,N,A,B)

3 respostas

Voted

Dave · Answer 1 · 2024-04-12T09:26:29+08:00

Eu não conheço Python, então este é Ruby. O algoritmo deve ser fácil de traduzir. A ideia é, para cada bit definido (indo do menor para o maior), contar todos os números que são iguais à esquerda daquele bit, ter o mesmo número de bits definidos naquele bit e à sua direita, mas não tem esse pouco definido.

Percorra os bits da sua entrada do menor para o maior.
Acompanhe os bits definidos vistos e o total de bits vistos.
Conte todos os números com o mesmo número de bits definidos vistos, mas um bit definido máximo menor (do que o índice atual) cada vez que encontrar um bit definido.
Por exemplo, ao atingir o 1 menor em 10100, adicionamos 2 à contagem porque existem 2 números com 1 bit definido e um bit definido máximo menor: 10 e 01.

Código:

def g(k)
  set_bits_seen = 0
  all_bits_seen = 0
  
  total = 0
  
  while k > 0
    all_bits_seen += 1
    
    if k % 2 == 1 # cur bit is set
      set_bits_seen += 1
      if all_bits_seen > set_bits_seen
        total += n_choose_k(all_bits_seen - 1, set_bits_seen)
      end
    end
    k /= 2
  end
  return total
end

def n_choose_k(n, k)
  return 1 if k == 0 or k == n
  (k + 1 .. n).reduce(:*) / (1 .. n - k).reduce(:*)
end

Resultados:

1.upto(20) do |i|
  puts "#{i.to_s(2)}  --  #{g(i)}"
end

1  --  0
10  --  1
11  --  0
100  --  2
101  --  1
110  --  2
111  --  0
1000  --  3
1001  --  3
1010  --  4
1011  --  1
1100  --  5
1101  --  2
1110  --  3
1111  --  0
10000  --  4
10001  --  6
10010  --  7
10011  --  4
10100  --  8

E para o seu grande exemplo:

> g(123456789123456789123456789)
=> 3594960708495168399327022

Grismar · Answer 2 · 2024-04-12T08:58:48+08:00

A solução trivial:

def count_same0(k: int) -> int:
    s = 0
    m = k.bit_count()
    for n in range(k):
        if n.bit_count() == m:
            s += n
    return s

No entanto, você pode tentar gerar apenas todos os números < kcom uma contagem de bits específica e contá-los.

Aqui está uma tentativa simples de fazer exatamente isso:

def count_same1(k: int) -> int:
    from itertools import permutations
    from math import log2, floor

    m = k.bit_count()
    positions = floor(log2(k)) + 1  # the total number of bit positions 

    s = 0
    # start generating unique permutations of positions #bits
    ps = set()
    for p in permutations([0] * (positions-m) + [1] * m):
        if p not in ps:
            ps.add(p)
            n = 0
            for b in p:
                n = (n << 1) | b
            # stop when we first exceed k
            if n >= k:
                break
            s += n

    return s

Isso funciona, mas é muito ineficiente, pois ainda precisa gerar todas as permutações que não são únicas. E no final, gerar uma permutação é muito mais lento do que apenas contar os bits.

Em vez disso, talvez seja melhor gerar combinações únicas de posições para zeros para números que possuem um certo número de unidades e depois calcular esses números:

def gen_int_n_ones(n: int) -> Generator[int, None, None]:
    from itertools import combinations

    z = 0
    while True:
        bits_cs = list(combinations(range(1, n), z))
        yield from (sum(0 if i in bits else 2**(n-(i+1)) for i in range(n)) for bits in bits_cs)
        z += 1
        n += 1


def count_same2(k: int) -> int:
    s = 0
    for n in gen_int_n_ones(k.bit_count()):
        if n >= k:
            break
        s += n

    return s

No entanto, a solução ingénua utiliza operações que são tão eficientes que é mais eficiente apenas testar todos os números, em vez de descobrir quais devem ser evitados.

Tente executar isto:

def main():
    from timeit import timeit

    for x in range(1, 100):
        print(x, count_same0(x), count_same1(x), count_same2(x))
        print(
            timeit(lambda: count_same0(x), number=10000), 
            timeit(lambda: count_same1(x), number=10000), 
            timeit(lambda: count_same2(x), number=10000)
        )

Você descobrirá que count_same0é facilmente o mais rápido (na verdade, simplesmente rápido) e que count_same2é melhor que count_same1, mas não chega perto de count_same0.

Então acho que a resposta simples é realmente:

def n_for_k(k: int) -> int:
    b = k.bit_count()
    return sum(1 for i in range(k) if i.bit_count() == b)

No entanto, para o seu valor de exemplo de 123456789123456789123456789, isso levará muito tempo para ser concluído. Duvido que exista uma solução mais simples conhecida, visto que (depois de resolvê-la conforme descrito acima) também encontrei a sequência no OEIS: https://oeis.org/A079071 e basicamente define a mesma coisa. (e olhando o gráfico, não melhora muito: https://oeis.org/A079071/graph )

Quem ou o que lhe encarregou de resolvê-lo por esse valor?

no comment · Answer 3 · 2024-04-12T10:19:34+08:00

no comment

2024-04-12T10:19:34+08:002024-04-12T10:19:34+08:00

Expressando o número como uma combinação de bits e calculando o índice de combinação:

from more_itertools import combination_index
from math import comb

K = 123456789123456789123456789

M = K.bit_length()
c = [i for i, b in enumerate(f'{K:b}') if b == '1']
N = comb(M, len(c)) - 1 - combination_index(c, range(M))

print(N)

Saída (igual à de Dave):

3594960708495168399327022

Ah, droga, acabei de perceber que você está atrás de "uma fórmula simples". Ah bem. Talvez isso ainda seja útil para quem vem aqui em busca de código simples.

0

Fórmula para o enésimo bit_count (ou contagem de população) de tamanho M

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Fórmula para o enésimo bit_count (ou contagem de população) de tamanho M

3 respostas

relate perguntas