Posso ativar o PITR depois que o banco de dados foi usado

Question

deceze

Asked: 2013-06-20 07:23:35 +0800 CST2013-06-20 07:23:35 +0800 CST 2013-06-20 07:23:35 +0800 CST

Usando PL/R para agrupar geometrias

772

Eu tenho um banco de dados Postgres/PostGIS de geographypontos que estou tentando agrupar; o que significa que quero agrupá-los e contá-los por proximidade. Tive primeiro sucesso com a extensão kmeans Postgresql , mas o algoritmo não é ideal para o que eu preciso. Quero experimentar mais algoritmos e R parece ser a melhor escolha para isso. Eu configurei PL/R e posso chamar funções R do Postgres...

Mas e agora? Uma função R simples que retorna um escalar não é problema, mas não tenho certeza de como abordar a mesma solução kmeans em PL/R, mas implementando sozinha uma solução de algoritmo de agrupamento inteira. A extensão kmeans acima vinculada é muito acessível para mim, com uma consulta como:

    SELECT kmeans, count(*)
      FROM (
               SELECT kmeans(ARRAY[ST_X(geom), ST_Y(geom)], 5) OVER (), geom
                 FROM points
           ) AS ksub
  GROUP BY kmeans;

Como kmeans()só retorna um único int, isso é muito compreensível para mim. Mas não sei por onde começar com algumas das soluções de cluster R mais complexas . Seria melhor pós-processar todo o conjunto de resultados em R, como SELECT r_cluster((SELECT ...))? Posso usar uma WINDOWfunção, nesse caso o que eu retornaria do R e como?

Eu gostaria de ver um exemplo de código real de uma declaração e invocação de função PL/R para começar.

-- please fill in the blanks

CREATE OR REPLACE FUNCTION r_cluster()
RETURNS ? AS $$ ? $$ LANGUAGE plr;

SELECT r_cluster(?) OVER (?) FROM points;

1 respostas

Voted

deceze · Answer 1 · 2013-06-22T03:56:20+08:00

Depois de algumas experiências, cheguei a isso:

-- x and y are not actually used, they just give the function its signature
CREATE FUNCTION R_cluster_dbscan(x float8, y float8, eps float8)
RETURNS int
WINDOW
STRICT
VOLATILE
LANGUAGE plr
AS $$
    if (pg.state.firstpass == TRUE) {
        pg.state.firstpass <<- FALSE
        c <- fpc::dbscan(cbind(farg1, farg2), eps, MinPts = 2, method = "hybrid", seeds = FALSE)
        assign("cluster", c$cluster, env = .GlobalEnv)
    }

    return(cluster[prownum])
$$

Essa função de janela é chamada uma vez para cada linha e retorna o ID do cluster do registro, mas calcula o cluster apenas uma vez usando o algoritmo DBSCAN e o armazena em uma variável global. É usado como:

  SELECT c                             AS cluster_id,
         COUNT(*)                      AS place_count,
         ST_Centroid(ST_Collect(geom)) AS center
    FROM (
             SELECT R_cluster_dbscan(ST_X(geom), ST_Y(geom), 1) OVER () AS c,
                    geom
               FROM points
         ) AS sub
GROUP BY c

Et voilà, uma implementação de agrupamento DBSCAN usando PL/R. Não tenho certeza se esta é a implementação ideal, mas é uma implementação e, com sorte, algum código de amostra útil.

Usando PL/R para agrupar geometrias

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Conceder acesso a todas as tabelas para um usuário

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Usando PL/R para agrupar geometrias

1 respostas

relate perguntas