关于【csv】的问题- 第1页

tenxsoydev

Asked: 2024-12-01 06:35:35 +0800 CST

Polars Rust API 从字符串变量创建数据框/从字符串中读取带有选项的 csv

5

使用 Polars Rust API，是否可以直接从 CSV 字符串/读取器创建 DataFrame，同时指定分隔符等选项？

目前，我正在解决这个问题，通过将字符串保存到临时路径并使用读取它LazyCsvReader::new("tmp_path.csv")。

在最终的用例中，例如通过请求接收（可能很大的）CSV 数据。

use anyhow::Result;
use polars::prelude::*;

fn main() -> Result<()> {
    let csv_str = "name|age|city
Alice|30|New York
Bob|25|London";

    // Writing it to a file, but I'd prefer to read the CSV data directly.
    std::fs::write("tmp.csv", csv_str)?;
    let df = LazyCsvReader::new("tmp.csv").with_separator(b'|').finish()?.collect()?;

    // Also tried `CsvReader`, though I couldn't figure out how to make it work with a custom delimiter.
    /* let cursor = std::io::Cursor::new(csv_str);
    let df = CsvReader::new(cursor).finish()?; */

    println!("{df}");

    Ok(())
}

TimS

Asked: 2024-11-28 20:26:41 +0800 CST

将多个不同的 CSV 输入 PowerBI/PowerQuery 后拆分列

5

提前感谢您付出的时间和精力。我正在努力解决以下问题。

我想使用 Powerquery 将多个不同的 CSV 文件加载到 PowerBI 中。这些是单独的文件，我不想将它们合并到 1 个表中。我已设法设置连接，但卡在下面的阶段。我已筛选出要加载的 4 个文件并应用了 Csv.Document 函数。但是现在所有数据都在 1 列中，我想使用分号（“;”）将它们拆分，但无法使其工作。

我尝试丰富 Csv.Document 函数但不知道如何解决错误：

Hashim Aziz

Asked: 2024-11-14 04:36:33 +0800 CST

替换 CSV 文件列中的重复值

5

我有一个无标题的 CSV 文件，按第一列排序。当第二列和第三列相同时，我想将它们“折叠”为一列 - 即让最后一列留空。换句话说，这是：

0000001,11111,66666
0000002,12121,22222
0000003,33333,33333
0000004,74747,44444
0000005,12345,12345

...变成这样：

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

我尝试过各种排列组合grep和cut，但都无法奏效——我最接近的是cut -c 8-19 file.csv，它只是隔离了第 2 列和第 3 列。我觉得需要跨列执行此操作，并且需要删除值而不是整行，这使得它足够复杂，需要awk或sed，而我对这两者都不太了解，不知道如何处理它。

João Oliveira

Asked: 2024-08-01 19:03:52 +0800 CST

如何在 LaTeX 中自动对大型 CSV 表进行分页？

6

我有以下 LaTeX 文档：

\documentclass{article}

\usepackage{csvsimple}
\usepackage{adjustbox}

\begin{document}

\begin{table}[htb]\centering
    \adjustbox{max width=\textwidth}{
    \csvreader[
        respect all,
        tabular=|c|c|c|c|c|c|c|c|,
        table head=\hline ID & Project & Summary & Type & Component(s) & Description & Module & Version \\ \hline\hline,
        late after line=\\\hline
    ]{random_data.csv}{}
    {\csvcoli & \csvcolii & \csvcoliii & \csvcoliv & \csvcolv & \csvcolvi & \csvcolvii & \csvcolviii}
    }
\end{table}

\end{document}

该 CSV 文件是一个简单的 8 列 400 行文件，包含随机值，例如：

50,9,81,85,79,96,46,33
3,24,63,91,8,82,95,55
9,72,72,40,76,40,66,12
57,71,67,58,30,83,95,93
... 400 lines ...

如何将此 LaTeX 文档转换为 PDF，其中表格根据 CSV 行分为多页？

我尝试使用 longtable，但遇到了编译问题。像这样的 latex 代码非常完美，我只是真正需要分页部分。

user25439752

Asked: 2024-06-06 05:29:39 +0800 CST

pyspark.sql 读取 csv 文件时出错：警告 FileStreamSink：假设没有元数据目录。在路径中查找元数据目录时出错

5

我从 pyspark.sql 开始，尝试使用 jupyter-notebook 读取一个简单的 csv 文件。请参阅下面的代码

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .getOrCreate()

data_path = '//Users/myuser/pysparktest/'
utilization_path = data_path + '/utilization.csv'
user_df = spark.read.csv(utilization_path)

但是我收到以下无法解决的错误：

24/06/05 23:14:32 WARN FileStreamSink: Assume no metadata directory. Error while looking for metadata directory in the path: //Users/myuser/pysparktest/utilization.csv.
org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "null"
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3443)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3466)
    at org.apache.hadoop.fs.FileSystem.access$300(FileSystem.java:174)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3574)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3521)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:540)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:365)
    at org.apache.spark.sql.execution.streaming.FileStreamSink$.hasMetadata(FileStreamSink.scala:53)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:366)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:229)
    at org.apache.spark.sql.DataFrameReader.$anonfun$load$2(DataFrameReader.scala:211)
    at scala.Option.getOrElse(Option.scala:189)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
    at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:538)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
    at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
    at java.lang.Thread.run(Thread.java:750)

有人能帮我弄清楚这里缺少什么吗？

谢谢，

我尝试按照本教程安装本机 hadoop 库：

https://medium.com/@GalarnykMichael/install-spark-on-mac-pyspark-453f395f240b#.be80dcqat。

多次尝试卸载和安装spark、pyspark和jupyter。

期待：

能够读取简单的 csv 文件。

Rasec Malkic

Asked: 2024-05-20 05:07:56 +0800 CST

如何根据column1和column3中的条件删除重复项？

6

我正在尝试根据第 1 列中的 con 值从大型 csv 文件中删除重复项，但考虑到这一点：

第 3 列可以为空或有多个值，用分隔。::: 如果第 1 列中有多个重复值，则保留第 3 列中元素数量最多的记录。删除第 3-列中的数字（如果存在）。

我的输入是：

H1,H2,H3,H4
a,2,8005:::+2287:::3426,2
b,4,1111:::+15-00:::01354,1
b,4,1111:::+1500,1
c,4,2208:::+6583,9
d,5,7761:::+993733:::+53426,4
d,5,7761:::+993-733:::+53-426:::87425,4
d,5,7761:::53-426,4

我想要得到的输出是：

H1,H2,H3,H4
a,2,8005:::+2287:::3426,2
b,4,1111:::+1500:::01354,1
c,4,2208:::+6583,9
d,5,7761:::+993733:::+53426:::87425,4

我当前的脚本仅删除重复项，而无需其他考虑，因为我不知道如何混合这两个脚本以及如何添加条件以保留第 3 列中包含更多元素的记录。

awk -F, '{ gsub(/-/,"", $3); print } ' input.csv > input_without_hyphen.csv
awk -F',' -v OFS=',' '!a[$1]++' input_without_hyphen.csv > output.csv

谢谢你的帮助。

user24505045

Asked: 2024-04-20 00:59:49 +0800 CST

Rust、polars CSV：有没有办法从“impl BufRead”（或任何字节迭代器）读取 CSV？

7

我正在解析一种时髦的、专有的纯文本文件格式。

该格式包含 CSV 与非 CSV 的混合。我只对 CSV 部分感兴趣，它位于文件中的某个位置，周围是非 csv。

我想知道是否可以提供CsvReader/LazyCsvReader之类的东西，比如包含 CSV 内容的 anstd::io::BufReader甚至 a Vec<u8>，而不必提供 an AsRef<Path>（如果我没有记错的话，它必须指向一个文件）。

我想通过以下方式之一初始化 CSV 读取器：

给它一个BufReader包含我想读的行的
给它一个Vec<u8>包含我想读取的所有字节的值。

这可以完成吗？还是我必须编写一个仅包含 CSV 的临时文件？

我尝试给出CsvReader一个BufReader<File>，其中我已经将.lines()迭代器推进到了数据开始的位置。但它似乎CsvReader在读取之前将光标移动到流的开头。

maurobio

Asked: 2024-04-11 22:36:44 +0800 CST

Octave - 从 csv 格式文件读取的数据创建绘图时出错

6

我有一个 CSV 格式的文本文件，如下所示：

name,mi,km,sp
Aa,2.6,4.1843024285,3
Bb,12.7,20.4387080162,5
Cc,104,167.3720971402,9
Dd,8816,14188.0039268069,40
Ee,11669,18779.4711685469,39
Ff,77793,125195.93800795,84
Gg,103723,166926.307996846,76

第一列是字符串类型，第二列和第三列是实数值，第四列是整数数值。

我使用以下脚本来读取数据：

pkg load io
data = csv2cell("data.csv", 1)
sp = data(:,4) % Read 'sp' colunm

它看起来读起来很好，但是当我尝试使用“sp”变量中的数据创建条形图时，使用命令 bar(sp) 我收到错误：

error: bar: Y must be numeric

csv2cell 函数不是应该能够读取混合类型的数据吗？但读取后是否需要将数据转换为各自的值呢？如果是这样，我该怎么做？

预先感谢您可以提供的任何帮助。

编辑：尝试类似的东西

sn = str2num(sp)

也没有帮助，因为在这种情况下我收到了消息：

error: str2num: S must be a string or string array

然后我尝试使用

datan = str2double(data)

它只是返回一个 NaN 矩阵

我依然茫然。

Amar Gunjal

Asked: 2024-03-08 20:42:59 +0800 CST

如何从 .CSV 文件中获取文件名和二进制内容 col？

5

我正在尝试使用下面的 m 代码将 csv 数据提取到表中，但在提取时无法获取文件名列。

M代码

  let    
    Source = Folder.Files(#"Folder Path"),
    #"CombinedBinaries" = Binary.Combine (Source [Content]),
    #"ImportedText" = Lines.FromText(Text.FromBinary(CombinedBinaries)),
    #"TableFromList" = Table.FromList(ImportedText, 
    Splitter.SplitTextByDelimiter("# 
    (tab)"), null, null, ExtraValues.Error)

是否有可能通过 CSV 数据获取文件名？

Dan

Asked: 2024-01-07 09:39:33 +0800 CST

将 CSV 文件缓慢解析为向量图

7

我正在尝试读取 CSV 文件并将其解析为向量图。因此，映射的键是 CSV 中的列名称，映射的值是包含 CSV 中的值列的向量。

我使用内置函数clojure.data.csv来读取文件，尽管 CSV 文件（在此处找到）只有 32 MB，但我的代码运行速度确实相当慢。

(require '[clojure.data.csv :as csv]
         '[clojure.java.io :as io])

(defn csv->df [file-path]
  (with-open [reader (io/reader file-path)]
    (let [in-file (csv/read-csv reader)
          names (first in-file)
          data (rest in-file)]
      (zipmap (map keyword names) (apply mapv vector data)))))

(csv->df "data/flights.csv")

我怀疑我正在做一些与惰性序列相关的愚蠢的事情，因为作为 Clojure 新手，我仍然在掌握它们，但我无法确定问题的根本原因。

是否可以重组此功能，使其运行速度不至于缓慢？

Polars Rust API 从字符串变量创建数据框/从字符串中读取带有选项的 csv

将多个不同的 CSV 输入 PowerBI/PowerQuery 后拆分列

替换 CSV 文件列中的重复值

如何在 LaTeX 中自动对大型 CSV 表进行分页？

pyspark.sql 读取 csv 文件时出错：警告 FileStreamSink：假设没有元数据目录。在路径中查找元数据目录时出错

如何根据column1和column3中的条件删除重复项？

Rust、polars CSV：有没有办法从“impl BufRead”（或任何字节迭代器）读取 CSV？

Octave - 从 csv 格式文件读取的数据创建绘图时出错

如何从 .CSV 文件中获取文件名和二进制内容 col？

将 CSV 文件缓慢解析为向量图

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

问题[csv](coding)