AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题

问题[csv](coding)

Martin Hope
tenxsoydev
Asked: 2024-12-01 06:35:35 +0800 CST

Polars Rust API 从字符串变量创建数据框/从字符串中读取带有选项的 csv

  • 5

使用 Polars Rust API,是否可以直接从 CSV 字符串/读取器创建 DataFrame,同时指定分隔符等选项?

目前,我正在解决这个问题,通过将字符串保存到临时路径并使用读取它LazyCsvReader::new("tmp_path.csv")。

在最终的用例中,例如通过请求接收(可能很大的)CSV 数据。

use anyhow::Result;
use polars::prelude::*;

fn main() -> Result<()> {
    let csv_str = "name|age|city
Alice|30|New York
Bob|25|London";

    // Writing it to a file, but I'd prefer to read the CSV data directly.
    std::fs::write("tmp.csv", csv_str)?;
    let df = LazyCsvReader::new("tmp.csv").with_separator(b'|').finish()?.collect()?;

    // Also tried `CsvReader`, though I couldn't figure out how to make it work with a custom delimiter.
    /* let cursor = std::io::Cursor::new(csv_str);
    let df = CsvReader::new(cursor).finish()?; */

    println!("{df}");

    Ok(())
}
csv
  • 1 个回答
  • 16 Views
Martin Hope
TimS
Asked: 2024-11-28 20:26:41 +0800 CST

将多个不同的 CSV 输入 PowerBI/PowerQuery 后拆分列

  • 5

提前感谢您付出的时间和精力。我正在努力解决以下问题。

我想使用 Powerquery 将多个不同的 CSV 文件加载到 PowerBI 中。这些是单独的文件,我不想将它们合并到 1 个表中。我已设法设置连接,但卡在下面的阶段。我已筛选出要加载的 4 个文件并应用了 Csv.Document 函数。但是现在所有数据都在 1 列中,我想使用分号(“;”)将它们拆分,但无法使其工作。

在此处输入图片描述

我尝试丰富 Csv.Document 函数但不知道如何解决错误:

在此处输入图片描述

csv
  • 1 个回答
  • 23 Views
Martin Hope
Hashim Aziz
Asked: 2024-11-14 04:36:33 +0800 CST

替换 CSV 文件列中的重复值

  • 5

我有一个无标题的 CSV 文件,按第一列排序。当第二列和第三列相同时,我想将它们“折叠”为一列 - 即让最后一列留空。换句话说,这是:

0000001,11111,66666
0000002,12121,22222
0000003,33333,33333
0000004,74747,44444
0000005,12345,12345

...变成这样:

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

我尝试过各种排列组合grep和cut,但都无法奏效——我最接近的是cut -c 8-19 file.csv,它只是隔离了第 2 列和第 3 列。我觉得需要跨列执行此操作,并且需要删除值而不是整行,这使得它足够复杂,需要awk或sed,而我对这两者都不太了解,不知道如何处理它。

csv
  • 5 个回答
  • 104 Views
Martin Hope
João Oliveira
Asked: 2024-08-01 19:03:52 +0800 CST

如何在 LaTeX 中自动对大型 CSV 表进行分页?

  • 6

我有以下 LaTeX 文档:

\documentclass{article}

\usepackage{csvsimple}
\usepackage{adjustbox}

\begin{document}

\begin{table}[htb]\centering
    \adjustbox{max width=\textwidth}{
    \csvreader[
        respect all,
        tabular=|c|c|c|c|c|c|c|c|,
        table head=\hline ID & Project & Summary & Type & Component(s) & Description & Module & Version \\ \hline\hline,
        late after line=\\\hline
    ]{random_data.csv}{}
    {\csvcoli & \csvcolii & \csvcoliii & \csvcoliv & \csvcolv & \csvcolvi & \csvcolvii & \csvcolviii}
    }
\end{table}

\end{document}

该 CSV 文件是一个简单的 8 列 400 行文件,包含随机值,例如:

50,9,81,85,79,96,46,33
3,24,63,91,8,82,95,55
9,72,72,40,76,40,66,12
57,71,67,58,30,83,95,93
... 400 lines ...

如何将此 LaTeX 文档转换为 PDF,其中表格根据 CSV 行分为多页?

我尝试使用 longtable,但遇到了编译问题。像这样的 latex 代码非常完美,我只是真正需要分页部分。

csv
  • 1 个回答
  • 8 Views
Martin Hope
user25439752
Asked: 2024-06-06 05:29:39 +0800 CST

pyspark.sql 读取 csv 文件时出错:警告 FileStreamSink:假设没有元数据目录。在路径中查找元数据目录时出错

  • 5

我从 pyspark.sql 开始,尝试使用 jupyter-notebook 读取一个简单的 csv 文件。请参阅下面的代码

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .getOrCreate()

data_path = '//Users/myuser/pysparktest/'
utilization_path = data_path + '/utilization.csv'
user_df = spark.read.csv(utilization_path)

但是我收到以下无法解决的错误:

24/06/05 23:14:32 WARN FileStreamSink: Assume no metadata directory. Error while looking for metadata directory in the path: //Users/myuser/pysparktest/utilization.csv.
org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "null"
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3443)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3466)
    at org.apache.hadoop.fs.FileSystem.access$300(FileSystem.java:174)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3574)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3521)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:540)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:365)
    at org.apache.spark.sql.execution.streaming.FileStreamSink$.hasMetadata(FileStreamSink.scala:53)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:366)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:229)
    at org.apache.spark.sql.DataFrameReader.$anonfun$load$2(DataFrameReader.scala:211)
    at scala.Option.getOrElse(Option.scala:189)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
    at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:538)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
    at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
    at java.lang.Thread.run(Thread.java:750)

有人能帮我弄清楚这里缺少什么吗?

谢谢,

我尝试按照本教程安装本机 hadoop 库:

https://medium.com/@GalarnykMichael/install-spark-on-mac-pyspark-453f395f240b#.be80dcqat。

多次尝试卸载和安装spark、pyspark和jupyter。

期待:

能够读取简单的 csv 文件。

csv
  • 1 个回答
  • 13 Views
Martin Hope
Rasec Malkic
Asked: 2024-05-20 05:07:56 +0800 CST

如何根据column1和column3中的条件删除重复项?

  • 6

我正在尝试根据第 1 列中的 con 值从大型 csv 文件中删除重复项,但考虑到这一点:

第 3 列可以为空或有多个值,用 分隔。::: 如果第 1 列中有多个重复值,则保留第 3 列中元素数量最多的记录。删除第 3-列中的数字(如果存在)。

我的输入是:

H1,H2,H3,H4
a,2,8005:::+2287:::3426,2
b,4,1111:::+15-00:::01354,1
b,4,1111:::+1500,1
c,4,2208:::+6583,9
d,5,7761:::+993733:::+53426,4
d,5,7761:::+993-733:::+53-426:::87425,4
d,5,7761:::53-426,4

我想要得到的输出是:

H1,H2,H3,H4
a,2,8005:::+2287:::3426,2
b,4,1111:::+1500:::01354,1
c,4,2208:::+6583,9
d,5,7761:::+993733:::+53426:::87425,4

我当前的脚本仅删除重复项,而无需其他考虑,因为我不知道如何混合这两个脚本以及如何添加条件以保留第 3 列中包含更多元素的记录。

awk -F, '{ gsub(/-/,"", $3); print } ' input.csv > input_without_hyphen.csv
awk -F',' -v OFS=',' '!a[$1]++' input_without_hyphen.csv > output.csv

谢谢你的帮助。

csv
  • 1 个回答
  • 24 Views
Martin Hope
user24505045
Asked: 2024-04-20 00:59:49 +0800 CST

Rust、polars CSV:有没有办法从“impl BufRead”(或任何字节迭代器)读取 CSV?

  • 7

我正在解析一种时髦的、专有的纯文本文件格式。

该格式包含 CSV 与非 CSV 的混合。我只对 CSV 部分感兴趣,它位于文件中的某个位置,周围是非 csv。

我想知道是否可以提供CsvReader/LazyCsvReader之类的东西,比如包含 CSV 内容的 anstd::io::BufReader甚至 a Vec<u8>,而不必提供 an AsRef<Path>(如果我没有记错的话,它必须指向一个文件)。

我想通过以下方式之一初始化 CSV 读取器:

  • 给它一个BufReader包含我想读的行的
  • 给它一个Vec<u8>包含我想读取的所有字节的值。

这可以完成吗?还是我必须编写一个仅包含 CSV 的临时文件?

我尝试给出CsvReader一个BufReader<File>,其中我已经将.lines()迭代器推进到了数据开始的位置。但它似乎CsvReader在读取之前将光标移动到流的开头。

csv
  • 1 个回答
  • 31 Views
Martin Hope
maurobio
Asked: 2024-04-11 22:36:44 +0800 CST

Octave - 从 csv 格式文件读取的数据创建绘图时出错

  • 6

我有一个 CSV 格式的文本文件,如下所示:

name,mi,km,sp
Aa,2.6,4.1843024285,3
Bb,12.7,20.4387080162,5
Cc,104,167.3720971402,9
Dd,8816,14188.0039268069,40
Ee,11669,18779.4711685469,39
Ff,77793,125195.93800795,84
Gg,103723,166926.307996846,76

第一列是字符串类型,第二列和第三列是实数值,第四列是整数数值。

我使用以下脚本来读取数据:

pkg load io
data = csv2cell("data.csv", 1)
sp = data(:,4) % Read 'sp' colunm

它看起来读起来很好,但是当我尝试使用“sp”变量中的数据创建条形图时,使用命令 bar(sp) 我收到错误:

error: bar: Y must be numeric

csv2cell 函数不是应该能够读取混合类型的数据吗?但读取后是否需要将数据转换为各自的值呢?如果是这样,我该怎么做?

预先感谢您可以提供的任何帮助。

编辑:尝试类似的东西

sn = str2num(sp) 

也没有帮助,因为在这种情况下我收到了消息:

error: str2num: S must be a string or string array

然后我尝试使用

datan = str2double(data)

它只是返回一个 NaN 矩阵

我依然茫然。

csv
  • 1 个回答
  • 14 Views
Martin Hope
Amar Gunjal
Asked: 2024-03-08 20:42:59 +0800 CST

如何从 .CSV 文件中获取文件名和二进制内容 col?

  • 5

电源查询

我正在尝试使用下面的 m 代码将 csv 数据提取到表中,但在提取时无法获取文件名列。

M代码

  let    
    Source = Folder.Files(#"Folder Path"),
    #"CombinedBinaries" = Binary.Combine (Source [Content]),
    #"ImportedText" = Lines.FromText(Text.FromBinary(CombinedBinaries)),
    #"TableFromList" = Table.FromList(ImportedText, 
    Splitter.SplitTextByDelimiter("# 
    (tab)"), null, null, ExtraValues.Error)

是否有可能通过 CSV 数据获取文件名?

csv
  • 1 个回答
  • 20 Views
Martin Hope
Dan
Asked: 2024-01-07 09:39:33 +0800 CST

将 CSV 文件缓慢解析为向量图

  • 7

我正在尝试读取 CSV 文件并将其解析为向量图。因此,映射的键是 CSV 中的列名称,映射的值是包含 CSV 中的值列的向量。

我使用内置函数clojure.data.csv来读取文件,尽管 CSV 文件(在此处找到)只有 32 MB,但我的代码运行速度确实相当慢。

(require '[clojure.data.csv :as csv]
         '[clojure.java.io :as io])

(defn csv->df [file-path]
  (with-open [reader (io/reader file-path)]
    (let [in-file (csv/read-csv reader)
          names (first in-file)
          data (rest in-file)]
      (zipmap (map keyword names) (apply mapv vector data)))))

(csv->df "data/flights.csv")

我怀疑我正在做一些与惰性序列相关的愚蠢的事情,因为作为 Clojure 新手,我仍然在掌握它们,但我无法确定问题的根本原因。

是否可以重组此功能,使其运行速度不至于缓慢?

csv
  • 2 个回答
  • 70 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    重新格式化数字,在固定位置插入分隔符

    • 6 个回答
  • Marko Smith

    为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会?

    • 2 个回答
  • Marko Smith

    VScode 自动卸载扩展的问题(Material 主题)

    • 2 个回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Martin Hope
    Fantastic Mr Fox msvc std::vector 实现中仅不接受可复制类型 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant 使用 chrono 查找下一个工作日 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor 构造函数的成员初始化程序可以包含另一个成员的初始化吗? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský 为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul C++20 是否进行了更改,允许从已知绑定数组“type(&)[N]”转换为未知绑定数组“type(&)[]”? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann 为什么 {2,3,10} 和 {x,3,10} (x=2) 的顺序不同? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve