如何将 for 循环拆分为 3 个单独的数据框？

Question

Théodore Targerian

Asked: 2024-12-16 22:27:30 +0800 CST2024-12-16 22:27:30 +0800 CST 2024-12-16 22:27:30 +0800 CST

pd.read_csv() 无法与 parse_dates 一起使用

772

我正在使用Netflix 电影和电视节目数据集来更好地了解熊猫。

date_added列的格式为：“2024 年 9 月 21 日”，据我了解，它将被解析为“％B-％d-％Y”。只需使用 pd.read_csv() 读取即可将此列作为对象类型返回。

使用parse_dates=['date_added']似乎不起作用，也没有指定格式。这是我的代码：

df = pd.read_csv('netflix_titles.csv', parse_dates=['date_added'], date_format='%B-%d-%Y')
df.info()

导致：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB

我做错什么了？

4 个回答

Voted

Danila Ganchar · Answer 1 · 2024-12-16T23:02:59+08:00

我在这里发现了几个问题。

不正确（正如@iBeMeltin和@aykidate_format所写）
nan值
值中的空格

如何检查：

df = pd.read_csv('netflix_titles.csv')
for rec in df.to_dict('records'):
    try:
        datetime.strptime(rec['date_added'], '%B %d, %Y')
    except (TypeError, ValueError):
        print(rec)

# {'show_id': 's6067', 'type': 'TV Show', 'title': "A Young Doctor's Notebook and Other Stories", 'director': nan, 'cast': 'Daniel Radcliffe, Jon Hamm, Adam Godley, Christopher Godwin, Rosie Cavaliero, Vicki Pepperdine, Margaret Clunie, Tim Steed, Shaun Pye', 'country': 'United Kingdom', 'date_added': nan ...
# {'show_id': 's8756', 'type': 'TV Show', 'title': 'Women Behind Bars', 'director': nan, 'cast': nan, 'country': 'United States', 'date_added': ' November 1, 2016'...
...

如何修复：

df = pd.read_csv('netflix_titles.csv')
df['date_added'] = df['date_added'].fillna('January 1, 1970')           # default for nan. You can skip if you don't need all values as datetime
df['date_added'] = df['date_added'].str.strip()                         # remove spaces
df['date_added'] = pd.to_datetime(df['date_added'], format='%B %d, %Y') # convert to dt

df.info()

输出：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   show_id       8807 non-null   object        
 1   type          8807 non-null   object        
 2   title         8807 non-null   object        
 3   director      6173 non-null   object        
 4   cast          7982 non-null   object        
 5   country       7976 non-null   object        
 6   date_added    8807 non-null   datetime64[ns]
 7   release_year  8807 non-null   int64         
 8   rating        8803 non-null   object        
 9   duration      8804 non-null   object        
 10  listed_in     8807 non-null   object        
 11  description   8807 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(10)
memory usage: 825.8+ KB

iBeMeltin · Answer 2 · 2024-12-16T22:44:48+08:00

iBeMeltin

2024-12-16T22:44:48+08:002024-12-16T22:44:48+08:00

问题在于论点date_format。你指定%B-%d-%Y了哪个，September-21-2024但你需要指定%B %d, %Y

date_format实际上，您可以完全删除它，parse_dates因为该列已经是标准格式，所以它会为您推断格式(e.g. "YYYY-MM-DD", "MM/DD/YYYY", "Month DD, YYYY", etc.)。

通常，如果您的日期不是易于推断的标准格式，则仅需要指定日期格式。

您的代码看起来应如下所示：

df = pd.read_csv('netflix_titles.csv', parse_dates=['date_added'], date_format='%B %d, %Y')

或者

df = pd.read_csv('netflix_titles.csv', parse_dates=['date_added'])

0

ayki · Answer 3 · 2024-12-16T22:44:56+08:00

ayki

2024-12-16T22:44:56+08:002024-12-16T22:44:56+08:00

试试这个

df = pd.read_csv('netflix_titles.csv')
df['date_added'] = pd.to_datetime(df['date_added'], format='%B %d, %Y', errors='coerce')

df.info()

0

techtech · Answer 4 · 2024-12-16T22:55:10+08:00

techtech

2024-12-16T22:55:10+08:002024-12-16T22:55:10+08:00

数据集中的某些值date_added有一个前导空格。我假设不同的 pandas 版本对此有不同的处理方式。使用 pandas 2.2.3 时，iBeMeltin 的解决方案对我不起作用。然而

pd.to_datetime(df['date_added'].str.strip(), format='%B %d, %Y')

作品。

0

pd.read_csv() 无法与 parse_dates 一起使用

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

pd.read_csv() 无法与 parse_dates 一起使用

4 个回答

相关问题