我正在使用 R。
我发现这个网站上有关于失业数据的图表:https://www.bls.gov/charts/employment-situation/civilian-unemployment-rate.htm
我正在尝试下载该图表的数据(例如,在 R 中创建数据框)。
我首先尝试Rvest
这样做,但似乎我们不允许从该页面抓取数据。
然后我尝试手动复制数据,然后尝试使用clipr
r 包访问剪贴板,但格式却完全错误。
最后,我下载了与该图对应的 SVG 文件。我希望 SVG 文件中的某个位置包含该图的底层数据。但在手动检查源代码时,我似乎找不到任何东西。
有人知道是否可以从 SVG 文件访问底层数据吗?
当我点击“显示表格”时,我可以选择数据,粘贴到 Google 表格中(它通常非常擅长解析 html 表格),然后使用该
datapasta
包将其粘贴到 R 中以呈现为数据框。HTML 表格是存在的,并且可以访问,但根据 自动检索程序(机器人)活动,它们似乎希望在明显的非浏览器请求的User Agent
httr2
标头中提供联系详细信息。这样执行起来会更方便一些。请注意,您可能应该考虑他们的公共 API - https://www.bls.gov/developers/ - 并且还有blsR包。
这不是寻找最佳工具来抓取网站数据的问题,而是在网站上找到正确数据的问题。美国劳工统计局根据《信息自由法》的要求开展工作,因此他们的工作是为任何感兴趣的人提供数据。
在失业率部分,您将找到许多用于挖掘失业率数据的工具和资源。有一个指向文本/空格分隔文件中的原始数据的链接。这有点难处理,但还有一个“数据查找器”的链接。在我看来,数据查找器可用于从不同的调查中准确挑选出您需要的内容。这看起来很有用。它将为您提供数据图表,还可以选择将数据下载为 Excel 电子表格或 CSV 文件。