我想知道 PCI 架构是分层的这一事实。因此,即使我有两个 PCIx4 插槽,也可能无法充分利用它,因为插槽将连接在一个节点上,带宽不足以处理 2 个 PCIex4。
我的问题的背景是:我正在尝试使用八个 PCIe 1GBit 接口。我有两张带有 2 个端口的卡,一张带有 4 个端口的卡。我能够在 4 个 NIC 接口上获得最大值。激活第 5 个端口后,每 5 个接口的性能略有下降。激活第 6、7 和 8ht 接口后相同。
主要问题是:如何在一台机器上获得 PCIe 结构,“绘制”它,查看它的节点和连接,并推断出该树中最弱的节点?
每个 PCIe (v1) 通道应能轻松处理 2 x 1Gb 链路。
此时 DDR2 可以轻松处理 10Gbe 的数据速率。
一般来说,一台机器的 PCIe 布局是由芯片组决定的,如果你能从 Intel 或任何你应该能够找出瓶颈所在的人那里找到一张图表。
例如:
如果您运行的是类 Unix 操作系统,则启动时间的探测消息通常会枚举 PCI 总线上的所有内容,并为您提供有关其排列方式的指示。Linux 系统有一个
lspci
命令可以做同样的事情。如果您的总线需要更多带宽,您可能需要考虑使用带有UIO插槽的 Supermicro 服务器。使用AOC-UG-14可以让您将至少一个 4 端口千兆以太网卡保留在 PCI 总线之外。2U 主机可以有两个 UIO 插槽,再加上三个额外的 PCI 插槽,这很可能让您构建一台具有 12 个 GigE 端口的机器以全性能工作。
这里不仅涉及 PCI 架构,还涉及您的 FSB、内存带宽和所有芯片组的内部带宽。请注意 Wazoox 的评论——即使是最近的 Xeon 平台在高线路速率下也表现不佳。
通过阅读您的其他评论,我了解到您正在软件中进行数据包生成,并通过您的千兆网卡将其推出。如果您不了解如何生成数据,那么您的内存带宽很可能已经饱和。DDR2 将处理 10Gb,如果您在生成数据包时在内存中执行多个副本,那么您实际上正在执行更多的内部流量。
此外,如果所有 8 个核心都固定,那么您就没有跟上其中任何一个。无论是数据包生成过程中的中断加载还是糟糕的代码路径,都会有一些东西妨碍您。我建议先解决这个问题。分析您的代码并找出是否有任何明显的东西占用了您的大部分时间。
如果这没有帮助,并且根据您的使用要求,您可以考虑一些真正的网络处理/捕获/传输卡,例如Endace的 DAG 卡(我建议用于 PCI-e的DAG 7.5 G2/G4 ) . 这些不是中断驱动的,因此不会因中断而增加处理负载。它们本身不是网卡,因此您必须构建整个数据包和有效负载并处理 layer2 ,但这并不昂贵。
免责声明:我为 Endace 工作。