[PATCH net-next 3/7] iommu/dma: avoid expensive indirect calls for sync operations

[PATCH net-next 0/7] dma: skip calling no-op sync ops when possible · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
[PATCH net-next 1/7] dma: compile-out DMA sync op calls when not used · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
Re: [PATCH net-next 1/7] dma: compile-out DMA sync op calls when not used · Christoph Hellwig <hch@lst.de> · 2024-01-29
Re: [PATCH net-next 1/7] dma: compile-out DMA sync op calls when not used · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-29
Re: [PATCH net-next 1/7] dma: compile-out DMA sync op calls when not used · Robin Murphy <robin.murphy@arm.com> · 2024-01-29
Re: [PATCH net-next 1/7] dma: compile-out DMA sync op calls when not used · Simon Horman <horms@kernel.org> · 2024-01-31
Re: [PATCH net-next 1/7] dma: compile-out DMA sync op calls when not used · Robin Murphy <robin.murphy@arm.com> · 2024-01-31
[PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Robin Murphy <robin.murphy@arm.com> · 2024-01-26
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Robin Murphy <robin.murphy@arm.com> · 2024-01-26
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Petr Tesařík <hidden> · 2024-01-26
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Robin Murphy <robin.murphy@arm.com> · 2024-01-26
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Christoph Hellwig <hch@lst.de> · 2024-01-29
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-29
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Petr Tesařík <hidden> · 2024-01-29
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-29
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Robin Murphy <robin.murphy@arm.com> · 2024-01-29
Re: [PATCH net-next 2/7] dma: avoid expensive redundant calls for sync operations · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-29
[PATCH net-next 3/7] iommu/dma: avoid expensive indirect calls for sync operations · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
[PATCH net-next 4/7] page_pool: make sure frag API fields don't span between cachelines · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
[PATCH net-next 5/7] page_pool: don't use driver-set flags field directly · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
[PATCH net-next 6/7] page_pool: check for DMA sync shortcut earlier · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26
[PATCH net-next 7/7] xsk: use generic DMA sync shortcut instead of a custom one · Alexander Lobakin <aleksander.lobakin@intel.com> · 2024-01-26

STALE850d

Revisions (6)

2024-01-26 v1 current
2024-02-05 v2 [diff vs current]
2024-02-14 v3 [diff vs current]
2024-04-23 v4 [diff vs current]
2024-05-06 v5 [diff vs current]
2024-05-07 v6 [diff vs current]

From: Alexander Lobakin <aleksander.lobakin@intel.com>
Date: 2024-01-26 13:56:07
Also in: bpf, linux-iommu, lkml
Subsystem: iommu dma-api layer, iommu subsystem, the rest · Maintainers: Robin Murphy, Joerg Roedel, Will Deacon, Linus Torvalds

From: Eric Dumazet <edumazet@google.com>

Use the new dma_map_ops::can_skip_sync() callback in IOMMU DMA. It is
enough to check only for the DMA coherence, as SWIOTLB is checked
dynamically later.

perf profile before the patch:

    18.53%  [kernel]       [k] gq_rx_skb
    14.77%  [kernel]       [k] napi_reuse_skb
     8.95%  [kernel]       [k] skb_release_data
     5.42%  [kernel]       [k] dev_gro_receive
     5.37%  [kernel]       [k] memcpy
<*>  5.26%  [kernel]       [k] iommu_dma_sync_sg_for_cpu
     4.78%  [kernel]       [k] tcp_gro_receive
<*>  4.42%  [kernel]       [k] iommu_dma_sync_sg_for_device
     4.12%  [kernel]       [k] ipv6_gro_receive
     3.65%  [kernel]       [k] gq_pool_get
     3.25%  [kernel]       [k] skb_gro_receive
     2.07%  [kernel]       [k] napi_gro_frags
     1.98%  [kernel]       [k] tcp6_gro_receive
     1.27%  [kernel]       [k] gq_rx_prep_buffers
     1.18%  [kernel]       [k] gq_rx_napi_handler
     0.99%  [kernel]       [k] csum_partial
     0.74%  [kernel]       [k] csum_ipv6_magic
     0.72%  [kernel]       [k] free_pcp_prepare
     0.60%  [kernel]       [k] __napi_poll
     0.58%  [kernel]       [k] net_rx_action
     0.56%  [kernel]       [k] read_tsc
<*>  0.50%  [kernel]       [k] __x86_indirect_thunk_r11
     0.45%  [kernel]       [k] memset

After patch, lines with <*> no longer show up, and overall
cpu usage looks much better (~60% instead of ~72%)

    25.56%  [kernel]       [k] gq_rx_skb
     9.90%  [kernel]       [k] napi_reuse_skb
     7.39%  [kernel]       [k] dev_gro_receive
     6.78%  [kernel]       [k] memcpy
     6.53%  [kernel]       [k] skb_release_data
     6.39%  [kernel]       [k] tcp_gro_receive
     5.71%  [kernel]       [k] ipv6_gro_receive
     4.35%  [kernel]       [k] napi_gro_frags
     4.34%  [kernel]       [k] skb_gro_receive
     3.50%  [kernel]       [k] gq_pool_get
     3.08%  [kernel]       [k] gq_rx_napi_handler
     2.35%  [kernel]       [k] tcp6_gro_receive
     2.06%  [kernel]       [k] gq_rx_prep_buffers
     1.32%  [kernel]       [k] csum_partial
     0.93%  [kernel]       [k] csum_ipv6_magic
     0.65%  [kernel]       [k] net_rx_action

iavf yields +10% of Mpps on Rx. This also unblocks batch allocations
of XSk buffers when IOMMU is active.

Signed-off-by: Eric Dumazet <edumazet@google.com>
Co-developed-by: Alexander Lobakin <aleksander.lobakin@intel.com>
Signed-off-by: Alexander Lobakin <aleksander.lobakin@intel.com>
---
 drivers/iommu/dma-iommu.c | 1 +
 1 file changed, 1 insertion(+)

diff --git a/drivers/iommu/dma-iommu.c b/drivers/iommu/dma-iommu.c
index 50ccc4f1ef81..86290562eda5 100644
--- a/drivers/iommu/dma-iommu.c
+++ b/drivers/iommu/dma-iommu.c

@@ -1720,6 +1720,7 @@ static const struct dma_map_ops iommu_dma_ops = {
 	.unmap_page		= iommu_dma_unmap_page,
 	.map_sg			= iommu_dma_map_sg,
 	.unmap_sg		= iommu_dma_unmap_sg,
+	.can_skip_sync		= dev_is_dma_coherent,
 	.sync_single_for_cpu	= iommu_dma_sync_single_for_cpu,
 	.sync_single_for_device	= iommu_dma_sync_single_for_device,
 	.sync_sg_for_cpu	= iommu_dma_sync_sg_for_cpu,

-- 
2.43.0

`h`	back out one level
`j`	next message in thread
`k`	previous message in thread
`l`	drill in
`Esc`	close help / fold thread tree
`?`	toggle this help