Re: [PATCH v5 2/6] memcg: stop vmscan when enough done.

[PATCH v5 0/6] memg: better numa scanning · KAMEZAWA Hiroyuki <hidden> · 2011-08-09
[PATCH v5 1/6] memg: better numa scanning · KAMEZAWA Hiroyuki <hidden> · 2011-08-09
Re: [PATCH v5 1/6] memg: better numa scanning · Michal Hocko <hidden> · 2011-08-10
Re: [PATCH v5 1/6] memg: better numa scanning · KAMEZAWA Hiroyuki <hidden> · 2011-08-10
[PATCH] memcg: fix comment on update nodemask · KAMEZAWA Hiroyuki <hidden> · 2011-08-10
Re: [PATCH] memcg: fix comment on update nodemask · Michal Hocko <hidden> · 2011-08-11
[PATCH v5 2/6] memcg: stop vmscan when enough done. · KAMEZAWA Hiroyuki <hidden> · 2011-08-09
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · Michal Hocko <hidden> · 2011-08-10
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · KAMEZAWA Hiroyuki <hidden> · 2011-08-11
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · Michal Hocko <hidden> · 2011-08-11
[PATCH] memcg: add nr_pages argument for hierarchical reclaim · Michal Hocko <hidden> · 2011-08-12
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · KAMEZAWA Hiroyuki <hidden> · 2011-08-17
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · Michal Hocko <hidden> · 2011-08-17
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · KAMEZAWA Hiroyuki <hidden> · 2011-08-17
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · Michal Hocko <hidden> · 2011-08-18
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · KAMEZAWA Hiroyuki <hidden> · 2011-08-18
Re: [PATCH v5 2/6] memcg: stop vmscan when enough done. · Michal Hocko <hidden> · 2011-08-18
[PATCH v3] memcg: add nr_pages argument for hierarchical reclaim · Michal Hocko <hidden> · 2011-08-18
Re: [PATCH v3] memcg: add nr_pages argument for hierarchical reclaim · Johannes Weiner <hannes@cmpxchg.org> · 2011-08-18
Re: [PATCH v3] memcg: add nr_pages argument for hierarchical reclaim · Michal Hocko <hidden> · 2011-08-18
[PATCH v5 3/6] memg: vmscan pass nodemask · KAMEZAWA Hiroyuki <hidden> · 2011-08-09
Re: [PATCH v5 3/6] memg: vmscan pass nodemask · Michal Hocko <hidden> · 2011-08-10
Re: [PATCH v5 3/6] memg: vmscan pass nodemask · KAMEZAWA Hiroyuki <hidden> · 2011-08-10
[PATCH v5 4/6] memg: calculate numa weight for vmscan · KAMEZAWA Hiroyuki <hidden> · 2011-08-09
Re: [PATCH v5 4/6] memg: calculate numa weight for vmscan · Michal Hocko <hidden> · 2011-08-17
Re: [PATCH v5 4/6] memg: calculate numa weight for vmscan · KAMEZAWA Hiroyuki <hidden> · 2011-08-18
Re: [PATCH v5 4/6] memg: calculate numa weight for vmscan · Michal Hocko <hidden> · 2011-08-18
Re: [PATCH v5 4/6] memg: calculate numa weight for vmscan · KAMEZAWA Hiroyuki <hidden> · 2011-08-19
[PATCH v5 5/6] memg: vmscan select victim node by weight · KAMEZAWA Hiroyuki <hidden> · 2011-08-09
Re: [PATCH v5 5/6] memg: vmscan select victim node by weight · Michal Hocko <hidden> · 2011-08-18
[PATCH v5 6/6] memg: do target scan if unbalanced · KAMEZAWA Hiroyuki <hidden> · 2011-08-09
Re: [PATCH v5 0/6] memg: better numa scanning · Michal Hocko <hidden> · 2011-08-09
Re: [PATCH v5 0/6] memg: better numa scanning · KAMEZAWA Hiroyuki <hidden> · 2011-08-10
Re: [PATCH v5 0/6] memg: better numa scanning · KAMEZAWA Hiroyuki <hidden> · 2011-08-10
Re: [PATCH v5 0/6] memg: better numa scanning · Michal Hocko <hidden> · 2011-08-10

From: KAMEZAWA Hiroyuki <hidden>
Date: 2011-08-11 00:00:15
Also in: lkml

On Wed, 10 Aug 2011 16:14:25 +0200
Michal Hocko [off-list ref] wrote:

On Tue 09-08-11 19:09:33, KAMEZAWA Hiroyuki wrote:

quoted

memcg :avoid node fallback scan if possible.

Now, try_to_free_pages() scans all zonelist because the page allocator
should visit all zonelists...but that behavior is harmful for memcg.
Memcg just scans memory because it hits limit...no memory shortage
in pased zonelist.

For example, with following unbalanced nodes

     Node 0    Node 1
File 1G        0
Anon 200M      200M

memcg will cause swap-out from Node1 at every vmscan.

Another example, assume 1024 nodes system.
With 1024 node system, memcg will visit 1024 nodes
pages per vmscan... This is overkilling. 

This is why memcg's victim node selection logic doesn't work
as expected.

This patch is a help for stopping vmscan when we scanned enough.

Signed-off-by: KAMEZAWA Hiroyuki <redacted>

OK, I see the point. At first I was afraid that we would make a bigger
pressure on the node which triggered the reclaim but as we are selecting
t dynamically (mem_cgroup_select_victim_node) - round robin at the
moment - it should be fair in the end. More targeted node selection
should be even more efficient.

I still have a concern about resize_limit code path, though. It uses
memcg direct reclaim to get under the new limit (assuming it is lower
than the current one). 
Currently we might reclaim nr_nodes * SWAP_CLUSTER_MAX while
after your change we have it at SWAP_CLUSTER_MAX. This means that
mem_cgroup_resize_mem_limit might fail sooner on large NUMA machines
(currently it is doing 5 rounds of reclaim before it gives up). I do not
consider this to be blocker but maybe we should enhance
mem_cgroup_hierarchical_reclaim with a nr_pages argument to tell it how
much we want to reclaim (min(SWAP_CLUSTER_MAX, nr_pages)).
What do you think?

Hmm,

mem_cgroup_resize_mem_limit might fail sooner on large NUMA machines

mem_cgroup_resize_limit() just checks (curusage < prevusage), then, 
I agree reducing the number of scan/reclaim will cause that.

I agree to pass nr_pages to try_to_free_mem_cgroup_pages().


Thanks,
-Kame

--
To unsubscribe, send a message with 'unsubscribe linux-mm' in
the body to majordomo@kvack.org.  For more info on Linux MM,
see: http://www.linux-mm.org/ .
Fight unfair telecom internet charges in Canada: sign http://stopthemeter.ca/
Don't email: <a href=mailto:"dont@kvack.org"> email@kvack.org </a>

`h`	back out one level
`j`	next message in thread
`k`	previous message in thread
`l`	drill in
`Esc`	close help / fold thread tree
`?`	toggle this help