[PATCH v3] x86/mce: Avoid infinite loop for copy from user recovery

[PATCH 0/2] Fix infinite machine check loop in futex_wait_setup() · Tony Luck <tony.luck@intel.com> · 2021-01-08
[PATCH 1/2] x86/mce: Avoid infinite loop for copy from user recovery · Tony Luck <tony.luck@intel.com> · 2021-01-08
[PATCH 2/2] futex, x86/mce: Avoid double machine checks · Tony Luck <tony.luck@intel.com> · 2021-01-08
Re: [PATCH 2/2] futex, x86/mce: Avoid double machine checks · Peter Zijlstra <peterz@infradead.org> · 2021-01-08
RE: [PATCH 2/2] futex, x86/mce: Avoid double machine checks · "Luck, Tony" <tony.luck@intel.com> · 2021-01-08
Re: [PATCH 2/2] futex, x86/mce: Avoid double machine checks · Peter Zijlstra <peterz@infradead.org> · 2021-01-08
RE: [PATCH 2/2] futex, x86/mce: Avoid double machine checks · "Luck, Tony" <tony.luck@intel.com> · 2021-01-08
[PATCH v2 0/3] Fix infinite machine check loop in futex_wait_setup() · Tony Luck <tony.luck@intel.com> · 2021-01-11
[PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Tony Luck <tony.luck@intel.com> · 2021-01-11
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Andy Lutomirski <luto@amacapital.net> · 2021-01-11
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-11
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Andy Lutomirski <luto@kernel.org> · 2021-01-12
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-12
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Andy Lutomirski <luto@kernel.org> · 2021-01-12
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-12
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Andy Lutomirski <luto@kernel.org> · 2021-01-12
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-12
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Andy Lutomirski <luto@amacapital.net> · 2021-01-12
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-13
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Andy Lutomirski <luto@amacapital.net> · 2021-01-13
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-13
RE: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-13
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-13
RE: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-13
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-13
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-14
Re: [PATCH v2 1/3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-14
[PATCH v2 2/3] x86/mce: Add new return value to get_user() for machine check · Tony Luck <tony.luck@intel.com> · 2021-01-11
[PATCH v2 3/3] futex, x86/mce: Avoid double machine checks · Tony Luck <tony.luck@intel.com> · 2021-01-11
Re: [PATCH v2 0/3] Fix infinite machine check loop in futex_wait_setup() · Andy Lutomirski <luto@kernel.org> · 2021-01-14
[PATCH v3] x86/mce: Avoid infinite loop for copy from user recovery · Tony Luck <tony.luck@intel.com> · 2021-01-15
Re: [PATCH v3] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-15
Re: [PATCH v3] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-15
[PATCH v4] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-15
Re: [PATCH v4] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-15
Re: [PATCH v4] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-19
Re: [PATCH v4] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-19
Re: [PATCH v4] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-20
RE: [PATCH v4] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-20
Re: [PATCH v4] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-21
[PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-25
Re: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-26
Re: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-01-27
Re: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-28
Re: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-02-01
Re: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-02-02
RE: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-02-02
Re: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-02-02
RE: [PATCH v5] x86/mce: Avoid infinite loop for copy from user recovery · "Luck, Tony" <tony.luck@intel.com> · 2021-02-02
Re: [PATCH v3] x86/mce: Avoid infinite loop for copy from user recovery · Borislav Petkov <bp@alien8.de> · 2021-01-18

STALE1958d

From: Tony Luck <tony.luck@intel.com>
Date: 2021-01-15 00:39:23
Also in: linux-mm, lkml
Subsystem: scheduler, the rest, x86 architecture (32-bit and 64-bit), x86 mce infrastructure · Maintainers: Ingo Molnar, Peter Zijlstra, Juri Lelli, Vincent Guittot, Linus Torvalds, Thomas Gleixner, Borislav Petkov, Dave Hansen, Tony Luck

Recovery action when get_user() triggers a machine check uses the fixup
path to make get_user() return -EFAULT.  Also queue_task_work() sets up
so that kill_me_maybe() will be called on return to user mode to send a
SIGBUS to the current process.

But there are places in the kernel where the code assumes that this
EFAULT return was simply because of a page fault. The code takes some
action to fix that, and then retries the access. This results in a second
machine check.

While processing this second machine check queue_task_work() is called
again. But since this uses the same callback_head structure that
was used in the first call, the net result is an entry on the
current->task_works list that points to itself. When task_work_run()
is called it loops forever in this code:

		do {
			next = work->next;
			work->func(work);
			work = next;
			cond_resched();
		} while (work);

Add a "mce_busy" counter so that task_work_add() is only called once
per faulty page in this task.

Do not allow too many repeated machine checks, or machine checks to
a different page from the first.

Signed-off-by: Tony Luck <tony.luck@intel.com>
---

V3: Thanks to extensive commentary from Andy & Boris

Throws out the changes to get_user() and subsequent changes to core
code. Everything is now handled in the machine check code. Downside is
that we can (and do) take multiple machine checks from a single poisoned
page before generic kernel code finally gets the message that a page is
really and truly gone (but all the failed get_user() calls still return
the legacy -EFAULT code, so none of that code will ever mistakenly use
a value from a bad page). But even on an old machine that does broadcast
interrupts for each machine check things survive multiple cycles of my
test injection into a futex operation.

I picked "10" as the magic upper limit for how many times the machine
check code will allow a fault from the same page before deciding to
panic.  We can bike shed that value if you like.

 arch/x86/kernel/cpu/mce/core.c | 27 ++++++++++++++++++++-------
 include/linux/sched.h          |  1 +
 2 files changed, 21 insertions(+), 7 deletions(-)

diff --git a/arch/x86/kernel/cpu/mce/core.c b/arch/x86/kernel/cpu/mce/core.c
index 13d3f1cbda17..25daf6517dc9 100644
--- a/arch/x86/kernel/cpu/mce/core.c
+++ b/arch/x86/kernel/cpu/mce/core.c

@@ -1246,6 +1246,7 @@ static void kill_me_maybe(struct callback_head *cb)
 	struct task_struct *p = container_of(cb, struct task_struct, mce_kill_me);
 	int flags = MF_ACTION_REQUIRED;
 
+	p->mce_count = 0;
 	pr_err("Uncorrected hardware memory error in user-access at %llx", p->mce_addr);
 
 	if (!p->mce_ripv)

@@ -1266,12 +1267,24 @@ static void kill_me_maybe(struct callback_head *cb)
 	}
 }
 
-static void queue_task_work(struct mce *m, int kill_current_task)
+static void queue_task_work(struct mce *m, char *msg, int kill_current_task)
 {
-	current->mce_addr = m->addr;
-	current->mce_kflags = m->kflags;
-	current->mce_ripv = !!(m->mcgstatus & MCG_STATUS_RIPV);
-	current->mce_whole_page = whole_page(m);
+	if (current->mce_count++ == 0) {
+		current->mce_addr = m->addr;
+		current->mce_kflags = m->kflags;
+		current->mce_ripv = !!(m->mcgstatus & MCG_STATUS_RIPV);
+		current->mce_whole_page = whole_page(m);
+	}
+
+	if (current->mce_count > 10)
+		mce_panic("Too many machine checks while accessing user data", m, msg);
+
+	if (current->mce_count > 1 || (current->mce_addr >> PAGE_SHIFT) != (m->addr >> PAGE_SHIFT))
+		mce_panic("Machine checks to different user pages", m, msg);
+
+	/* Do not call task_work_add() more than once */
+	if (current->mce_count > 1)
+		return;
 
 	if (kill_current_task)
 		current->mce_kill_me.func = kill_me_now;

@@ -1414,7 +1427,7 @@ noinstr void do_machine_check(struct pt_regs *regs)
 		/* If this triggers there is no way to recover. Die hard. */
 		BUG_ON(!on_thread_stack() || !user_mode(regs));
 
-		queue_task_work(&m, kill_current_task);
+		queue_task_work(&m, msg, kill_current_task);
 
 	} else {
 		/*

@@ -1432,7 +1445,7 @@ noinstr void do_machine_check(struct pt_regs *regs)
 		}
 
 		if (m.kflags & MCE_IN_KERNEL_COPYIN)
-			queue_task_work(&m, kill_current_task);
+			queue_task_work(&m, msg, kill_current_task);
 	}
 out:
 	mce_wrmsrl(MSR_IA32_MCG_STATUS, 0);

diff --git a/include/linux/sched.h b/include/linux/sched.h
index 6e3a5eeec509..386366c9c757 100644
--- a/include/linux/sched.h
+++ b/include/linux/sched.h

@@ -1362,6 +1362,7 @@ struct task_struct {
 					mce_whole_page : 1,
 					__mce_reserved : 62;
 	struct callback_head		mce_kill_me;
+	int				mce_count;
 #endif
 
 #ifdef CONFIG_KRETPROBES

-- 
2.21.1

`h`	back out one level
`j`	next message in thread
`k`	previous message in thread
`l`	drill in
`Esc`	close help / fold thread tree
`?`	toggle this help