From 0da2f0c86a8558ae1bd3bc03f7c5439b0a53e95f Mon Sep 17 00:00:00 2001
From: Jianyu Huang <jianyuhuang@meta.com>
Date: Tue, 30 Apr 2024 15:33:39 -0700
Subject: [PATCH] Refactor fbgemm / llama csrc code base

Summary: Dedup and reuse the ops moved in fbgemm gpu.

Reviewed By: sryap, xintwfb, jiawenliu64

Differential Revision: D56685973

fbshipit-source-id: e3e6e27e9f3f380460f4fbf01eb3075109e37d2f
---
 fbgemm_gpu/experimental/gen_ai/test/quantize/quantize_test.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fbgemm_gpu/experimental/gen_ai/test/quantize/quantize_test.py b/fbgemm_gpu/experimental/gen_ai/test/quantize/quantize_test.py
index f126a34a6..82cb3001e 100644
--- a/fbgemm_gpu/experimental/gen_ai/test/quantize/quantize_test.py
+++ b/fbgemm_gpu/experimental/gen_ai/test/quantize/quantize_test.py
@@ -189,7 +189,7 @@ def test_tensor_with_nan(self, G_B: int, D: int, HD_L: int) -> None:
         w = wq.bfloat16() * w_scale
 
         zq_ref = (x @ w.T).to(torch.bfloat16)
-        torch.testing.assert_close(zq[:B, :], zq_ref, atol=1.0e-3, rtol=1.0e-3)
+        torch.testing.assert_close(zq[:B, :], zq_ref, atol=2.0e-3, rtol=2.0e-3)
 
     @settings(deadline=None)
     @given(