diff --git a/_modules/fbgemm_gpu/docs/examples.html b/_modules/fbgemm_gpu/docs/examples.html
index 49e32b5ff..50160594a 100644
--- a/_modules/fbgemm_gpu/docs/examples.html
+++ b/_modules/fbgemm_gpu/docs/examples.html
@@ -292,6 +292,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html b/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html
index 873a007c2..0e785d3f1 100644
--- a/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html
+++ b/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html
@@ -292,6 +292,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/_modules/index.html b/_modules/index.html
index abeefa860..c050dd68a 100644
--- a/_modules/index.html
+++ b/_modules/index.html
@@ -292,6 +292,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/_sources/fbgemm_gpu-cpp-api/experimental_ops.rst.txt b/_sources/fbgemm_gpu-cpp-api/experimental_ops.rst.txt
new file mode 100644
index 000000000..cdc5acfa8
--- /dev/null
+++ b/_sources/fbgemm_gpu-cpp-api/experimental_ops.rst.txt
@@ -0,0 +1,7 @@
+Experimental Operators
+======================
+
+Attention Operators
+-------------------
+.. doxygengroup:: experimental-gen-ai-attention
+   :content-only:
diff --git a/_sources/index.rst.txt b/_sources/index.rst.txt
index 36e3e3c8f..674d42d9b 100644
--- a/_sources/index.rst.txt
+++ b/_sources/index.rst.txt
@@ -80,6 +80,7 @@ Table of Contents
    fbgemm_gpu-cpp-api/input_combine.rst
    fbgemm_gpu-cpp-api/layout_transform_ops.rst
    fbgemm_gpu-cpp-api/embedding_ops.rst
+   fbgemm_gpu-cpp-api/experimental_ops.rst
 
 .. _fbgemm-gpu.toc.api.python:
 
diff --git a/annotated.html b/annotated.html
index 7359aeb3a..f1dc03415 100644
--- a/annotated.html
+++ b/annotated.html
@@ -76,7 +76,7 @@
 <div class="contents">
 <div class="textblock">Here are the classes, structs, unions and interfaces with brief descriptions:</div><div class="directory">
 <div class="levels">[detail level <span onclick="javascript:dynsection.toggleLevel(1);">1</span><span onclick="javascript:dynsection.toggleLevel(2);">2</span>]</div><table class="directory">
-<tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="dynsection.toggleFolder('0_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><b>fbgemm</b></td><td class="desc"></td></tr>
+<tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="dynsection.toggleFolder('0_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacefbgemm.html" target="_self">fbgemm</a></td><td class="desc"></td></tr>
 <tr id="row_0_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html" target="_self">BCSRMatrix</a></td><td class="desc"></td></tr>
 <tr id="row_0_1_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm_1_1block__type__t.html" target="_self">block_type_t</a></td><td class="desc">A struct to represent a block of a matrix </td></tr>
 <tr id="row_0_2_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm_1_1_blocking_factors.html" target="_self">BlockingFactors</a></td><td class="desc">Helper struct to enable autotuning of FBGEMM packing and kernels </td></tr>
diff --git a/classes.html b/classes.html
index de7f3993c..6d319d60a 100644
--- a/classes.html
+++ b/classes.html
@@ -78,34 +78,34 @@
 <div class="classindex">
 <dl class="classindex even">
 <dt class="alphachar"><a id="letter_B" name="letter_B">B</a></dt>
-<dd><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html">BCSRMatrix</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html">BCSRMatrix</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex odd">
 <dt class="alphachar"><a id="letter_C" name="letter_C">C</a></dt>
-<dd><a class="el" href="classfbgemm_1_1_code_cache.html">CodeCache</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_code_gen_base.html">CodeGenBase</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a> (fbgemm_gpu)</dd><dd><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="classfbgemm_1_1_code_cache.html">CodeCache</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_code_gen_base.html">CodeGenBase</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a> (fbgemm_gpu)</dd><dd><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex even">
 <dt class="alphachar"><a id="letter_D" name="letter_D">D</a></dt>
-<dd><a class="el" href="classfbgemm_1_1_do_nothing.html">DoNothing</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_do_s_conv_on_inp_buffer.html">DoSConvOnInpBuffer</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_do_spmdm_on_inp_buffer.html">DoSpmdmOnInpBuffer</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="classfbgemm_1_1_do_nothing.html">DoNothing</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_do_s_conv_on_inp_buffer.html">DoSConvOnInpBuffer</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_do_spmdm_on_inp_buffer.html">DoSpmdmOnInpBuffer</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex odd">
 <dt class="alphachar"><a id="letter_E" name="letter_E">E</a></dt>
-<dd><a class="el" href="classfbgemm_1_1_execute_kernel.html">ExecuteKernel</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html">ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="classfbgemm_1_1_execute_kernel.html">ExecuteKernel</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html">ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex even">
 <dt class="alphachar"><a id="letter_I" name="letter_I">I</a></dt>
-<dd><a class="el" href="structis__16or32bit.html">is_16or32bit</a></dd><dd><a class="el" href="structfbgemm_1_1is__8bit.html">is_8bit</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="structis__16or32bit.html">is_16or32bit</a></dd><dd><a class="el" href="structfbgemm_1_1is__8bit.html">is_8bit</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex odd">
 <dt class="alphachar"><a id="letter_M" name="letter_M">M</a></dt>
-<dd><a class="el" href="classfbgemm_1_1mem_copy.html">memCopy</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="classfbgemm_1_1mem_copy.html">memCopy</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex even">
 <dt class="alphachar"><a id="letter_P" name="letter_P">P</a></dt>
-<dd><a class="el" href="classfbgemm_1_1_pack_a_matrix.html">PackAMatrix</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_pack_a_with_im2_col.html">PackAWithIm2Col</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_packed_gemm_matrix_b.html">PackedGemmMatrixB</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1_packing_traits.html">PackingTraits</a> (fbgemm)</dd><dd><a class="el" href="struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html">PackingTraits&lt; float, float, inst_set_t::avx2 &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01float16_00_01float_00_01inst__set__t_1_1avx2_01_4.html">PackingTraits&lt; float16, float, inst_set_t::avx2 &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html">PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html">PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html">PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html">PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html">PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html">PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html">PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html">PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html">PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="classfbgemm_1_1_pack_a_matrix.html">PackAMatrix</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_pack_a_with_im2_col.html">PackAWithIm2Col</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_packed_gemm_matrix_b.html">PackedGemmMatrixB</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1_packing_traits.html">PackingTraits</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html">PackingTraits&lt; float, float, inst_set_t::avx2 &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01float16_00_01float_00_01inst__set__t_1_1avx2_01_4.html">PackingTraits&lt; float16, float, inst_set_t::avx2 &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html">PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html">PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html">PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html">PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html">PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html">PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html">PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html">PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html">PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;</a></dd><dd><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex odd">
 <dt class="alphachar"><a id="letter_R" name="letter_R">R</a></dt>
-<dd><a class="el" href="classfbgemm_1_1_relu_output.html">ReluOutput</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1requantization_for_float_params__t.html">requantizationForFloatParams_t</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1_requantization_params.html">RequantizationParams</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_re_quantize_for_float.html">ReQuantizeForFloat</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="classfbgemm_1_1_relu_output.html">ReluOutput</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1requantization_for_float_params__t.html">requantizationForFloatParams_t</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1_requantization_params.html">RequantizationParams</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_re_quantize_for_float.html">ReQuantizeForFloat</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex even">
 <dt class="alphachar"><a id="letter_S" name="letter_S">S</a></dt>
-<dd><a class="el" href="classfbgemm_1_1_scale_o_p.html">ScaleOP</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a> (fbgemm)</dd><dd><a class="el" href="classfbgemm_1_1_sparse_ada_grad_signature.html">SparseAdaGradSignature</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="classfbgemm_1_1_scale_o_p.html">ScaleOP</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="classfbgemm_1_1_sparse_ada_grad_signature.html">SparseAdaGradSignature</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 <dl class="classindex odd">
 <dt class="alphachar"><a id="letter_T" name="letter_T">T</a></dt>
-<dd><a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a> (fbgemm)</dd><dd><a class="el" href="structfbgemm_1_1thread__type__t.html">thread_type_t</a> (fbgemm)</dd></dl>
+<dd><a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd><dd><a class="el" href="structfbgemm_1_1thread__type__t.html">thread_type_t</a> (<a class="el" href="namespacefbgemm.html">fbgemm</a>)</dd></dl>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
diff --git a/classfbgemm_1_1_code_cache-members.html b/classfbgemm_1_1_code_cache-members.html
index b46b89adc..1e74f80b9 100644
--- a/classfbgemm_1_1_code_cache-members.html
+++ b/classfbgemm_1_1_code_cache-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_cache.html">CodeCache</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_cache.html">CodeCache</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_code_cache.html b/classfbgemm_1_1_code_cache.html
index 70fa3bbe7..aa34b1115 100644
--- a/classfbgemm_1_1_code_cache.html
+++ b/classfbgemm_1_1_code_cache.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_cache.html">CodeCache</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_cache.html">CodeCache</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_code_gen_base-members.html b/classfbgemm_1_1_code_gen_base-members.html
index 53b19055c..1c7b7f106 100644
--- a/classfbgemm_1_1_code_gen_base-members.html
+++ b/classfbgemm_1_1_code_gen_base-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_gen_base.html">CodeGenBase</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_gen_base.html">CodeGenBase</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_code_gen_base.html b/classfbgemm_1_1_code_gen_base.html
index 432d787b1..3014194cd 100644
--- a/classfbgemm_1_1_code_gen_base.html
+++ b/classfbgemm_1_1_code_gen_base.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_gen_base.html">CodeGenBase</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_code_gen_base.html">CodeGenBase</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -86,7 +86,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="pub-methods" name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:af00d94622211a89e6568e05d9b63850a" id="r_af00d94622211a89e6568e05d9b63850a"><td class="memTemplParams" colspan="2">template&lt;inst_set_t instSet&gt; </td></tr>
+<tr class="memitem:af00d94622211a89e6568e05d9b63850a" id="r_af00d94622211a89e6568e05d9b63850a"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="namespacefbgemm.html#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet&gt; </td></tr>
 <tr class="memitem:af00d94622211a89e6568e05d9b63850a"><td class="memTemplItemLeft" align="right" valign="top">jit_micro_kernel_fp&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#af00d94622211a89e6568e05d9b63850a">getOrCreate</a> (bool accum, int32_t mc, int32_t nc, int32_t kc)</td></tr>
 <tr class="separator:af00d94622211a89e6568e05d9b63850a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:aa2af59748852e0ff4bfec95c946cbcc9" id="r_aa2af59748852e0ff4bfec95c946cbcc9"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#aa2af59748852e0ff4bfec95c946cbcc9">genComputeBlock</a> (x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)</td></tr>
@@ -375,7 +375,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af00d94622211a89e6568e05d
 <div class="memtemplate">
 template&lt;typename TA , typename TB , typename TC , typename accT &gt; </div>
 <div class="memtemplate">
-template&lt;inst_set_t instSet&gt; </div>
+template&lt;<a class="el" href="namespacefbgemm.html#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">jit_micro_kernel_fp getOrCreate </td>
diff --git a/classfbgemm_1_1_compressed_sparse_column-members.html b/classfbgemm_1_1_compressed_sparse_column-members.html
index fbfc6c33a..56d057908 100644
--- a/classfbgemm_1_1_compressed_sparse_column-members.html
+++ b/classfbgemm_1_1_compressed_sparse_column-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_compressed_sparse_column.html b/classfbgemm_1_1_compressed_sparse_column.html
index 9a856ba43..85bd4a8e3 100644
--- a/classfbgemm_1_1_compressed_sparse_column.html
+++ b/classfbgemm_1_1_compressed_sparse_column.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_do_nothing-members.html b/classfbgemm_1_1_do_nothing-members.html
index 365743224..bfe20c224 100644
--- a/classfbgemm_1_1_do_nothing-members.html
+++ b/classfbgemm_1_1_do_nothing-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_nothing.html">DoNothing</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_nothing.html">DoNothing</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_do_nothing.html b/classfbgemm_1_1_do_nothing.html
index 1aa9a529b..278b6bebd 100644
--- a/classfbgemm_1_1_do_nothing.html
+++ b/classfbgemm_1_1_do_nothing.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_nothing.html">DoNothing</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_nothing.html">DoNothing</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_do_s_conv_on_inp_buffer-members.html b/classfbgemm_1_1_do_s_conv_on_inp_buffer-members.html
index 827cecfa3..e2fa9a79a 100644
--- a/classfbgemm_1_1_do_s_conv_on_inp_buffer-members.html
+++ b/classfbgemm_1_1_do_s_conv_on_inp_buffer-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_s_conv_on_inp_buffer.html">DoSConvOnInpBuffer</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_s_conv_on_inp_buffer.html">DoSConvOnInpBuffer</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_do_s_conv_on_inp_buffer.html b/classfbgemm_1_1_do_s_conv_on_inp_buffer.html
index f099d0502..a9bc1b37e 100644
--- a/classfbgemm_1_1_do_s_conv_on_inp_buffer.html
+++ b/classfbgemm_1_1_do_s_conv_on_inp_buffer.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_s_conv_on_inp_buffer.html">DoSConvOnInpBuffer</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_s_conv_on_inp_buffer.html">DoSConvOnInpBuffer</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_do_spmdm_on_inp_buffer-members.html b/classfbgemm_1_1_do_spmdm_on_inp_buffer-members.html
index c96b6027b..df9bbf7ff 100644
--- a/classfbgemm_1_1_do_spmdm_on_inp_buffer-members.html
+++ b/classfbgemm_1_1_do_spmdm_on_inp_buffer-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_spmdm_on_inp_buffer.html">DoSpmdmOnInpBuffer</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_spmdm_on_inp_buffer.html">DoSpmdmOnInpBuffer</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_do_spmdm_on_inp_buffer.html b/classfbgemm_1_1_do_spmdm_on_inp_buffer.html
index 28ee0a7ef..89d6e3b23 100644
--- a/classfbgemm_1_1_do_spmdm_on_inp_buffer.html
+++ b/classfbgemm_1_1_do_spmdm_on_inp_buffer.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_spmdm_on_inp_buffer.html">DoSpmdmOnInpBuffer</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_do_spmdm_on_inp_buffer.html">DoSpmdmOnInpBuffer</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_execute_kernel-members.html b/classfbgemm_1_1_execute_kernel-members.html
index 0d2d2fcaf..5d8a4895d 100644
--- a/classfbgemm_1_1_execute_kernel-members.html
+++ b/classfbgemm_1_1_execute_kernel-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel.html">ExecuteKernel</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel.html">ExecuteKernel</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_execute_kernel.html b/classfbgemm_1_1_execute_kernel.html
index 3088bc80e..f001506ce 100644
--- a/classfbgemm_1_1_execute_kernel.html
+++ b/classfbgemm_1_1_execute_kernel.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel.html">ExecuteKernel</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel.html">ExecuteKernel</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html b/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html
index f12dbbf80..047886a4b 100644
--- a/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html
+++ b/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html">ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html">ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenamed4eae1e4a482e951633b3f2b3cce49d.html b/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenamed4eae1e4a482e951633b3f2b3cce49d.html
index c00604989..d2d9f071e 100644
--- a/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenamed4eae1e4a482e951633b3f2b3cce49d.html
+++ b/classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenamed4eae1e4a482e951633b3f2b3cce49d.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html">ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html">ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_a_matrix-members.html b/classfbgemm_1_1_pack_a_matrix-members.html
index 84ffea69b..0f0752aba 100644
--- a/classfbgemm_1_1_pack_a_matrix-members.html
+++ b/classfbgemm_1_1_pack_a_matrix-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_matrix.html">PackAMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_matrix.html">PackAMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_a_matrix.html b/classfbgemm_1_1_pack_a_matrix.html
index d5495ef51..d7a3c487f 100644
--- a/classfbgemm_1_1_pack_a_matrix.html
+++ b/classfbgemm_1_1_pack_a_matrix.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_matrix.html">PackAMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_matrix.html">PackAMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_a_with_im2_col-members.html b/classfbgemm_1_1_pack_a_with_im2_col-members.html
index b056f9c0a..6f410972d 100644
--- a/classfbgemm_1_1_pack_a_with_im2_col-members.html
+++ b/classfbgemm_1_1_pack_a_with_im2_col-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_im2_col.html">PackAWithIm2Col</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_im2_col.html">PackAWithIm2Col</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_a_with_im2_col.html b/classfbgemm_1_1_pack_a_with_im2_col.html
index 463c03180..e10a83c99 100644
--- a/classfbgemm_1_1_pack_a_with_im2_col.html
+++ b/classfbgemm_1_1_pack_a_with_im2_col.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_im2_col.html">PackAWithIm2Col</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_im2_col.html">PackAWithIm2Col</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_a_with_quant_row_offset-members.html b/classfbgemm_1_1_pack_a_with_quant_row_offset-members.html
index fe40eadaa..72ae014e2 100644
--- a/classfbgemm_1_1_pack_a_with_quant_row_offset-members.html
+++ b/classfbgemm_1_1_pack_a_with_quant_row_offset-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_a_with_quant_row_offset.html b/classfbgemm_1_1_pack_a_with_quant_row_offset.html
index 053822f91..f5cbc2dbc 100644
--- a/classfbgemm_1_1_pack_a_with_quant_row_offset.html
+++ b/classfbgemm_1_1_pack_a_with_quant_row_offset.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -96,7 +96,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="pub-methods" name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a44ca398424d2d534802de6b892bf3a6a" id="r_a44ca398424d2d534802de6b892bf3a6a"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a44ca398424d2d534802de6b892bf3a6a">PackAWithQuantRowOffset</a> (matrix_op_t trans, std::int32_t nRow, std::int32_t nCol, const float *smat, std::int32_t ld, inpType *pmat=nullptr, float scale=1.0f, std::int32_t zero_pt=0, int groups=1, std::int32_t *row_offset=nullptr, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *params=nullptr)</td></tr>
+<tr class="memitem:a44ca398424d2d534802de6b892bf3a6a" id="r_a44ca398424d2d534802de6b892bf3a6a"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a44ca398424d2d534802de6b892bf3a6a">PackAWithQuantRowOffset</a> (<a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a> trans, std::int32_t nRow, std::int32_t nCol, const float *smat, std::int32_t ld, inpType *pmat=nullptr, float scale=1.0f, std::int32_t zero_pt=0, int groups=1, std::int32_t *row_offset=nullptr, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *params=nullptr)</td></tr>
 <tr class="separator:a44ca398424d2d534802de6b892bf3a6a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a354db6b6efb4336767afa41583a96082" id="r_a354db6b6efb4336767afa41583a96082"><td class="memItemLeft" align="right" valign="top">bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a354db6b6efb4336767afa41583a96082">isPrePacked</a> () const</td></tr>
 <tr class="separator:a354db6b6efb4336767afa41583a96082"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -166,7 +166,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a44ca398424d2d534802de6b8
         <tr>
           <td class="memname"><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a> </td>
           <td>(</td>
-          <td class="paramtype">matrix_op_t</td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a></td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
diff --git a/classfbgemm_1_1_pack_a_with_row_offset-members.html b/classfbgemm_1_1_pack_a_with_row_offset-members.html
index 9a1e092a3..f230ad8cc 100644
--- a/classfbgemm_1_1_pack_a_with_row_offset-members.html
+++ b/classfbgemm_1_1_pack_a_with_row_offset-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_a_with_row_offset.html b/classfbgemm_1_1_pack_a_with_row_offset.html
index 68ce9f10b..d76410d06 100644
--- a/classfbgemm_1_1_pack_a_with_row_offset.html
+++ b/classfbgemm_1_1_pack_a_with_row_offset.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -96,7 +96,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="pub-methods" name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a8dceb15ed761dfbf804244ffd2fc7f66" id="r_a8dceb15ed761dfbf804244ffd2fc7f66"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a8dceb15ed761dfbf804244ffd2fc7f66">PackAWithRowOffset</a> (matrix_op_t trans, std::uint32_t nRow, std::uint32_t nCol, const T *smat, std::uint32_t ld, inpType *pmat=nullptr, int groups=1, std::int32_t *row_offset=nullptr, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *params=nullptr)</td></tr>
+<tr class="memitem:a8dceb15ed761dfbf804244ffd2fc7f66" id="r_a8dceb15ed761dfbf804244ffd2fc7f66"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a8dceb15ed761dfbf804244ffd2fc7f66">PackAWithRowOffset</a> (<a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a> trans, std::uint32_t nRow, std::uint32_t nCol, const T *smat, std::uint32_t ld, inpType *pmat=nullptr, int groups=1, std::int32_t *row_offset=nullptr, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *params=nullptr)</td></tr>
 <tr class="separator:a8dceb15ed761dfbf804244ffd2fc7f66"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a354db6b6efb4336767afa41583a96082" id="r_a354db6b6efb4336767afa41583a96082"><td class="memItemLeft" align="right" valign="top">bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a354db6b6efb4336767afa41583a96082">isPrePacked</a> () const</td></tr>
 <tr class="separator:a354db6b6efb4336767afa41583a96082"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -166,7 +166,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8dceb15ed761dfbf804244ff
         <tr>
           <td class="memname"><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a> </td>
           <td>(</td>
-          <td class="paramtype">matrix_op_t</td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a></td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
diff --git a/classfbgemm_1_1_pack_b_matrix-members.html b/classfbgemm_1_1_pack_b_matrix-members.html
index 09c594d5d..0f2a83469 100644
--- a/classfbgemm_1_1_pack_b_matrix-members.html
+++ b/classfbgemm_1_1_pack_b_matrix-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_b_matrix.html b/classfbgemm_1_1_pack_b_matrix.html
index 97f45a223..469be1b39 100644
--- a/classfbgemm_1_1_pack_b_matrix.html
+++ b/classfbgemm_1_1_pack_b_matrix.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -96,7 +96,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="pub-methods" name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a1afee702206695dfcd20de0474408b07" id="r_a1afee702206695dfcd20de0474408b07"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a1afee702206695dfcd20de0474408b07">PackBMatrix</a> (matrix_op_t trans, std::int32_t nRow, std::int32_t nCol, const inpType *smat, std::int32_t ld, inpType *pmat=nullptr, int groups=1, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *params=nullptr)</td></tr>
+<tr class="memitem:a1afee702206695dfcd20de0474408b07" id="r_a1afee702206695dfcd20de0474408b07"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a1afee702206695dfcd20de0474408b07">PackBMatrix</a> (<a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a> trans, std::int32_t nRow, std::int32_t nCol, const inpType *smat, std::int32_t ld, inpType *pmat=nullptr, int groups=1, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *params=nullptr)</td></tr>
 <tr class="separator:a1afee702206695dfcd20de0474408b07"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a354db6b6efb4336767afa41583a96082" id="r_a354db6b6efb4336767afa41583a96082"><td class="memItemLeft" align="right" valign="top">bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a354db6b6efb4336767afa41583a96082">isPrePacked</a> () const</td></tr>
 <tr class="separator:a354db6b6efb4336767afa41583a96082"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -166,7 +166,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1afee702206695dfcd20de04
         <tr>
           <td class="memname"><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a> </td>
           <td>(</td>
-          <td class="paramtype">matrix_op_t</td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a></td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
diff --git a/classfbgemm_1_1_pack_matrix-members.html b/classfbgemm_1_1_pack_matrix-members.html
index 953ab6b91..ee3ca0e56 100644
--- a/classfbgemm_1_1_pack_matrix-members.html
+++ b/classfbgemm_1_1_pack_matrix-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_matrix.html b/classfbgemm_1_1_pack_matrix.html
index 83100c644..df8ecedd5 100644
--- a/classfbgemm_1_1_pack_matrix.html
+++ b/classfbgemm_1_1_pack_matrix.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_weight_matrix_for_g_conv-members.html b/classfbgemm_1_1_pack_weight_matrix_for_g_conv-members.html
index 8e333ccb4..40a8b278b 100644
--- a/classfbgemm_1_1_pack_weight_matrix_for_g_conv-members.html
+++ b/classfbgemm_1_1_pack_weight_matrix_for_g_conv-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_weight_matrix_for_g_conv.html b/classfbgemm_1_1_pack_weight_matrix_for_g_conv.html
index 560821e19..93f1dc6eb 100644
--- a/classfbgemm_1_1_pack_weight_matrix_for_g_conv.html
+++ b/classfbgemm_1_1_pack_weight_matrix_for_g_conv.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -87,7 +87,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="pub-methods" name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ac4aac545b455c64f161fc78ac724d3e3" id="r_ac4aac545b455c64f161fc78ac724d3e3"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ac4aac545b455c64f161fc78ac724d3e3">PackWeightMatrixForGConv</a> (matrix_op_t trans, const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;conv_param, const inpType *sdata, inpType *pdata=nullptr)</td></tr>
+<tr class="memitem:ac4aac545b455c64f161fc78ac724d3e3" id="r_ac4aac545b455c64f161fc78ac724d3e3"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ac4aac545b455c64f161fc78ac724d3e3">PackWeightMatrixForGConv</a> (<a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a> trans, const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;conv_param, const inpType *sdata, inpType *pdata=nullptr)</td></tr>
 <tr class="separator:ac4aac545b455c64f161fc78ac724d3e3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a915ffc82b17862ab1d2a466a79d23a3f" id="r_a915ffc82b17862ab1d2a466a79d23a3f"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a915ffc82b17862ab1d2a466a79d23a3f">pack</a> ()</td></tr>
 <tr class="separator:a915ffc82b17862ab1d2a466a79d23a3f"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -111,7 +111,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac4aac545b455c64f161fc78a
         <tr>
           <td class="memname"><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a> </td>
           <td>(</td>
-          <td class="paramtype">matrix_op_t</td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a></td>          <td class="paramname"><span class="paramname"><em>trans</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
diff --git a/classfbgemm_1_1_pack_weights_for_conv-members.html b/classfbgemm_1_1_pack_weights_for_conv-members.html
index e75dd1ace..5ef2caf7b 100644
--- a/classfbgemm_1_1_pack_weights_for_conv-members.html
+++ b/classfbgemm_1_1_pack_weights_for_conv-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_pack_weights_for_conv.html b/classfbgemm_1_1_pack_weights_for_conv.html
index ea581337f..90422940f 100644
--- a/classfbgemm_1_1_pack_weights_for_conv.html
+++ b/classfbgemm_1_1_pack_weights_for_conv.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_packed_gemm_matrix_b-members.html b/classfbgemm_1_1_packed_gemm_matrix_b-members.html
index 325848192..ca26610fd 100644
--- a/classfbgemm_1_1_packed_gemm_matrix_b-members.html
+++ b/classfbgemm_1_1_packed_gemm_matrix_b-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_packed_gemm_matrix_b.html">PackedGemmMatrixB</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_packed_gemm_matrix_b.html">PackedGemmMatrixB</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_packed_gemm_matrix_b.html b/classfbgemm_1_1_packed_gemm_matrix_b.html
index b52c20374..9f0d5aeef 100644
--- a/classfbgemm_1_1_packed_gemm_matrix_b.html
+++ b/classfbgemm_1_1_packed_gemm_matrix_b.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_packed_gemm_matrix_b.html">PackedGemmMatrixB</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_packed_gemm_matrix_b.html">PackedGemmMatrixB</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_re_quantize_for_float-members.html b/classfbgemm_1_1_re_quantize_for_float-members.html
index 3c2259dc2..6a7702301 100644
--- a/classfbgemm_1_1_re_quantize_for_float-members.html
+++ b/classfbgemm_1_1_re_quantize_for_float-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_for_float.html">ReQuantizeForFloat</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_for_float.html">ReQuantizeForFloat</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_re_quantize_for_float.html b/classfbgemm_1_1_re_quantize_for_float.html
index 9f9f0e49f..9ab2b1a03 100644
--- a/classfbgemm_1_1_re_quantize_for_float.html
+++ b/classfbgemm_1_1_re_quantize_for_float.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_for_float.html">ReQuantizeForFloat</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_for_float.html">ReQuantizeForFloat</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_re_quantize_output-members.html b/classfbgemm_1_1_re_quantize_output-members.html
index 0e91112b4..4096faf18 100644
--- a/classfbgemm_1_1_re_quantize_output-members.html
+++ b/classfbgemm_1_1_re_quantize_output-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_re_quantize_output.html b/classfbgemm_1_1_re_quantize_output.html
index a91545ead..c7e33af9d 100644
--- a/classfbgemm_1_1_re_quantize_output.html
+++ b/classfbgemm_1_1_re_quantize_output.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_relu_output-members.html b/classfbgemm_1_1_relu_output-members.html
index af955c57c..a7a86614b 100644
--- a/classfbgemm_1_1_relu_output-members.html
+++ b/classfbgemm_1_1_relu_output-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_relu_output.html">ReluOutput</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_relu_output.html">ReluOutput</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_relu_output.html b/classfbgemm_1_1_relu_output.html
index ce30a3b3e..840ae6ff4 100644
--- a/classfbgemm_1_1_relu_output.html
+++ b/classfbgemm_1_1_relu_output.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_relu_output.html">ReluOutput</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_relu_output.html">ReluOutput</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_scale_o_p-members.html b/classfbgemm_1_1_scale_o_p-members.html
index a068f7555..b943901d7 100644
--- a/classfbgemm_1_1_scale_o_p-members.html
+++ b/classfbgemm_1_1_scale_o_p-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_scale_o_p.html">ScaleOP</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_scale_o_p.html">ScaleOP</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_scale_o_p.html b/classfbgemm_1_1_scale_o_p.html
index 5b1102210..26e4ea8a8 100644
--- a/classfbgemm_1_1_scale_o_p.html
+++ b/classfbgemm_1_1_scale_o_p.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_scale_o_p.html">ScaleOP</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_scale_o_p.html">ScaleOP</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_sparse_ada_grad_signature-members.html b/classfbgemm_1_1_sparse_ada_grad_signature-members.html
index abcf14387..be444a85b 100644
--- a/classfbgemm_1_1_sparse_ada_grad_signature-members.html
+++ b/classfbgemm_1_1_sparse_ada_grad_signature-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_sparse_ada_grad_signature.html">SparseAdaGradSignature</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_sparse_ada_grad_signature.html">SparseAdaGradSignature</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1_sparse_ada_grad_signature.html b/classfbgemm_1_1_sparse_ada_grad_signature.html
index f208ea1b0..b58826722 100644
--- a/classfbgemm_1_1_sparse_ada_grad_signature.html
+++ b/classfbgemm_1_1_sparse_ada_grad_signature.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1_sparse_ada_grad_signature.html">SparseAdaGradSignature</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1_sparse_ada_grad_signature.html">SparseAdaGradSignature</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1mem_copy-members.html b/classfbgemm_1_1mem_copy-members.html
index fb6f21240..4ca813b91 100644
--- a/classfbgemm_1_1mem_copy-members.html
+++ b/classfbgemm_1_1mem_copy-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1mem_copy.html">memCopy</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1mem_copy.html">memCopy</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/classfbgemm_1_1mem_copy.html b/classfbgemm_1_1mem_copy.html
index c923dccf5..cb65a48b8 100644
--- a/classfbgemm_1_1mem_copy.html
+++ b/classfbgemm_1_1mem_copy.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="classfbgemm_1_1mem_copy.html">memCopy</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="classfbgemm_1_1mem_copy.html">memCopy</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/dir_34e8510f39fc35193d2c335cf69ac2ab.html b/dir_34e8510f39fc35193d2c335cf69ac2ab.html
new file mode 100644
index 000000000..e0a114512
--- /dev/null
+++ b/dir_34e8510f39fc35193d2c335cf69ac2ab.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/experimental/gen_ai/src Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_3564159197d660dd468988083a59c7ac.html">experimental</a></li><li class="navelem"><a class="el" href="dir_d0c69fd2abdd01678e72de86d9296855.html">gen_ai</a></li><li class="navelem"><a class="el" href="dir_34e8510f39fc35193d2c335cf69ac2ab.html">src</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">src Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="subdirs" name="subdirs"></a>
+Directories</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_fad263dcd5898f620d525bed679b1c92.html">attention</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_3564159197d660dd468988083a59c7ac.html b/dir_3564159197d660dd468988083a59c7ac.html
new file mode 100644
index 000000000..b823c6b7d
--- /dev/null
+++ b/dir_3564159197d660dd468988083a59c7ac.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/experimental Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_3564159197d660dd468988083a59c7ac.html">experimental</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">experimental Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_5dcc8468a72bed6dcb0f21f3eee5d218.html b/dir_5dcc8468a72bed6dcb0f21f3eee5d218.html
new file mode 100644
index 000000000..c64c0b05f
--- /dev/null
+++ b/dir_5dcc8468a72bed6dcb0f21f3eee5d218.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/experimental/example Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_3564159197d660dd468988083a59c7ac.html">experimental</a></li><li class="navelem"><a class="el" href="dir_5dcc8468a72bed6dcb0f21f3eee5d218.html">example</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">example Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="subdirs" name="subdirs"></a>
+Directories</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_99ba4fd65b63105d4d187e7a275d7ae6.html">src</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_99ba4fd65b63105d4d187e7a275d7ae6.html b/dir_99ba4fd65b63105d4d187e7a275d7ae6.html
new file mode 100644
index 000000000..38053fe4d
--- /dev/null
+++ b/dir_99ba4fd65b63105d4d187e7a275d7ae6.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/experimental/example/src Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_3564159197d660dd468988083a59c7ac.html">experimental</a></li><li class="navelem"><a class="el" href="dir_5dcc8468a72bed6dcb0f21f3eee5d218.html">example</a></li><li class="navelem"><a class="el" href="dir_99ba4fd65b63105d4d187e7a275d7ae6.html">src</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">src Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_d0c69fd2abdd01678e72de86d9296855.html b/dir_d0c69fd2abdd01678e72de86d9296855.html
new file mode 100644
index 000000000..f2ffce118
--- /dev/null
+++ b/dir_d0c69fd2abdd01678e72de86d9296855.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/experimental/gen_ai Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_3564159197d660dd468988083a59c7ac.html">experimental</a></li><li class="navelem"><a class="el" href="dir_d0c69fd2abdd01678e72de86d9296855.html">gen_ai</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_ai Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_fad263dcd5898f620d525bed679b1c92.html b/dir_fad263dcd5898f620d525bed679b1c92.html
new file mode 100644
index 000000000..768ca3e24
--- /dev/null
+++ b/dir_fad263dcd5898f620d525bed679b1c92.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/attention Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_3564159197d660dd468988083a59c7ac.html">experimental</a></li><li class="navelem"><a class="el" href="dir_d0c69fd2abdd01678e72de86d9296855.html">gen_ai</a></li><li class="navelem"><a class="el" href="dir_34e8510f39fc35193d2c335cf69ac2ab.html">src</a></li><li class="navelem"><a class="el" href="dir_fad263dcd5898f620d525bed679b1c92.html">attention</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">attention Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/doxygen_crawl.html b/doxygen_crawl.html
index 6838b9ccf..4e847deaa 100644
--- a/doxygen_crawl.html
+++ b/doxygen_crawl.html
@@ -18,6 +18,7 @@
 <a href="group__table-batched-embed-cuda.html"/>
 <a href="group__embedding-cuda.html"/>
 <a href="group__embedding-cpu.html"/>
+<a href="group__experimental-gen-ai-attention.html"/>
 <a href="group__example-method-group.html"/>
 <a href="group__jagged-tensor-ops-cuda.html"/>
 <a href="group__jagged-tensor-ops-cpu.html"/>
@@ -52,6 +53,7 @@
 <a href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st90d14ed66e3f10d85b5047df8e27f64b.html"/>
 <a href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html"/>
 <a href="struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename1caa5681381420b0bceaf88dda38ae63.html"/>
+<a href="namespacefbgemm.html"/>
 <a href="structfbgemm_1_1_b_c_s_r_matrix.html"/>
 <a href="structfbgemm_1_1_b_c_s_r_matrix-members.html"/>
 <a href="structfbgemm_1_1block__type__t.html"/>
@@ -122,13 +124,17 @@
 <a href="structfbgemm_1_1thread__type__t-members.html"/>
 <a href="structfbgemm__gpu_1_1_comparator.html"/>
 <a href="structfbgemm__gpu_1_1_comparator-members.html"/>
+<a href="dir_fad263dcd5898f620d525bed679b1c92.html"/>
 <a href="dir_123817f7594fd7c69692e1ecbf52093c.html"/>
 <a href="dir_2305497498524d1fcac2e12cca5f0c05.html"/>
 <a href="dir_99606bcf75b62dc75ee95f8835b790ec.html"/>
 <a href="dir_6abf938375f5b2fa568aca73fef5df3e.html"/>
+<a href="dir_5dcc8468a72bed6dcb0f21f3eee5d218.html"/>
+<a href="dir_3564159197d660dd468988083a59c7ac.html"/>
 <a href="dir_7e815a708cb478ace5e18c399bab05d9.html"/>
 <a href="dir_a13c1b53005a8c279eb71f07c614d23a.html"/>
 <a href="dir_2b385a018e2b33990ec2c61dba0bc20a.html"/>
+<a href="dir_d0c69fd2abdd01678e72de86d9296855.html"/>
 <a href="dir_9bbc85fb6cfbce51ed674bab6205f8cb.html"/>
 <a href="dir_d44c64559bbebec7f509842c48db8b23.html"/>
 <a href="dir_0b2dd7a053dc4cec988c180874184087.html"/>
@@ -147,6 +153,8 @@
 <a href="dir_625d6a5f1fb3a71c87342a949cd4f713.html"/>
 <a href="dir_6eaa835c419919c4da8ae4cc0432a09e.html"/>
 <a href="dir_d9e46c4e2bdf04431eb09649717f68c6.html"/>
+<a href="dir_99ba4fd65b63105d4d187e7a275d7ae6.html"/>
+<a href="dir_34e8510f39fc35193d2c335cf69ac2ab.html"/>
 <a href="dir_480d82297e3e1dcf307abc53c42f0f83.html"/>
 <a href="dir_68267d1309a1af8e8297ef4c3efbcdba.html"/>
 <a href="dir_0802c95743471ffc851b06bb679f6e17.html"/>
@@ -155,6 +163,38 @@
 <a href="index.html"/>
 <a href="doxygen_crawl.html"/>
 <a href="topics.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_enum.html"/>
+<a href="namespacemembers_enum.html"/>
+<a href="namespacemembers_enum.html"/>
 <a href="annotated.html"/>
 <a href="classes.html"/>
 <a href="hierarchy.html"/>
diff --git a/fbgemm-cpp-api/QuantUtils.html b/fbgemm-cpp-api/QuantUtils.html
index e3e4dcf7a..528a9c0dd 100644
--- a/fbgemm-cpp-api/QuantUtils.html
+++ b/fbgemm-cpp-api/QuantUtils.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm-development/BuildInstructions.html b/fbgemm-development/BuildInstructions.html
index 9e8675d1f..4571b6378 100644
--- a/fbgemm-development/BuildInstructions.html
+++ b/fbgemm-development/BuildInstructions.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/embedding_ops.html b/fbgemm_gpu-cpp-api/embedding_ops.html
index efc98c026..8c42cb30c 100644
--- a/fbgemm_gpu-cpp-api/embedding_ops.html
+++ b/fbgemm_gpu-cpp-api/embedding_ops.html
@@ -33,7 +33,7 @@
   <link rel="stylesheet" href="../_static/graphviz.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="Table Batched Embedding (TBE) Operators" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" />
+    <link rel="next" title="Experimental Operators" href="experimental_ops.html" />
     <link rel="prev" title="Layout Transformation Operators" href="layout_transform_ops.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
@@ -445,7 +446,7 @@ <h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to
   
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
       
-        <a href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" class="btn btn-neutral float-right" title="Table Batched Embedding (TBE) Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
+        <a href="experimental_ops.html" class="btn btn-neutral float-right" title="Experimental Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
       
         <a href="layout_transform_ops.html" class="btn btn-neutral" title="Layout Transformation Operators" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
diff --git a/fbgemm_gpu-cpp-api/experimental_ops.html b/fbgemm_gpu-cpp-api/experimental_ops.html
new file mode 100644
index 000000000..9b0b7667b
--- /dev/null
+++ b/fbgemm_gpu-cpp-api/experimental_ops.html
@@ -0,0 +1,743 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
+<head>
+  <meta charset="utf-8">
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
+
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>Experimental Operators &mdash; FBGEMM 0.6.0 documentation</title>
+  
+
+  
+  
+  
+  
+
+  
+
+  
+  
+    
+
+  
+
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/graphviz.css" type="text/css" />
+    <link rel="index" title="Index" href="../genindex.html" />
+    <link rel="search" title="Search" href="../search.html" />
+    <link rel="next" title="Table Batched Embedding (TBE) Operators" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" />
+    <link rel="prev" title="Embedding Operators" href="embedding_ops.html" />
+  <!-- Google Tag Manager -->
+    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
+    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
+    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
+    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
+    })(window,document,'script','dataLayer','UA-117752657-2');</script>
+    <!-- End Google Tag Manager -->
+  
+
+  
+  <script src="../_static/js/modernizr.min.js"></script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://pytorch.org/get-started">Get Started</a>
+          </li>
+
+          <li>
+            <a href="https://pytorch.org/ecosystem">Ecosystem</a>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="resource-option with-down-arrow">
+                Edge
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
+                  <span class="dropdown-title">About PyTorch Edge</span>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/executorch">
+                  <span class="dropdown-title">ExecuTorch</span>
+                </a>
+              </div>
+            </div>  
+          </li>
+
+          <li>
+            <a href="https://pytorch.org/blog/">Blog</a>
+          </li>
+
+          <li>
+            <a href="https://pytorch.org/tutorials">Tutorials</a>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="resource-option with-down-orange-arrow">
+                Docs
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
+                  <span class="dropdown-title">PyTorch</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/audio/stable/index.html">
+                  <span class="dropdown-title">torchaudio</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/text/stable/index.html">
+                  <span class="dropdown-title">torchtext</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/vision/stable/index.html">
+                  <span class="dropdown-title">torchvision</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torcharrow">
+                  <span class="dropdown-title">torcharrow</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/data">
+                  <span class="dropdown-title">TorchData</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torchrec">
+                  <span class="dropdown-title">TorchRec</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/serve/">
+                  <span class="dropdown-title">TorchServe</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torchx/">
+                  <span class="dropdown-title">TorchX</span>
+                  <p></p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/xla">
+                  <span class="dropdown-title">PyTorch on XLA Devices</span>
+                  <p></p>
+                </a>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="resource-option with-down-arrow">
+                Resources
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/features">
+                  <span class="dropdown-title">About</span>
+                  <p>Learn about PyTorch’s features and capabilities</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
+                  <span class="dropdown-title">PyTorch Foundation</span>
+                  <p>Learn about the PyTorch foundation</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
+                  <span class="dropdown-title">Community</span>
+                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered.</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
+                  <span class="dropdown-title">Community Stories</span>
+                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch.</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
+                  <span class="dropdown-title">Developer Resources</span>
+                  <p>Find resources and get questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/events">
+                  <span class="dropdown-title">Events</span>
+                  <p>Find events, webinars, and podcasts</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
+                  <span class="dropdown-title">Forums</span>
+                  <p>A place to discuss PyTorch code, issues, install, research</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/hub">
+                  <span class="dropdown-title">Models (Beta)</span>
+                  <p>Discover, publish, and reuse pre-trained models</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+            <a href="https://github.com/pytorch/pytorch">GitHub</a>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+    
+
+    <div class="table-of-contents-link-wrapper">
+      <span>Table of Contents</span>
+      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+    </div>
+
+    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+      <div class="pytorch-side-scroll">
+        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+          <div class="pytorch-left-menu-search">
+            
+
+            
+              
+              
+                <div class="version">
+                  0.6
+                </div>
+              
+            
+
+            
+
+
+  
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+            
+          </div>
+
+          
+            
+            
+              
+            
+            
+              <p class="caption" role="heading"><span class="caption-text">General Info</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../general/Contributing.html">Contributing</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/documentation/Overview.html">Documentation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/ContactUs.html">Contact Us</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/License.html">License</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM Development</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm-development/BuildInstructions.html">Build Instructions</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Development</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-development/BuildInstructions.html">Build Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-development/InstallationInstructions.html">Installation Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-development/TestInstructions.html">Test Instructions</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Overview</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html">Jagged Tensor Operators</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM C++ API</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm-cpp-api/QuantUtils.html">Quantization Utilities</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="merge_pooled_embeddings.html">Pooled Embeddings Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="split_table_batched_embeddings.html">Table Batched Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="memory_utils.html">CUDA Memory Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">Experimental Operators</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+</ul>
+
+            
+          
+        </div>
+      </div>
+    </nav>
+
+    <div class="pytorch-container">
+      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+        <div class="pytorch-breadcrumbs-wrapper">
+          
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../index.html">
+          
+            Docs
+          
+        </a> &gt;
+      </li>
+
+        
+      <li>Experimental Operators</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+            
+            <a href="../_sources/fbgemm_gpu-cpp-api/experimental_ops.rst.txt" rel="nofollow"><img src="../_static/images/view-page-source-icon.svg"></a>
+          
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+        </div>
+
+        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+          Shortcuts
+        </div>
+      </div>
+
+      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+        <div class="pytorch-content-left">
+
+        
+          <!-- Google Tag Manager (noscript) -->
+          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id=UA-117752657-2"
+          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
+          <!-- End Google Tag Manager (noscript) -->
+          
+          <div class="rst-content">
+          
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+              
+  <section id="experimental-operators">
+<h1>Experimental Operators<a class="headerlink" href="#experimental-operators" title="Permalink to this heading">¶</a></h1>
+<section id="attention-operators">
+<h2>Attention Operators<a class="headerlink" href="#attention-operators" title="Permalink to this heading">¶</a></h2>
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t">
+<span id="_CPPv320gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t"></span><span id="_CPPv220gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t"></span><span id="gqa_attn_splitk_cuda__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.doubleC.int64_tC.int64_tC"></span><span class="target" id="group__experimental-gen-ai-attention_1ga72225d1459d48465e83289c29df7447a"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><a class="reference external" href="https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE" title="(in PyTorch vmain)"><span class="n"><span class="pre">Tensor</span></span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><a class="reference external" href="https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE" title="(in PyTorch vmain)"><span class="n"><span class="pre">Tensor</span></span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><a class="reference external" href="https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE" title="(in PyTorch vmain)"><span class="n"><span class="pre">Tensor</span></span></a><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">gqa_attn_splitk_cuda</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><a class="reference external" href="https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE" title="(in PyTorch vmain)"><span class="n"><span class="pre">Tensor</span></span></a><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">XQ</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><a class="reference external" href="https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE" title="(in PyTorch vmain)"><span class="n"><span class="pre">Tensor</span></span></a><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">cache_K</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><a class="reference external" href="https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE" title="(in PyTorch vmain)"><span class="n"><span class="pre">Tensor</span></span></a><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">cache_V</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><a class="reference external" href="https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE" title="(in PyTorch vmain)"><span class="n"><span class="pre">Tensor</span></span></a><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">seq_positions</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">qk_scale</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">num_split_ks</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">num_int4_kv_groups</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Decoding Grouped Query Attention Split-K w/ BF16/INT4 KV. </p>
+<p>The CUDA implementation of decoding Grouped Query Attention (GQA) that supports BF16 and INT4 KV cache and BF16 input query. It currently only supports the max context length of 16384, the fixed head dimension of 128, and only one KV cache head. It supports an arbitrary number of query heads.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>XQ</strong> – Input query; shape = (B, 1, H_Q, D), where B = batch size, H_Q = num query heads, D = head dimension (fixed to 128) </p></li>
+<li><p><strong>cache_K</strong> – K cache; shape = (B, MAX_T, H_KV, D), where MAX_T = max context length (fixed to 16384), and H_KV = num KV cache heads (fixed to 1) </p></li>
+<li><p><strong>cache_V</strong> – V cache; shape = (B, MAX_T, H_KV, D) </p></li>
+<li><p><strong>seq_positions</strong> – Sequence position (contains the actual length of each token); shape = (B) </p></li>
+<li><p><strong>qk_scale</strong> – The scale that is applied after QK^T </p></li>
+<li><p><strong>num_split_ks</strong> – The number of split Ks (controlling the amount of parallelism in the context length dimension (MAX_T)) </p></li>
+<li><p><strong>num_int4_kv_groups</strong> – The number of groups for group-wise INT4 quantization for each KV token (each group uses the same scale and bias for quantization)</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A tuple of the combined split-K output, the non-combined split-K output, and the split-K metadata (containing max QK^T, and softmax(QK^T) head sum) </p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+</section>
+
+
+             </article>
+             
+            </div>
+            <footer>
+  
+    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
+      
+        <a href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" class="btn btn-neutral float-right" title="Table Batched Embedding (TBE) Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
+      
+      
+        <a href="embedding_ops.html" class="btn btn-neutral" title="Embedding Operators" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+      
+    </div>
+  
+
+  
+
+    <hr>
+
+  
+
+  <div role="contentinfo">
+    <p>
+        &copy; Copyright 2020 - 2024, FBGEMM Team.
+
+    </p>
+  </div>
+    
+      <div>
+        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
+      </div>
+     
+
+</footer>
+
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              <ul>
+<li><a class="reference internal" href="#">Experimental Operators</a><ul>
+<li><a class="reference internal" href="#attention-operators">Attention Operators</a></li>
+</ul>
+</li>
+</ul>
+
+            </div>
+          </div>
+        </div>
+      </section>
+    </div>
+
+  
+
+
+  
+
+     
+       <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
+         <script src="../_static/doctools.js"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
+     
+
+  
+
+  <script type="text/javascript" src="../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+    <div class="container">
+      <div class="row">
+        <div class="col-md-4 text-center">
+          <h2>Docs</h2>
+          <p>Access comprehensive developer documentation for PyTorch</p>
+          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Tutorials</h2>
+          <p>Get in-depth tutorials for beginners and advanced developers</p>
+          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Resources</h2>
+          <p>Find development resources and get your questions answered</p>
+          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
+        </div>
+      </div>
+    </div>
+  </div>
+
+  <footer class="site-footer">
+    <div class="container footer-container">
+      <div class="footer-logo-wrapper">
+        <a href="https://pytorch.org/" class="footer-logo"></a>
+      </div>
+
+      <div class="footer-links-wrapper">
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
+            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
+            <li><a href="https://pytorch.org/features">Features</a></li>
+            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
+            <li><a href="https://pytorch.org/blog/">Blog</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
+            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
+            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
+            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
+            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">Stay up to date</li>
+            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
+            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
+            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
+            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
+          </ul>  
+          </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">PyTorch Podcasts</li>
+            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
+            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
+            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
+            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
+          </ul>
+         </div>
+        </div>
+        
+        <div class="privacy-policy">
+          <ul>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
+            <li class="privacy-policy-links">|</li>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
+          </ul>
+        </div>
+        <div class="copyright">
+        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
+          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
+          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
+          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
+          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
+      </div>
+     </div>
+
+  </footer>
+
+  <div class="cookie-banner-wrapper">
+  <div class="container">
+    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
+    <img class="close-button" src="../_static/images/pytorch-x.svg">
+  </div>
+</div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://pytorch.org/get-started">Get Started</a>
+          </li>
+
+          <li>
+            <a href="https://pytorch.org/ecosystem">Ecosystem</a>
+          </li>
+            
+          <li>
+            <a href="">Mobile</a>
+          </li>
+
+          <li>
+            <a href="https://pytorch.org/blog/">Blog</a>
+          </li>
+
+          <li>
+            <a href="https://pytorch.org/tutorials">Tutorials</a>
+          </li>
+
+          <li class="resources-mobile-menu-title">
+            Docs
+          </li>
+
+          <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/audio/stable/index.html">torchaudio</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/text/stable/index.html">torchtext</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/vision/stable/index.html">torchvision</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/torcharrow">torcharrow</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/data">TorchData</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/torchrec">TorchRec</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/serve/">TorchServe</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/torchx/">TorchX</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/xla">PyTorch on XLA Devices</a>
+            </li>
+          </ul>
+
+          <li class="resources-mobile-menu-title">
+            Resources
+          </li>
+            
+           <ul class="resources-mobile-menu-items">
+
+            <li>
+              <a href="https://pytorch.org/features">About</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/#community-module">Community</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/community-stories">Community Stories</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/resources">Developer Resources</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/events">Events</a>
+            </li>
+
+            <li>
+              <a href="https://discuss.pytorch.org/">Forums</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/hub">Models (Beta)</a>
+            </li>
+          </ul>
+
+          <li>
+            <a href="https://github.com/pytorch/pytorch">Github</a>
+          </li>
+        </ul>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function() {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function(e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+</html>
\ No newline at end of file
diff --git a/fbgemm_gpu-cpp-api/input_combine.html b/fbgemm_gpu-cpp-api/input_combine.html
index 1f1ff83e6..3bf280e55 100644
--- a/fbgemm_gpu-cpp-api/input_combine.html
+++ b/fbgemm_gpu-cpp-api/input_combine.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/jagged_tensor_ops.html b/fbgemm_gpu-cpp-api/jagged_tensor_ops.html
index 73be5dcc0..f8b225169 100644
--- a/fbgemm_gpu-cpp-api/jagged_tensor_ops.html
+++ b/fbgemm_gpu-cpp-api/jagged_tensor_ops.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/layout_transform_ops.html b/fbgemm_gpu-cpp-api/layout_transform_ops.html
index 1c63a2668..b614583b5 100644
--- a/fbgemm_gpu-cpp-api/layout_transform_ops.html
+++ b/fbgemm_gpu-cpp-api/layout_transform_ops.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/memory_utils.html b/fbgemm_gpu-cpp-api/memory_utils.html
index c18746d06..2532633f3 100644
--- a/fbgemm_gpu-cpp-api/memory_utils.html
+++ b/fbgemm_gpu-cpp-api/memory_utils.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html b/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html
index 6159911e8..0c2b6a30f 100644
--- a/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html
+++ b/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/quantize_ops.html b/fbgemm_gpu-cpp-api/quantize_ops.html
index f73e03501..9798ced30 100644
--- a/fbgemm_gpu-cpp-api/quantize_ops.html
+++ b/fbgemm_gpu-cpp-api/quantize_ops.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/sparse_ops.html b/fbgemm_gpu-cpp-api/sparse_ops.html
index 69754bd5e..b76b50964 100644
--- a/fbgemm_gpu-cpp-api/sparse_ops.html
+++ b/fbgemm_gpu-cpp-api/sparse_ops.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html b/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html
index c38c20d65..718a0b31c 100644
--- a/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html
+++ b/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-development/BuildInstructions.html b/fbgemm_gpu-development/BuildInstructions.html
index ea49e0bfa..e31ac75eb 100644
--- a/fbgemm_gpu-development/BuildInstructions.html
+++ b/fbgemm_gpu-development/BuildInstructions.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-development/InstallationInstructions.html b/fbgemm_gpu-development/InstallationInstructions.html
index d03207c63..2526f8f98 100644
--- a/fbgemm_gpu-development/InstallationInstructions.html
+++ b/fbgemm_gpu-development/InstallationInstructions.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-development/TestInstructions.html b/fbgemm_gpu-development/TestInstructions.html
index 1bfd199df..39fa3165f 100644
--- a/fbgemm_gpu-development/TestInstructions.html
+++ b/fbgemm_gpu-development/TestInstructions.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html b/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html
index 933dcaaa7..1e7349975 100644
--- a/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html
+++ b/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/fbgemm_gpu-python-api/jagged_tensor_ops.html b/fbgemm_gpu-python-api/jagged_tensor_ops.html
index 27bb7c08d..7bd2ce467 100644
--- a/fbgemm_gpu-python-api/jagged_tensor_ops.html
+++ b/fbgemm_gpu-python-api/jagged_tensor_ops.html
@@ -294,6 +294,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul class="current">
diff --git a/fbgemm_gpu-python-api/table_batched_embedding_ops.html b/fbgemm_gpu-python-api/table_batched_embedding_ops.html
index fc7b0784c..d435ee0ee 100644
--- a/fbgemm_gpu-python-api/table_batched_embedding_ops.html
+++ b/fbgemm_gpu-python-api/table_batched_embedding_ops.html
@@ -34,7 +34,7 @@
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Jagged Tensor Operators" href="jagged_tensor_ops.html" />
-    <link rel="prev" title="Embedding Operators" href="../fbgemm_gpu-cpp-api/embedding_ops.html" />
+    <link rel="prev" title="Experimental Operators" href="../fbgemm_gpu-cpp-api/experimental_ops.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
     new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul class="current">
@@ -497,7 +498,7 @@
         <a href="jagged_tensor_ops.html" class="btn btn-neutral float-right" title="Jagged Tensor Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
       
-        <a href="../fbgemm_gpu-cpp-api/embedding_ops.html" class="btn btn-neutral" title="Embedding Operators" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+        <a href="../fbgemm_gpu-cpp-api/experimental_ops.html" class="btn btn-neutral" title="Experimental Operators" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
       
     </div>
   
diff --git a/general/ContactUs.html b/general/ContactUs.html
index 844c37695..89aa02bc8 100644
--- a/general/ContactUs.html
+++ b/general/ContactUs.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/general/Contributing.html b/general/Contributing.html
index c3d7ddb84..5166ad390 100644
--- a/general/Contributing.html
+++ b/general/Contributing.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/general/License.html b/general/License.html
index 1e96e753b..11ae4efa4 100644
--- a/general/License.html
+++ b/general/License.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/general/documentation/Cpp.html b/general/documentation/Cpp.html
index bd9e71589..2ed6f7dae 100644
--- a/general/documentation/Cpp.html
+++ b/general/documentation/Cpp.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/general/documentation/Overview.html b/general/documentation/Overview.html
index ccbce9c2e..6e3b5d628 100644
--- a/general/documentation/Overview.html
+++ b/general/documentation/Overview.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/general/documentation/Python.html b/general/documentation/Python.html
index c76f9938e..c3f1e9572 100644
--- a/general/documentation/Python.html
+++ b/general/documentation/Python.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/general/documentation/Sphinx.html b/general/documentation/Sphinx.html
index 7480abb00..77100e8ec 100644
--- a/general/documentation/Sphinx.html
+++ b/general/documentation/Sphinx.html
@@ -295,6 +295,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/genindex.html b/genindex.html
index 25548b42c..cbc96e755 100644
--- a/genindex.html
+++ b/genindex.html
@@ -292,6 +292,7 @@
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
@@ -560,6 +561,8 @@ <h2 id="G">G</h2>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb">get_unique_indices_cuda (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-cpp-api/experimental_ops.html#_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t">gqa_attn_splitk_cuda (C++ function)</a>
 </li>
   </ul></td>
 </tr></table>
diff --git a/group__experimental-gen-ai-attention.html b/group__experimental-gen-ai-attention.html
new file mode 100644
index 000000000..e06bb2943
--- /dev/null
+++ b/group__experimental-gen-ai-attention.html
@@ -0,0 +1,156 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Experimental-gen-ai-attention</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">Experimental-gen-ai-attention</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga72225d1459d48465e83289c29df7447a" id="r_ga72225d1459d48465e83289c29df7447a"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga72225d1459d48465e83289c29df7447a">gqa_attn_splitk_cuda</a> (const at::Tensor &amp;XQ, const at::Tensor &amp;cache_K, const at::Tensor &amp;cache_V, const at::Tensor &amp;seq_positions, const double qk_scale, const int64_t num_split_ks, const int64_t num_int4_kv_groups)</td></tr>
+<tr class="separator:ga72225d1459d48465e83289c29df7447a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<p>This is a description of Grouped Query Attention operators. </p>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ga72225d1459d48465e83289c29df7447a" name="ga72225d1459d48465e83289c29df7447a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga72225d1459d48465e83289c29df7447a">&#9670;&#160;</a></span>gqa_attn_splitk_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; at::Tensor, at::Tensor, at::Tensor &gt; gqa_attn_splitk_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>XQ</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>cache_K</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>cache_V</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>seq_positions</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const double</td>          <td class="paramname"><span class="paramname"><em>qk_scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int64_t</td>          <td class="paramname"><span class="paramname"><em>num_split_ks</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int64_t</td>          <td class="paramname"><span class="paramname"><em>num_int4_kv_groups</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Decoding Grouped Query Attention Split-K w/ BF16/INT4 KV. </p>
+<p>The CUDA implementation of decoding Grouped Query Attention (GQA) that supports BF16 and INT4 KV cache and BF16 input query. It currently only supports the max context length of 16384, the fixed head dimension of 128, and only one KV cache head. It supports an arbitrary number of query heads.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">XQ</td><td>Input query; shape = (B, 1, H_Q, D), where B = batch size, H_Q = num query heads, D = head dimension (fixed to 128) </td></tr>
+    <tr><td class="paramname">cache_K</td><td>K cache; shape = (B, MAX_T, H_KV, D), where MAX_T = max context length (fixed to 16384), and H_KV = num KV cache heads (fixed to 1) </td></tr>
+    <tr><td class="paramname">cache_V</td><td>V cache; shape = (B, MAX_T, H_KV, D) </td></tr>
+    <tr><td class="paramname">seq_positions</td><td>Sequence position (contains the actual length of each token); shape = (B) </td></tr>
+    <tr><td class="paramname">qk_scale</td><td>The scale that is applied after QK^T </td></tr>
+    <tr><td class="paramname">num_split_ks</td><td>The number of split Ks (controlling the amount of parallelism in the context length dimension (MAX_T)) </td></tr>
+    <tr><td class="paramname">num_int4_kv_groups</td><td>The number of groups for group-wise INT4 quantization for each KV token (each group uses the same scale and bias for quantization)</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A tuple of the combined split-K output, the non-combined split-K output, and the split-K metadata (containing max QK^T, and softmax(QK^T) head sum) </dd></dl>
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/index.html b/index.html
index 3465289e6..e5d8da55e 100644
--- a/index.html
+++ b/index.html
@@ -294,6 +294,7 @@
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
@@ -438,6 +439,7 @@ <h1>FBGEMM and FBGEMM_GPU Documentation Homepage<a class="headerlink" href="#fbg
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 </div>
 <div class="toctree-wrapper compound" id="fbgemm-gpu-toc-api-python">
diff --git a/namespacefbgemm.html b/namespacefbgemm.html
new file mode 100644
index 000000000..bb16814a5
--- /dev/null
+++ b/namespacefbgemm.html
@@ -0,0 +1,3276 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: fbgemm Namespace Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#enum-members">Enumerations</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">fbgemm Namespace Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html">BCSRMatrix</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_code_cache.html">CodeCache</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_code_gen_base.html">CodeGenBase</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_do_nothing.html">DoNothing</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_do_s_conv_on_inp_buffer.html">DoSConvOnInpBuffer</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_do_spmdm_on_inp_buffer.html">DoSpmdmOnInpBuffer</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_execute_kernel.html">ExecuteKernel</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html">ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1is__8bit.html">is_8bit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1mem_copy.html">memCopy</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_a_matrix.html">PackAMatrix</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_a_with_im2_col.html">PackAWithIm2Col</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html">PackAWithQuantRowOffset</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_a_with_row_offset.html">PackAWithRowOffset</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_b_matrix.html">PackBMatrix</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_packed_gemm_matrix_b.html">PackedGemmMatrixB</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1_packing_traits.html">PackingTraits</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_weight_matrix_for_g_conv.html">PackWeightMatrixForGConv</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_relu_output.html">ReluOutput</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1requantization_for_float_params__t.html">requantizationForFloatParams_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1_requantization_params.html">RequantizationParams</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_re_quantize_for_float.html">ReQuantizeForFloat</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_scale_o_p.html">ScaleOP</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm_1_1_sparse_ada_grad_signature.html">SparseAdaGradSignature</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm_1_1thread__type__t.html">thread_type_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="enum-members" name="enum-members"></a>
+Enumerations</h2></td></tr>
+<tr class="memitem:a5356ce4b0771923d6eee8b3692afd2f3" id="r_a5356ce4b0771923d6eee8b3692afd2f3"><td class="memItemLeft" align="right" valign="top">enum class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a5356ce4b0771923d6eee8b3692afd2f3">impl_type_t</a> </td></tr>
+<tr class="separator:a5356ce4b0771923d6eee8b3692afd2f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a1f01b8b3f8fea3e9c8ccc2aed30ba70a" id="r_a1f01b8b3f8fea3e9c8ccc2aed30ba70a"><td class="memTemplParams" colspan="2">template&lt;typename packingAMatrix , typename packingBMatrix , typename cT , typename processOutputType &gt; </td></tr>
+<tr class="memitem:a1f01b8b3f8fea3e9c8ccc2aed30ba70a"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a1f01b8b3f8fea3e9c8ccc2aed30ba70a">fbgemmPacked</a> (<a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a>&lt; packingAMatrix, typename packingAMatrix::inpType, typename packingAMatrix::accType &gt; &amp;packA, <a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a>&lt; packingBMatrix, typename packingBMatrix::inpType, typename packingBMatrix::accType &gt; &amp;packB, cT *C, std::int32_t *C_buffer, std::uint32_t ldc, const processOutputType &amp;outProcess, int thread_id, int num_threads, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *blocking_params=nullptr)</td></tr>
+<tr class="separator:a1f01b8b3f8fea3e9c8ccc2aed30ba70a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5780ef4a16a1682740af29283360caa4" id="r_a5780ef4a16a1682740af29283360caa4"><td class="memTemplParams" colspan="2">template&lt;typename packed_W , typename outType , bool FUSE_RELU, QuantizationGranularity Q_GRAN, int SPATIAL_DIM = 2, typename BIAS_TYPE  = std::int32_t&gt; </td></tr>
+<tr class="memitem:a5780ef4a16a1682740af29283360caa4"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a5780ef4a16a1682740af29283360caa4">fbgemmGroupwiseConv</a> (const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;conv_param, const std::uint8_t *activations, std::int32_t a_zero_point, std::int32_t *rowOffsetBuf, packed_W &amp;packed_weights, outType *out, std::int32_t *outBuffer, const <a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a>&lt; FUSE_RELU, Q_GRAN, BIAS_TYPE &gt; &amp;outProcess, int thread_id, int num_threads)</td></tr>
+<tr class="separator:a5780ef4a16a1682740af29283360caa4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f972dca3254066120f58af5cf3b304c" id="r_a8f972dca3254066120f58af5cf3b304c"><td class="memTemplParams" colspan="2">template&lt;int SPATIAL_DIM = 2&gt; </td></tr>
+<tr class="memitem:a8f972dca3254066120f58af5cf3b304c"><td class="memTemplItemLeft" align="right" valign="top">int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a8f972dca3254066120f58af5cf3b304c">rowOffsetBufferSizeGConv</a> (const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;conv_param)</td></tr>
+<tr class="separator:a8f972dca3254066120f58af5cf3b304c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adc9d2af7ea01634fd2e5bef0e6baa0ab" id="r_adc9d2af7ea01634fd2e5bef0e6baa0ab"><td class="memTemplParams" colspan="2">template&lt;typename processOutputType , int SPATIAL_DIM = 2, typename ACC_T  = std::int32_t&gt; </td></tr>
+<tr class="memitem:adc9d2af7ea01634fd2e5bef0e6baa0ab"><td class="memTemplItemLeft" align="right" valign="top">int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#adc9d2af7ea01634fd2e5bef0e6baa0ab">fbgemmConv</a> (const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;conv_p, const std::uint8_t *activations, <a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a>&lt; SPATIAL_DIM, std::int8_t, ACC_T &gt; &amp;packed_weights, typename processOutputType::outType *out, std::int32_t *outBuffer, processOutputType &amp;outProcess, int thread_id, int num_threads, const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *blocking_params=nullptr)</td></tr>
+<tr class="separator:adc9d2af7ea01634fd2e5bef0e6baa0ab"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad5bda89769bca9a01ddf81591f20ef02" id="r_ad5bda89769bca9a01ddf81591f20ef02"><td class="memTemplParams" colspan="2">template&lt;int SPATIAL_DIM = 2, typename ACC_T  = std::int32_t&gt; </td></tr>
+<tr class="memitem:ad5bda89769bca9a01ddf81591f20ef02"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="#ae779e18e5742efa69f340bcb616acdb2">optimized_conv_t</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#ad5bda89769bca9a01ddf81591f20ef02">ConvFastPath</a> (const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;conv_p)</td></tr>
+<tr class="separator:ad5bda89769bca9a01ddf81591f20ef02"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab22f5d961c6a42aab1c37b17a3d93770" id="r_ab22f5d961c6a42aab1c37b17a3d93770"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ab22f5d961c6a42aab1c37b17a3d93770">FloatToBfloat16_ref</a> (const float *src, bfloat16 *dst, size_t size)</td></tr>
+<tr class="separator:ab22f5d961c6a42aab1c37b17a3d93770"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af84f2b20490beb1dd0da4b03cf93afac" id="r_af84f2b20490beb1dd0da4b03cf93afac"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#af84f2b20490beb1dd0da4b03cf93afac">Bfloat16ToFloat_ref</a> (const bfloat16 *src, float *dst, size_t size)</td></tr>
+<tr class="separator:af84f2b20490beb1dd0da4b03cf93afac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa423a42208a4fde5f23ab6a28cef24a3" id="r_aa423a42208a4fde5f23ab6a28cef24a3"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#aa423a42208a4fde5f23ab6a28cef24a3">FloatToBfloat16_simd</a> (const float *src, bfloat16 *dst, size_t size)</td></tr>
+<tr class="separator:aa423a42208a4fde5f23ab6a28cef24a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afb00b526459a0db53a2c6ffe0276dd3e" id="r_afb00b526459a0db53a2c6ffe0276dd3e"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#afb00b526459a0db53a2c6ffe0276dd3e">Bfloat16ToFloat_simd</a> (const bfloat16 *src, float *dst, size_t size)</td></tr>
+<tr class="separator:afb00b526459a0db53a2c6ffe0276dd3e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af44c584c974f95f4866806cee3798742" id="r_af44c584c974f95f4866806cee3798742"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#af44c584c974f95f4866806cee3798742">FloatToFloat16_ref</a> (const float *src, float16 *dst, size_t size, bool do_clip=false)</td></tr>
+<tr class="separator:af44c584c974f95f4866806cee3798742"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afc22ec6e38a38c7f41484f844dbfbeac" id="r_afc22ec6e38a38c7f41484f844dbfbeac"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#afc22ec6e38a38c7f41484f844dbfbeac">Float16ToFloat_ref</a> (const float16 *src, float *dst, size_t size)</td></tr>
+<tr class="separator:afc22ec6e38a38c7f41484f844dbfbeac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a53a50b113345c09b89b45834f31d52df" id="r_a53a50b113345c09b89b45834f31d52df"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a53a50b113345c09b89b45834f31d52df">FloatToFloat16_simd</a> (const float *src, float16 *dst, size_t size, bool do_clip=false)</td></tr>
+<tr class="separator:a53a50b113345c09b89b45834f31d52df"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af066434e23720ecd4ddcc51d7a616aef" id="r_af066434e23720ecd4ddcc51d7a616aef"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#af066434e23720ecd4ddcc51d7a616aef">Float16ToFloat_simd</a> (const float16 *src, float *dst, size_t size)</td></tr>
+<tr class="separator:af066434e23720ecd4ddcc51d7a616aef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a77602a69076f938d21d336a0df00f9c4" id="r_a77602a69076f938d21d336a0df00f9c4"><td class="memTemplParams" colspan="2">template&lt;typename InType , typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float, bool THREAD_LOCAL = false&gt; </td></tr>
+<tr class="memitem:a77602a69076f938d21d336a0df00f9c4"><td class="memTemplItemLeft" align="right" valign="top">EmbeddingSpMDMKernelSignature&lt; InType, IndexType, OffsetType, OutType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a77602a69076f938d21d336a0df00f9c4">GenerateEmbeddingSpMDM</a> (const std::int64_t block_size, bool has_weight, bool normalize_by_lengths, int prefetch=16, bool is_weight_positional=false, bool use_offsets=true, bool is_bf16_out=false, bool is_bf16_in=false)</td></tr>
+<tr class="separator:a77602a69076f938d21d336a0df00f9c4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a243ed0e4df7bb7b6c08a930ee71a996b" id="r_a243ed0e4df7bb7b6c08a930ee71a996b"><td class="memTemplParams" colspan="2">template&lt;typename InType , typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float, bool THREAD_LOCAL = false&gt; </td></tr>
+<tr class="memitem:a243ed0e4df7bb7b6c08a930ee71a996b"><td class="memTemplItemLeft" align="right" valign="top">EmbeddingSpMDMKernelSignature&lt; InType, IndexType, OffsetType, OutType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a243ed0e4df7bb7b6c08a930ee71a996b">GenerateEmbeddingSpMDMWithStrides</a> (const std::int64_t block_size, bool has_weight, bool normalize_by_lengths, int prefetch=16, bool is_weight_positional=false, bool use_offsets=true, std::int64_t output_stride=-1, std::int64_t input_stride=-1, bool scale_bias_last=true, bool no_bag=false, bool is_bf16_out=false, bool is_bf16_in=false)</td></tr>
+<tr class="separator:a243ed0e4df7bb7b6c08a930ee71a996b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa4e2948ec5f9097f552de8a0458d49e1" id="r_aa4e2948ec5f9097f552de8a0458d49e1"><td class="memTemplParams" colspan="2">template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float&gt; </td></tr>
+<tr class="memitem:aa4e2948ec5f9097f552de8a0458d49e1"><td class="memTemplItemLeft" align="right" valign="top">EmbeddingSpMDMKernelSignature&lt; std::uint8_t, IndexType, OffsetType, OutType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#aa4e2948ec5f9097f552de8a0458d49e1">GenerateEmbeddingSpMDMNBit</a> (int bit_rate, const std::int64_t block_size, bool has_weight, bool normalize_by_lengths, int prefetch=16, bool is_weight_positional=false, bool use_offsets=true)</td></tr>
+<tr class="separator:aa4e2948ec5f9097f552de8a0458d49e1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abb137866f8726f5c6cbf150ccc7e5b08" id="r_abb137866f8726f5c6cbf150ccc7e5b08"><td class="memTemplParams" colspan="2">template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float, bool THREAD_LOCAL = false&gt; </td></tr>
+<tr class="memitem:abb137866f8726f5c6cbf150ccc7e5b08"><td class="memTemplItemLeft" align="right" valign="top">EmbeddingSpMDMKernelSignature&lt; std::uint8_t, IndexType, OffsetType, OutType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#abb137866f8726f5c6cbf150ccc7e5b08">GenerateEmbeddingSpMDMNBitWithStrides</a> (int bit_rate, const std::int64_t block_size, bool has_weight, bool normalize_by_lengths, int prefetch=16, bool is_weight_positional=false, bool use_offsets=true, std::int64_t output_stride=-1, std::int64_t input_stride=-1, bool scale_bias_last=true, bool is_bf16_out=false)</td></tr>
+<tr class="separator:abb137866f8726f5c6cbf150ccc7e5b08"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57534e5ede9766d50e536437b499894d" id="r_a57534e5ede9766d50e536437b499894d"><td class="memTemplParams" colspan="2">template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float&gt; </td></tr>
+<tr class="memitem:a57534e5ede9766d50e536437b499894d"><td class="memTemplItemLeft" align="right" valign="top">EmbeddingSpMDMKernelSignature&lt; std::uint8_t, IndexType, OffsetType, OutType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a57534e5ede9766d50e536437b499894d">GenerateEmbeddingSpMDMFP8WithStrides</a> (const std::int64_t block_size, bool normalize_by_lengths, bool is_weight_positional=false, bool use_offsets=true, std::int64_t output_stride=-1, std::int64_t input_stride=-1, int exponent_bits=4, int exponent_bias=7, bool is_bf16_out=false)</td></tr>
+<tr class="separator:a57534e5ede9766d50e536437b499894d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6d6fe14c3ad83011adb500625ecbff01" id="r_a6d6fe14c3ad83011adb500625ecbff01"><td class="memTemplParams" colspan="2">template&lt;typename InType , typename IndexType , typename OffsetType  = std::int32_t&gt; </td></tr>
+<tr class="memitem:a6d6fe14c3ad83011adb500625ecbff01"><td class="memTemplItemLeft" align="right" valign="top">EmbeddingSpMDMRowWiseSparseKernelSignature&lt; InType, IndexType, OffsetType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a6d6fe14c3ad83011adb500625ecbff01">GenerateEmbeddingSpMDMRowWiseSparse</a> (const std::int64_t block_size, bool has_weight, bool normalize_by_lengths, int prefetch=16, bool is_weight_positional=false, bool use_offsets=true)</td></tr>
+<tr class="separator:a6d6fe14c3ad83011adb500625ecbff01"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa7d2220ddfc7d5c9820fd03b73101d37" id="r_aa7d2220ddfc7d5c9820fd03b73101d37"><td class="memTemplParams" colspan="2">template&lt;typename IndexType , typename OffsetType  = std::int32_t&gt; </td></tr>
+<tr class="memitem:aa7d2220ddfc7d5c9820fd03b73101d37"><td class="memTemplItemLeft" align="right" valign="top">EmbeddingSpMDMRowWiseSparseKernelSignature&lt; std::uint8_t, IndexType, OffsetType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#aa7d2220ddfc7d5c9820fd03b73101d37">GenerateEmbeddingSpMDMNBitRowWiseSparse</a> (int bit_rate, const std::int64_t block_size, bool has_weight, bool normalize_by_lengths, int prefetch=16, bool is_weight_positional=false, bool use_offsets=true)</td></tr>
+<tr class="separator:aa7d2220ddfc7d5c9820fd03b73101d37"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a90ceef30c1643dd1a87b1a0753b52e87" id="r_a90ceef30c1643dd1a87b1a0753b52e87"><td class="memTemplParams" colspan="2">template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename DataType  = float&gt; </td></tr>
+<tr class="memitem:a90ceef30c1643dd1a87b1a0753b52e87"><td class="memTemplItemLeft" align="right" valign="top">RowWiseSparseAdaGradFusedSignature&lt; IndexType, OffsetType, DataType &gt;::Type&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a90ceef30c1643dd1a87b1a0753b52e87">GenerateRowWiseSparseAdaGradFused</a> (int block_size, int prefetch=16, bool use_offsets=true, bool use_stochastic_rounding=true, int grad_stride=-1)</td></tr>
+<tr class="separator:a90ceef30c1643dd1a87b1a0753b52e87"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c69d65ed666a9f46dc4763be70cdf6" id="r_a28c69d65ed666a9f46dc4763be70cdf6"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a28c69d65ed666a9f46dc4763be70cdf6">PackA</a> (int nrow, int ncol, const float *from, int ldim, float *to)</td></tr>
+<tr class="separator:a28c69d65ed666a9f46dc4763be70cdf6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac2e9634d4e2366ed6f2181ae7e7b17b2" id="r_ac2e9634d4e2366ed6f2181ae7e7b17b2"><td class="memTemplParams" colspan="2">template&lt;QuantizationGranularity Q_GRAN, typename BIAS_TYPE  = std::int32_t&gt; </td></tr>
+<tr class="memitem:ac2e9634d4e2366ed6f2181ae7e7b17b2"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#ac2e9634d4e2366ed6f2181ae7e7b17b2">depthwise_2d_same_pad</a> (int N, int H, int W, int IC, int OC, int stride_h, int stride_w, std::int32_t A_zero_point, const std::uint8_t *A, const std::int32_t *B_zero_point, const PackedDepthWiseConvMatrix &amp;Bp, const float *C_multiplier, std::int32_t C_zero_point, std::uint8_t *C, const std::int32_t *col_offsets, const BIAS_TYPE *bias, bool fuse_relu=false, const float *act_times_w_scale=nullptr, int thread_id=0, int num_threads=1)</td></tr>
+<tr class="separator:ac2e9634d4e2366ed6f2181ae7e7b17b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0bfa499fd1b485bc3e457842343bca57" id="r_a0bfa499fd1b485bc3e457842343bca57"><td class="memTemplParams" colspan="2">template&lt;QuantizationGranularity Q_GRAN, typename BIAS_TYPE  = std::int32_t&gt; </td></tr>
+<tr class="memitem:a0bfa499fd1b485bc3e457842343bca57"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a0bfa499fd1b485bc3e457842343bca57">depthwise_3d_same_pad</a> (const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; 3 &gt; &amp;conv_p, std::int32_t A_zero_point, const std::uint8_t *A, const std::int32_t *B_zero_point, const PackedDepthWiseConvMatrix &amp;Bp, const float *C_multiplier, std::int32_t C_zero_point, std::uint8_t *C, const std::int32_t *col_offsets, const BIAS_TYPE *bias, bool fuse_relu=false, const float *act_times_w_scale=nullptr, int thread_id=0, int num_threads=1)</td></tr>
+<tr class="separator:a0bfa499fd1b485bc3e457842343bca57"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1671cc912f6aa4bab678a0d255c8a690" id="r_a1671cc912f6aa4bab678a0d255c8a690"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a1671cc912f6aa4bab678a0d255c8a690">SparseDenseMM</a> (int M, int N, const int *row_ptr, const int *col_idx, const float *values, const float *B, int ldb, float *C, int ldc, bool accum=false)</td></tr>
+<tr class="separator:a1671cc912f6aa4bab678a0d255c8a690"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3350c03dc2d62e8e434332d088f6a895" id="r_a3350c03dc2d62e8e434332d088f6a895"><td class="memTemplParams" colspan="2">template&lt;typename T , bool LEGACY = true&gt; </td></tr>
+<tr class="memitem:a3350c03dc2d62e8e434332d088f6a895"><td class="memTemplItemLeft" align="right" valign="top">T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a3350c03dc2d62e8e434332d088f6a895">Quantize</a> (float src, std::int32_t zero_point, float scale, int result_precision, bool result_is_signed=std::is_signed&lt; T &gt;::value)</td></tr>
+<tr class="separator:a3350c03dc2d62e8e434332d088f6a895"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga7a5705b5705425abc8f72fe339c2ae91" id="r_ga7a5705b5705425abc8f72fe339c2ae91"><td class="memTemplParams" colspan="2">template&lt;typename T , layout_t LAYOUT = layout_t::KCX&gt; </td></tr>
+<tr class="memitem:ga7a5705b5705425abc8f72fe339c2ae91"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="group__fbgemm-quant-utils-generic.html#ga7a5705b5705425abc8f72fe339c2ae91">QuantizeGroupwise</a> (const float *src, int K, int C, int X, int G, const float *scales, const std::int32_t *zero_points, T *dst)</td></tr>
+<tr class="separator:ga7a5705b5705425abc8f72fe339c2ae91"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaa51ab0f363fbcdf8ffa0a561884225d9" id="r_gaa51ab0f363fbcdf8ffa0a561884225d9"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:gaa51ab0f363fbcdf8ffa0a561884225d9"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="group__fbgemm-quant-utils-generic.html#gaa51ab0f363fbcdf8ffa0a561884225d9">FusedQuantizeDequantize</a> (const float *src, float *dst, std::int64_t len, const <a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a> &amp;qparams, int thread_id=0, int num_threads=1, float noise_ratio=0.0f)</td></tr>
+<tr class="separator:gaa51ab0f363fbcdf8ffa0a561884225d9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga6b77c8540e630305db9a5f30a84e7e5b" id="r_ga6b77c8540e630305db9a5f30a84e7e5b"><td class="memTemplParams" colspan="2">template&lt;typename InputType &gt; </td></tr>
+<tr class="memitem:ga6b77c8540e630305db9a5f30a84e7e5b"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="group__fbgemm-quant-utils-generic.html#ga6b77c8540e630305db9a5f30a84e7e5b">FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf</a> (int bit_rate, const InputType *input, size_t input_rows, int input_columns, std::uint8_t *output)</td></tr>
+<tr class="separator:ga6b77c8540e630305db9a5f30a84e7e5b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2b2ca55a7d2d5c2dbba337ee2e585f6a" id="r_a2b2ca55a7d2d5c2dbba337ee2e585f6a"><td class="memTemplParams" colspan="2">template&lt;typename OutputType &gt; </td></tr>
+<tr class="memitem:a2b2ca55a7d2d5c2dbba337ee2e585f6a"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a2b2ca55a7d2d5c2dbba337ee2e585f6a">FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf</a> (int bit_rate, const uint8_t *input, size_t input_rows, int input_columns, OutputType *output)</td></tr>
+<tr class="separator:a2b2ca55a7d2d5c2dbba337ee2e585f6a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afafa94e239d016cf273ad0597152b86c" id="r_afafa94e239d016cf273ad0597152b86c"><td class="memTemplParams" colspan="2">template&lt;typename InputType &gt; </td></tr>
+<tr class="memitem:afafa94e239d016cf273ad0597152b86c"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#afafa94e239d016cf273ad0597152b86c">FloatOrHalfToFused8BitRowwiseQuantizedSBFloat</a> (const InputType *input, size_t input_rows, int input_columns, std::uint8_t *output)</td></tr>
+<tr class="separator:afafa94e239d016cf273ad0597152b86c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a42aefaaf238d065625a64a757f998eef" id="r_a42aefaaf238d065625a64a757f998eef"><td class="memTemplParams" colspan="2">template&lt;typename OutputType &gt; </td></tr>
+<tr class="memitem:a42aefaaf238d065625a64a757f998eef"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a42aefaaf238d065625a64a757f998eef">Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf</a> (const uint8_t *input, size_t input_rows, int input_columns, OutputType *output)</td></tr>
+<tr class="separator:a42aefaaf238d065625a64a757f998eef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad89426896d5c7b1f1b5db8ebaf201547" id="r_ad89426896d5c7b1f1b5db8ebaf201547"><td class="memTemplParams" colspan="2">template&lt;typename InputType &gt; </td></tr>
+<tr class="memitem:ad89426896d5c7b1f1b5db8ebaf201547"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#ad89426896d5c7b1f1b5db8ebaf201547">FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfRef</a> (int bit_rate, const InputType *input, size_t input_rows, int input_columns, std::uint8_t *output)</td></tr>
+<tr class="separator:ad89426896d5c7b1f1b5db8ebaf201547"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7cba6dad217715349653862b3e691057" id="r_a7cba6dad217715349653862b3e691057"><td class="memTemplParams" colspan="2">template&lt;typename InputType &gt; </td></tr>
+<tr class="memitem:a7cba6dad217715349653862b3e691057"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a7cba6dad217715349653862b3e691057">FloatOrHalfToFused8BitRowwiseQuantizedSBFloatRef</a> (const InputType *input, size_t input_rows, int input_columns, std::uint8_t *output)</td></tr>
+<tr class="separator:a7cba6dad217715349653862b3e691057"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adee65a9c68614b76ffdf2b3bc11b4618" id="r_adee65a9c68614b76ffdf2b3bc11b4618"><td class="memTemplParams" colspan="2">template&lt;typename OutputType &gt; </td></tr>
+<tr class="memitem:adee65a9c68614b76ffdf2b3bc11b4618"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#adee65a9c68614b76ffdf2b3bc11b4618">FusedNBitRowwiseQuantizedSBHalfToFloatOrHalfRef</a> (int bit_rate, const uint8_t *input, size_t input_rows, int input_columns, OutputType *output)</td></tr>
+<tr class="separator:adee65a9c68614b76ffdf2b3bc11b4618"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a19217d3a8551a7b251ecb1eba79669bc" id="r_a19217d3a8551a7b251ecb1eba79669bc"><td class="memTemplParams" colspan="2">template&lt;typename OutputType &gt; </td></tr>
+<tr class="memitem:a19217d3a8551a7b251ecb1eba79669bc"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a19217d3a8551a7b251ecb1eba79669bc">Fused8BitRowwiseQuantizedSBFloatToFloatOrHalfRef</a> (const uint8_t *input, size_t input_rows, int input_columns, OutputType *output)</td></tr>
+<tr class="separator:a19217d3a8551a7b251ecb1eba79669bc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga94b9e26f3c7ff032c5316bcc0167c23b" id="r_ga94b9e26f3c7ff032c5316bcc0167c23b"><td class="memItemLeft" align="right" valign="top">uint32_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__fbgemm-quant-utils-avx2.html#ga94b9e26f3c7ff032c5316bcc0167c23b">Xor128</a> (void)</td></tr>
+<tr class="separator:ga94b9e26f3c7ff032c5316bcc0167c23b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga92e2b96889b039f101e24855e163021b" id="r_ga92e2b96889b039f101e24855e163021b"><td class="memTemplParams" colspan="2">template&lt;bool A_SYMMETRIC, bool B_SYMMETRIC, QuantizationGranularity Q_GRAN, bool HAS_BIAS, bool FUSE_RELU, typename BIAS_TYPE  = std::int32_t, bool DIRECT = false&gt; </td></tr>
+<tr class="memitem:ga92e2b96889b039f101e24855e163021b"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="group__fbgemm-quant-utils-avx2.html#ga92e2b96889b039f101e24855e163021b">requantizeOutputProcessingAvx2</a> (std::uint8_t *out, const std::int32_t *inp, const <a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a> &amp;block, int ld_out, int ld_in, const <a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a>&lt; BIAS_TYPE &gt; &amp;r)</td></tr>
+<tr class="separator:ga92e2b96889b039f101e24855e163021b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab1b2ed3537f97d130f8ed039bc9aa463" id="r_gab1b2ed3537f97d130f8ed039bc9aa463"><td class="memTemplParams" colspan="2">template&lt;bool A_SYMMETRIC, bool B_SYMMETRIC, QuantizationGranularity Q_GRAN, bool HAS_BIAS, bool FUSE_RELU, int C_PER_G, typename BIAS_TYPE  = std::int32_t&gt; </td></tr>
+<tr class="memitem:gab1b2ed3537f97d130f8ed039bc9aa463"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="group__fbgemm-quant-utils-avx512.html#gab1b2ed3537f97d130f8ed039bc9aa463">requantizeOutputProcessingGConvAvx512</a> (std::uint8_t *out, const std::int32_t *inp, const <a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a> &amp;block, int ld_out, int ld_in, const <a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a>&lt; BIAS_TYPE &gt; &amp;r)</td></tr>
+<tr class="separator:gab1b2ed3537f97d130f8ed039bc9aa463"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9d995b583abb4b09927c90f66e3b1463" id="r_a9d995b583abb4b09927c90f66e3b1463"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a9d995b583abb4b09927c90f66e3b1463"><td class="memTemplItemLeft" align="right" valign="top">int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a9d995b583abb4b09927c90f66e3b1463">compare_buffers</a> (const T *ref, const T *test, int m, int n, int ld, size_t max_mismatches_to_report, float atol=1e-3)</td></tr>
+<tr class="separator:a9d995b583abb4b09927c90f66e3b1463"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adfee356e154f8b2f88c725885b1dbc11" id="r_adfee356e154f8b2f88c725885b1dbc11"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:adfee356e154f8b2f88c725885b1dbc11"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#adfee356e154f8b2f88c725885b1dbc11">printMatrix</a> (<a class="el" href="#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a> trans, const T *inp, size_t R, size_t C, size_t ld, std::string name)</td></tr>
+<tr class="separator:adfee356e154f8b2f88c725885b1dbc11"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a75b4ad78ae16c6e6782f82e1ff4012a8" id="r_a75b4ad78ae16c6e6782f82e1ff4012a8"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a75b4ad78ae16c6e6782f82e1ff4012a8"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a75b4ad78ae16c6e6782f82e1ff4012a8">transpose_simd</a> (int64_t M, int64_t N, const T *src, int64_t ld_src, T *dst, int64_t ld_dst)</td></tr>
+<tr class="separator:a75b4ad78ae16c6e6782f82e1ff4012a8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af150495d47d5ccb1670524166fd9b45d" id="r_af150495d47d5ccb1670524166fd9b45d"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#af150495d47d5ccb1670524166fd9b45d">fbgemmForceIsa</a> (<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a>)</td></tr>
+<tr class="separator:af150495d47d5ccb1670524166fd9b45d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9d17a4894f822f7afd5c79407bbf91d5" id="r_a9d17a4894f822f7afd5c79407bbf91d5"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a9d17a4894f822f7afd5c79407bbf91d5">fbgemmEnableAvx512Ymm</a> (bool)</td></tr>
+<tr class="separator:a9d17a4894f822f7afd5c79407bbf91d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2be92a96ebd3c0d9bc9f9c0d0c537969" id="r_a2be92a96ebd3c0d9bc9f9c0d0c537969"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a2be92a96ebd3c0d9bc9f9c0d0c537969">fbgemmInstructionSet</a> ()</td></tr>
+<tr class="separator:a2be92a96ebd3c0d9bc9f9c0d0c537969"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26e1a7f0b1935835ad95a52aa4f56eb8" id="r_a26e1a7f0b1935835ad95a52aa4f56eb8"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a26e1a7f0b1935835ad95a52aa4f56eb8">fbgemmGet2DPartition</a> (int m, int n, int nthreads, int n_align, double aspect_ratio)</td></tr>
+<tr class="separator:a26e1a7f0b1935835ad95a52aa4f56eb8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abf9cb71c5c3a79935f7146f05510bb19" id="r_abf9cb71c5c3a79935f7146f05510bb19"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#abf9cb71c5c3a79935f7146f05510bb19">fbgemmPartition1D</a> (int thread_id, int num_threads, std::int64_t total_work, std::int64_t &amp;start, std::int64_t &amp;end)</td></tr>
+<tr class="separator:abf9cb71c5c3a79935f7146f05510bb19"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae6d6321b283eaa5a8ddaaa96ea22c62f" id="r_ae6d6321b283eaa5a8ddaaa96ea22c62f"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ae6d6321b283eaa5a8ddaaa96ea22c62f">fbgemmPartition1DBlocked</a> (int thread_id, int num_threads, std::int64_t total_work, int block_size, std::int64_t &amp;start, std::int64_t &amp;end)</td></tr>
+<tr class="separator:ae6d6321b283eaa5a8ddaaa96ea22c62f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4bd183ba7e59151ac6bff236729d4a41" id="r_a4bd183ba7e59151ac6bff236729d4a41"><td class="memItemLeft" align="right" valign="top">bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a4bd183ba7e59151ac6bff236729d4a41">is_autovec_disabled</a> ()</td></tr>
+<tr class="separator:a4bd183ba7e59151ac6bff236729d4a41"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa06c4dd5673e6b3df1dfe3617fdc919d" id="r_aa06c4dd5673e6b3df1dfe3617fdc919d"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet, typename T , typename std::enable_if&lt; instSet==inst_set_t::avx2, int &gt;::type  = 0&gt; </td></tr>
+<tr class="memitem:aa06c4dd5673e6b3df1dfe3617fdc919d"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#aa06c4dd5673e6b3df1dfe3617fdc919d">gen16BitVectorOne</a> (x86::Emitter *a, T dest)</td></tr>
+<tr class="separator:aa06c4dd5673e6b3df1dfe3617fdc919d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa56904bd84399e10104d286e0e10a2d7" id="r_aa56904bd84399e10104d286e0e10a2d7"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet, typename T , typename std::enable_if&lt; instSet==inst_set_t::avx2, int &gt;::type  = 0&gt; </td></tr>
+<tr class="memitem:aa56904bd84399e10104d286e0e10a2d7"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#aa56904bd84399e10104d286e0e10a2d7">emitLoadDWord</a> (x86::Emitter *a, T dest, const x86::Mem &amp;ptr)</td></tr>
+<tr class="separator:aa56904bd84399e10104d286e0e10a2d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a602ac18c0e6c32448ff8d21818bded38" id="r_a602ac18c0e6c32448ff8d21818bded38"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet, typename T , typename std::enable_if&lt; instSet==inst_set_t::avx512||instSet==inst_set_t::avx512_ymm||instSet==inst_set_t::avx512_vnni||instSet==inst_set_t::avx512_vnni_ymm, int &gt;::type  = 0&gt; </td></tr>
+<tr class="memitem:a602ac18c0e6c32448ff8d21818bded38"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a602ac18c0e6c32448ff8d21818bded38">emitExtractHalfVector</a> (x86::Emitter *a, x86::Ymm half, const x86::Zmm vec, int idx)</td></tr>
+<tr class="separator:a602ac18c0e6c32448ff8d21818bded38"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3c476c8ddbed58f3f6b4395dd55ed2a3" id="r_a3c476c8ddbed58f3f6b4395dd55ed2a3"><td class="memTemplParams" colspan="2">template&lt;typename T , typename std::enable_if&lt; std::is_same&lt; T, x86::Ymm &gt;::value, int &gt;::type  = 0&gt; </td></tr>
+<tr class="memitem:a3c476c8ddbed58f3f6b4395dd55ed2a3"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a3c476c8ddbed58f3f6b4395dd55ed2a3">gen8BitVectorOne</a> (x86::Emitter *a, T dest)</td></tr>
+<tr class="separator:a3c476c8ddbed58f3f6b4395dd55ed2a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a15434be774f5beeb39e4fe225d6fb9" id="r_a2a15434be774f5beeb39e4fe225d6fb9"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> INST_SET, typename std::enable_if&lt; INST_SET==inst_set_t::avx2||INST_SET==inst_set_t::avx512, int &gt;::type  = 0&gt; </td></tr>
+<tr class="memitem:a2a15434be774f5beeb39e4fe225d6fb9"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a2a15434be774f5beeb39e4fe225d6fb9">genU8I8S32FMA</a> (x86::Emitter *a, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t aReg, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t bReg, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t cReg, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t oneReg16Bit, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t tmpReg)</td></tr>
+<tr class="separator:a2a15434be774f5beeb39e4fe225d6fb9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa9ddfdb1cd3e41712844257212fcb050" id="r_aa9ddfdb1cd3e41712844257212fcb050"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> INST_SET, typename std::enable_if&lt; INST_SET==inst_set_t::avx2||INST_SET==inst_set_t::avx512, int &gt;::type  = 0&gt; </td></tr>
+<tr class="memitem:aa9ddfdb1cd3e41712844257212fcb050"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#aa9ddfdb1cd3e41712844257212fcb050">genU8Sum4</a> (x86::Emitter *a, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t src, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t dest, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t oneReg16Bit, typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t tmpReg)</td></tr>
+<tr class="separator:aa9ddfdb1cd3e41712844257212fcb050"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3535bf91ff758b3bd13929bf9f211c90" id="r_a3535bf91ff758b3bd13929bf9f211c90"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a3535bf91ff758b3bd13929bf9f211c90"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a3535bf91ff758b3bd13929bf9f211c90">genU8Sum8</a> (x86::Emitter *a, T src, T dest, T tmpReg)</td></tr>
+<tr class="separator:a3535bf91ff758b3bd13929bf9f211c90"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3a50b707287c0456d23e735846b144c0" id="r_a3a50b707287c0456d23e735846b144c0"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a3a50b707287c0456d23e735846b144c0">initCRegs</a> (x86::Emitter *a, int rowRegs, int colRegs)</td></tr>
+<tr class="separator:a3a50b707287c0456d23e735846b144c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab87b23be5587e267db6ab7d2b97c6915" id="r_ab87b23be5587e267db6ab7d2b97c6915"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ab87b23be5587e267db6ab7d2b97c6915">requantize_u8acc32_ref</a> (int M, int N, int ld, const std::int32_t *inp, std::uint8_t *out, std::int32_t C_multiplier, std::int32_t C_right_shift, std::int32_t C_zero_point, std::int32_t A_zero_point, std::int32_t B_zero_point, const std::int32_t *row_offsets, const std::int32_t *col_offsets, const std::int32_t *bias, bool fuse_relu=false)</td></tr>
+<tr class="separator:ab87b23be5587e267db6ab7d2b97c6915"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a798fea9136d48e1cd4c8a2926fb869ed" id="r_a798fea9136d48e1cd4c8a2926fb869ed"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a798fea9136d48e1cd4c8a2926fb869ed">requantize_u8acc32_ref</a> (int M, int N, int ld, const std::int32_t *inp, std::uint8_t *out, const float *C_multiplier, std::int32_t C_zero_point, std::int32_t A_zero_point, const std::int32_t *B_zero_point, const std::int32_t *row_offsets, const std::int32_t *col_offsets, const std::int32_t *bias, int ncols_per_quant_group, bool fuse_relu=false)</td></tr>
+<tr class="separator:a798fea9136d48e1cd4c8a2926fb869ed"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0f66af5e8e787dc1ff6893ac75ae161f" id="r_a0f66af5e8e787dc1ff6893ac75ae161f"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a0f66af5e8e787dc1ff6893ac75ae161f">col_offsets_with_zero_pt_s8acc32_ref</a> (int K, int N, int ld, const std::int8_t *Bint8, const std::int32_t *B_zero_point, std::int32_t *col_offsets, int ncols_per_quant_group)</td></tr>
+<tr class="separator:a0f66af5e8e787dc1ff6893ac75ae161f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f19d1389f9e99cc0daded599b1f1fd4" id="r_a4f19d1389f9e99cc0daded599b1f1fd4"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a4f19d1389f9e99cc0daded599b1f1fd4">spmdm_ref</a> (int M, const std::uint8_t *A, int lda, <a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a> &amp;B, bool accumulation, std::int32_t *C, int ldc, int groups=1)</td></tr>
+<tr class="separator:a4f19d1389f9e99cc0daded599b1f1fd4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3f04df11e31dd656955d1bd1f8a7893d" id="r_a3f04df11e31dd656955d1bd1f8a7893d"><td class="memTemplParams" colspan="2">template&lt;typename IndexType &gt; </td></tr>
+<tr class="memitem:a3f04df11e31dd656955d1bd1f8a7893d"><td class="memTemplItemLeft" align="right" valign="top">int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a3f04df11e31dd656955d1bd1f8a7893d">sparse_adagrad_ref</a> (int num_rows, int block_size, std::uint64_t param_size, float *w, const float *g, float *h, const IndexType *indices, float epsilon, float lr, float weight_decay=0.f, const double *counter=nullptr, const int64_t counter_halflife=0)</td></tr>
+<tr class="separator:a3f04df11e31dd656955d1bd1f8a7893d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3bee8daea3756d030209a6815db314d9" id="r_a3bee8daea3756d030209a6815db314d9"><td class="memTemplParams" colspan="2">template&lt;typename IndexType &gt; </td></tr>
+<tr class="memitem:a3bee8daea3756d030209a6815db314d9"><td class="memTemplItemLeft" align="right" valign="top">int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a3bee8daea3756d030209a6815db314d9">rowwise_sparse_adagrad_ref</a> (int num_rows, int block_size, std::uint64_t param_size, float *w, const float *g, float *h, const IndexType *indices, float epsilon, float lr, float weight_decay=0.f, const double *counter=nullptr, const int64_t counter_halflife=0)</td></tr>
+<tr class="separator:a3bee8daea3756d030209a6815db314d9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a18832d0507cb6d8bce78371b97f66479" id="r_a18832d0507cb6d8bce78371b97f66479"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a18832d0507cb6d8bce78371b97f66479"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a18832d0507cb6d8bce78371b97f66479">transpose_ref</a> (int64_t M, int64_t N, const T *src, int64_t ld_src, T *dst, int64_t ld_dst)</td></tr>
+<tr class="separator:a18832d0507cb6d8bce78371b97f66479"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><p>Top level include file for FBGEMM. </p>
+</div><h2 class="groupheader">Enumeration Type Documentation</h2>
+<a id="a5356ce4b0771923d6eee8b3692afd2f3" name="a5356ce4b0771923d6eee8b3692afd2f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5356ce4b0771923d6eee8b3692afd2f3">&#9670;&#160;</a></span>impl_type_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum class <a class="el" href="#a5356ce4b0771923d6eee8b3692afd2f3">impl_type_t</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">strong</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+<p>Typed enum for implementation type. </p>
+<p>ref is reference and opt is optimized. </p>
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af84f2b20490beb1dd0da4b03cf93afac" name="af84f2b20490beb1dd0da4b03cf93afac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af84f2b20490beb1dd0da4b03cf93afac">&#9670;&#160;</a></span>Bfloat16ToFloat_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void Bfloat16ToFloat_ref </td>
+          <td>(</td>
+          <td class="paramtype">const bfloat16 *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from bfloat16 to fp32: reference implementation. </p>
+
+</div>
+</div>
+<a id="afb00b526459a0db53a2c6ffe0276dd3e" name="afb00b526459a0db53a2c6ffe0276dd3e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb00b526459a0db53a2c6ffe0276dd3e">&#9670;&#160;</a></span>Bfloat16ToFloat_simd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void Bfloat16ToFloat_simd </td>
+          <td>(</td>
+          <td class="paramtype">const bfloat16 *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from bfloat16 to fp32: simd implementation. </p>
+
+</div>
+</div>
+<a id="a0f66af5e8e787dc1ff6893ac75ae161f" name="a0f66af5e8e787dc1ff6893ac75ae161f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f66af5e8e787dc1ff6893ac75ae161f">&#9670;&#160;</a></span>col_offsets_with_zero_pt_s8acc32_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void col_offsets_with_zero_pt_s8acc32_ref </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>K</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ld</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int8_t *</td>          <td class="paramname"><span class="paramname"><em>Bint8</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>B_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>col_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ncols_per_quant_group</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Reference implementation to compute adjusted col_offsets (sum of columns of B and adjusted with B_zero_point) </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">ncols_per_quant_group</td><td>see ncols_per_quant_group in requantize_u8acc32_ref </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a9d995b583abb4b09927c90f66e3b1463" name="a9d995b583abb4b09927c90f66e3b1463"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d995b583abb4b09927c90f66e3b1463">&#9670;&#160;</a></span>compare_buffers()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">int compare_buffers </td>
+          <td>(</td>
+          <td class="paramtype">const T *</td>          <td class="paramname"><span class="paramname"><em>ref</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const T *</td>          <td class="paramname"><span class="paramname"><em>test</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>m</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>n</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ld</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>max_mismatches_to_report</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>atol</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>A function to compare data in two buffers for closeness/equality. </p>
+<p>Compare the reference and test result matrix to check the correctness.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">ref</td><td>The buffer for the reference result matrix. </td></tr>
+    <tr><td class="paramname">test</td><td>The buffer for the test result matrix. </td></tr>
+    <tr><td class="paramname">m</td><td>The height of the reference and test result matrix. </td></tr>
+    <tr><td class="paramname">n</td><td>The width of the reference and test result matrix. </td></tr>
+    <tr><td class="paramname">ld</td><td>The leading dimension of the reference and test result matrix. </td></tr>
+    <tr><td class="paramname">max_mismatches_to_report</td><td>The maximum number of tolerable mismatches to report. </td></tr>
+    <tr><td class="paramname">atol</td><td>The tolerable error. </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="retval"><dt>Return values</dt><dd>
+  <table class="retval">
+    <tr><td class="paramname">false</td><td>If the number of mismatches for reference and test result matrix exceeds max_mismatches_to_report. </td></tr>
+    <tr><td class="paramname">true</td><td>If the number of mismatches for reference and test result matrix is tolerable. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="ad5bda89769bca9a01ddf81591f20ef02" name="ad5bda89769bca9a01ddf81591f20ef02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad5bda89769bca9a01ddf81591f20ef02">&#9670;&#160;</a></span>ConvFastPath()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int SPATIAL_DIM = 2, typename ACC_T  = std::int32_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae779e18e5742efa69f340bcb616acdb2">optimized_conv_t</a> ConvFastPath </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>conv_p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Returns which fast path to take. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">SPATIAL_DIM</td><td>It's 2 for 2D convolutions and 3 for 3D convolutions.</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>optimized_conv_t::depthwise, optimized_conv_t::groupwise or optimized_conv_t::im2col </dd></dl>
+
+</div>
+</div>
+<a id="ac2e9634d4e2366ed6f2181ae7e7b17b2" name="ac2e9634d4e2366ed6f2181ae7e7b17b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2e9634d4e2366ed6f2181ae7e7b17b2">&#9670;&#160;</a></span>depthwise_2d_same_pad()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;QuantizationGranularity Q_GRAN, typename BIAS_TYPE  = std::int32_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void depthwise_2d_same_pad </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>H</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>W</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>IC</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>OC</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>stride_h</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>stride_w</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>A_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>A</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>B_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const PackedDepthWiseConvMatrix &amp;</td>          <td class="paramname"><span class="paramname"><em>Bp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>C_multiplier</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>C_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>C</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>col_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const BIAS_TYPE *</td>          <td class="paramname"><span class="paramname"><em>bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>fuse_relu</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>act_times_w_scale</em><span class="paramdefsep"> = </span><span class="paramdefval">nullptr</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>thread_id</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_threads</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Depth-wise convolution that results in the same output feature size as the input feature. That is PAD_T = PAD_B = (R - 1) / 2 and PAD_L = PAD_R = (S - 1) / 2. This function also does requantization. </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">col_offsets</td><td>nullptr if col_offsets are folded into bias </td></tr>
+    <tr><td class="paramname">act_times_w_scale</td><td>Only used if BIAS_TYPE is float, i.e., bias is unquantized. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a0bfa499fd1b485bc3e457842343bca57" name="a0bfa499fd1b485bc3e457842343bca57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0bfa499fd1b485bc3e457842343bca57">&#9670;&#160;</a></span>depthwise_3d_same_pad()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;QuantizationGranularity Q_GRAN, typename BIAS_TYPE  = std::int32_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void depthwise_3d_same_pad </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; 3 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>conv_p</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>A_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>A</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>B_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const PackedDepthWiseConvMatrix &amp;</td>          <td class="paramname"><span class="paramname"><em>Bp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>C_multiplier</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>C_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>C</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>col_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const BIAS_TYPE *</td>          <td class="paramname"><span class="paramname"><em>bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>fuse_relu</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>act_times_w_scale</em><span class="paramdefsep"> = </span><span class="paramdefval">nullptr</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>thread_id</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_threads</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">col_offsets</td><td>nullptr if col_offsets are folded into bias </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a602ac18c0e6c32448ff8d21818bded38" name="a602ac18c0e6c32448ff8d21818bded38"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a602ac18c0e6c32448ff8d21818bded38">&#9670;&#160;</a></span>emitExtractHalfVector()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet, typename T , typename std::enable_if&lt; instSet==inst_set_t::avx512||instSet==inst_set_t::avx512_ymm||instSet==inst_set_t::avx512_vnni||instSet==inst_set_t::avx512_vnni_ymm, int &gt;::type  = 0&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void emitExtractHalfVector </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">x86::Ymm</td>          <td class="paramname"><span class="paramname"><em>half</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const x86::Zmm</td>          <td class="paramname"><span class="paramname"><em>vec</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>idx</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Emit partial extract from Wide regiter to Half Register, eg. Zmm -&gt; Ymm or Ymm -&gt; Xmm. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">instSet</td><td>instruction set to be used</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">half</td><td>Destination (half) vector register </td></tr>
+    <tr><td class="paramname">vec</td><td>Source (full) vector register </td></tr>
+    <tr><td class="paramname">idx</td><td>Index of of the half vector 0 or 1 </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="aa56904bd84399e10104d286e0e10a2d7" name="aa56904bd84399e10104d286e0e10a2d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa56904bd84399e10104d286e0e10a2d7">&#9670;&#160;</a></span>emitLoadDWord()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet, typename T , typename std::enable_if&lt; instSet==inst_set_t::avx2, int &gt;::type  = 0&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void emitLoadDWord </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T</td>          <td class="paramname"><span class="paramname"><em>dest</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const x86::Mem &amp;</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Emit instruction do load 32-bit integer. AVX512 has different instrunction to load registers with index &gt;= 16. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">T</td><td>Register type of destination, e.g., x86::Ymm or x86::Zmm</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">dest</td><td>Destination vector register </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="adc9d2af7ea01634fd2e5bef0e6baa0ab" name="adc9d2af7ea01634fd2e5bef0e6baa0ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc9d2af7ea01634fd2e5bef0e6baa0ab">&#9670;&#160;</a></span>fbgemmConv()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename processOutputType , int SPATIAL_DIM = 2, typename ACC_T  = std::int32_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">int fbgemmConv </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>conv_p</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>activations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm_1_1_pack_weights_for_conv.html">PackWeightsForConv</a>&lt; SPATIAL_DIM, std::int8_t, ACC_T &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>packed_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename processOutputType::outType *</td>          <td class="paramname"><span class="paramname"><em>out</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>outBuffer</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">processOutputType &amp;</td>          <td class="paramname"><span class="paramname"><em>outProcess</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>thread_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_threads</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *</td>          <td class="paramname"><span class="paramname"><em>blocking_params</em><span class="paramdefsep"> = </span><span class="paramdefval">nullptr</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Performs convolution using fastest path available. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">SPATIAL_DIM</td><td>It's 2 for 2D convolutions and 3 for 3D convolutions. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a9d17a4894f822f7afd5c79407bbf91d5" name="a9d17a4894f822f7afd5c79407bbf91d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d17a4894f822f7afd5c79407bbf91d5">&#9670;&#160;</a></span>fbgemmEnableAvx512Ymm()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void fbgemmEnableAvx512Ymm </td>
+          <td>(</td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>flag</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Enable AVX512-256 path for Intel(r) Xeon(r) D servers. </p>
+<p>Enables AVX512-256 if appriate. Inteded for Skylake based Xeon-D processors, wherein AXV512-256 is preferred due to higher Turbo frequencis.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">flag</td><td>True enables / False disables </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="af150495d47d5ccb1670524166fd9b45d" name="af150495d47d5ccb1670524166fd9b45d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af150495d47d5ccb1670524166fd9b45d">&#9670;&#160;</a></span>fbgemmForceIsa()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void fbgemmForceIsa </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a></td>          <td class="paramname"><span class="paramname"><em>isa</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Explicitly set instruction set to be used. </p>
+<p>Force specific architecure to for GEMM kernel execution overides FBGEMM_ENABLE_AVX512_256 env. variable.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">isa</td><td>the ISA to enforce, supported optionsi AVX2 inst_set_t::avx2 AVX512 inst_set_t::avx512 AVX512_E1 inst_set_t::avx512_vnni AVX512_256 inst_set_t::avx512_ymm AVX512_E1_256 inst_set_t::avx512_vnni_ymm </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a26e1a7f0b1935835ad95a52aa4f56eb8" name="a26e1a7f0b1935835ad95a52aa4f56eb8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26e1a7f0b1935835ad95a52aa4f56eb8">&#9670;&#160;</a></span>fbgemmGet2DPartition()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int fbgemmGet2DPartition </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>m</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>n</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>nthreads</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>n_align</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>aspect_ratio</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>A heuristic algorithm to partition the threads across m and n dimensions for parallelization, ensuring the ratio between the number of rows allocated to each thread in the m dimension and the number of columns allocated to each thread in the n dimension is approximately aspect_ratio. </p>
+<p>The less aspect_ratio is, the more favorable it is to parallelize the m dimension over the n dimension. </p>
+
+</div>
+</div>
+<a id="a5780ef4a16a1682740af29283360caa4" name="a5780ef4a16a1682740af29283360caa4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5780ef4a16a1682740af29283360caa4">&#9670;&#160;</a></span>fbgemmGroupwiseConv()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename packed_W , typename outType , bool FUSE_RELU, QuantizationGranularity Q_GRAN, int SPATIAL_DIM = 2, typename BIAS_TYPE  = std::int32_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void fbgemmGroupwiseConv </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>conv_param</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>activations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>a_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>rowOffsetBuf</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">packed_W &amp;</td>          <td class="paramname"><span class="paramname"><em>packed_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">outType *</td>          <td class="paramname"><span class="paramname"><em>out</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>outBuffer</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm_1_1_re_quantize_output.html">ReQuantizeOutput</a>&lt; FUSE_RELU, Q_GRAN, BIAS_TYPE &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>outProcess</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>thread_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_threads</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Perform small-channels-per-group groupwise convolution Note: Currently threading is not supported. This function does nothing for thread_ids &gt; 0, i.e., returns early. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">rowOffsetBuf</td><td>nullptr if B uses symmetric quantization Note: Currently threading is not supported. This function does nothing for thread_ids &gt; 0, i.e., returns early. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a2be92a96ebd3c0d9bc9f9c0d0c537969" name="a2be92a96ebd3c0d9bc9f9c0d0c537969"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2be92a96ebd3c0d9bc9f9c0d0c537969">&#9670;&#160;</a></span>fbgemmInstructionSet()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> fbgemmInstructionSet </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Retrieve current CPU instruction set. </p>
+<p>Determine the best available x86 machine ISA to be used for GEMM kernels. FBGEMM_ENABLE_AVX512_256 env. or <a class="el" href="#af150495d47d5ccb1670524166fd9b45d" title="Explicitly set instruction set to be used.">fbgemmForceIsa()</a> are set forces to specific architecture if supported by the processor. Enforcing on Skylake to AVX2 will execute AVX2 version of the kernel However, enforcing AVX512-256 on Broadwell will fail, and AVX2 version of the kernels will be executed. </p>
+
+</div>
+</div>
+<a id="a1f01b8b3f8fea3e9c8ccc2aed30ba70a" name="a1f01b8b3f8fea3e9c8ccc2aed30ba70a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f01b8b3f8fea3e9c8ccc2aed30ba70a">&#9670;&#160;</a></span>fbgemmPacked()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename packingAMatrix , typename packingBMatrix , typename cT , typename processOutputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void fbgemmPacked </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a>&lt; packingAMatrix, typename packingAMatrix::inpType, typename packingAMatrix::accType &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>packA</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm_1_1_pack_matrix.html">PackMatrix</a>&lt; packingBMatrix, typename packingBMatrix::inpType, typename packingBMatrix::accType &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>packB</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">cT *</td>          <td class="paramname"><span class="paramname"><em>C</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>C_buffer</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint32_t</td>          <td class="paramname"><span class="paramname"><em>ldc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const processOutputType &amp;</td>          <td class="paramname"><span class="paramname"><em>outProcess</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>thread_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_threads</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a> *</td>          <td class="paramname"><span class="paramname"><em>blocking_params</em><span class="paramdefsep"> = </span><span class="paramdefval">nullptr</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Matrix B must be prepacked. For matrix A, packA.pack function is called to pack it.</p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">packingAMatrix</td><td>processing of A matrix while packing, e.g., <a class="el" href="classfbgemm_1_1_pack_a_with_quant_row_offset.html" title="Matrix packed for the first input matrix in GEMM (usually activation), and row offsets used for requa...">PackAWithQuantRowOffset</a></td></tr>
+    <tr><td class="paramname">packingBMatrix</td><td>processing of B matrix while packing, e.g., pre-multiply by alpha </td></tr>
+    <tr><td class="paramname">cT</td><td>data type of C matrix </td></tr>
+    <tr><td class="paramname">processOutputType</td><td>further processing of outputs, e.g., Relu </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="abf9cb71c5c3a79935f7146f05510bb19" name="abf9cb71c5c3a79935f7146f05510bb19"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abf9cb71c5c3a79935f7146f05510bb19">&#9670;&#160;</a></span>fbgemmPartition1D()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void fbgemmPartition1D </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>thread_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_threads</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>total_work</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t &amp;</td>          <td class="paramname"><span class="paramname"><em>start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t &amp;</td>          <td class="paramname"><span class="paramname"><em>end</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Partition work across given number of threads. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">start</td><td>Given thread_id should execute starting from the index start </td></tr>
+    <tr><td class="paramname">stop</td><td>Given thread_id should stop executing at the index stop</td></tr>
+  </table>
+  </dd>
+</dl>
+<p>i.e., the loop should be equivalent to for(int i = start; i &lt; end; ++i) </p>
+
+</div>
+</div>
+<a id="ae6d6321b283eaa5a8ddaaa96ea22c62f" name="ae6d6321b283eaa5a8ddaaa96ea22c62f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6d6321b283eaa5a8ddaaa96ea22c62f">&#9670;&#160;</a></span>fbgemmPartition1DBlocked()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void fbgemmPartition1DBlocked </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>thread_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_threads</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>total_work</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t &amp;</td>          <td class="paramname"><span class="paramname"><em>start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t &amp;</td>          <td class="paramname"><span class="paramname"><em>end</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Partition work across given number of threads in blocks of size block_size. Each thread gets a multiple of block_size work or nothing, except the last one. The last one might receive the fringe case. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">start</td><td>Given thread_id should execute starting from the index start </td></tr>
+    <tr><td class="paramname">stop</td><td>Given thread_id should stop executing at the index stop</td></tr>
+  </table>
+  </dd>
+</dl>
+<p>The loop can be equivalent to for(int i = start; i &lt; end; i+=block_size) except for the last thread. (i.e., thread_id = num_threads - 1)</p>
+<p>Example 1: block_size = 2, num_threads = 2 total_work start(th 0) end(th 0) start(th 1) end(th 1) 4 0 2 2 4 5 0 2 2 5</p>
+<p>Example 2: block_size = 2, num_threads = 3 total_work start(th 0) end(th 0) start(th 1) end(th 1) 4 0 2 2 4 5 0 2 2 4</p>
+<p>total_work start(th 2) end(th 2) 4 4 4 5 4 5</p>
+<p>Example 3: block_size = 2, num_threads = 4 total_work start(th 0) end(th 0) start(th 1) end(th 1) 4 0 2 2 4 5 0 2 2 4</p>
+<p>total_work start(th 2) end(th 2) start(th 3) end(th 3) 4 4 4 4 4 5 4 4 4 5 </p>
+
+</div>
+</div>
+<a id="afc22ec6e38a38c7f41484f844dbfbeac" name="afc22ec6e38a38c7f41484f844dbfbeac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc22ec6e38a38c7f41484f844dbfbeac">&#9670;&#160;</a></span>Float16ToFloat_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void Float16ToFloat_ref </td>
+          <td>(</td>
+          <td class="paramtype">const float16 *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from float16 to fp32: reference implementation. </p>
+
+</div>
+</div>
+<a id="af066434e23720ecd4ddcc51d7a616aef" name="af066434e23720ecd4ddcc51d7a616aef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af066434e23720ecd4ddcc51d7a616aef">&#9670;&#160;</a></span>Float16ToFloat_simd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void Float16ToFloat_simd </td>
+          <td>(</td>
+          <td class="paramtype">const float16 *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from float16 to fp32: simd implementation. </p>
+
+</div>
+</div>
+<a id="afafa94e239d016cf273ad0597152b86c" name="afafa94e239d016cf273ad0597152b86c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afafa94e239d016cf273ad0597152b86c">&#9670;&#160;</a></span>FloatOrHalfToFused8BitRowwiseQuantizedSBFloat()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename InputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void FloatOrHalfToFused8BitRowwiseQuantizedSBFloat </td>
+          <td>(</td>
+          <td class="paramtype">const InputType *</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Convert float or half inputs to rowwise quantized (8-bit) outputs. Scale and Bias are in float. Each row's Scale and Bias are stored in the row itself (fused) at the end.</p>
+<p>This version intentionally supports only 8-bit because we want to discourage the usage of float scale and bias with 2 and 4 bit cases as that diminishes the overall memory savings. </p>
+
+</div>
+</div>
+<a id="a7cba6dad217715349653862b3e691057" name="a7cba6dad217715349653862b3e691057"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cba6dad217715349653862b3e691057">&#9670;&#160;</a></span>FloatOrHalfToFused8BitRowwiseQuantizedSBFloatRef()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename InputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void FloatOrHalfToFused8BitRowwiseQuantizedSBFloatRef </td>
+          <td>(</td>
+          <td class="paramtype">const InputType *</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Same as FloatOrHalfToFused8BitRowwiseQuantizedSBFloat but unoptimized. This should not be called directly except in testing. </p>
+
+</div>
+</div>
+<a id="ad89426896d5c7b1f1b5db8ebaf201547" name="ad89426896d5c7b1f1b5db8ebaf201547"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad89426896d5c7b1f1b5db8ebaf201547">&#9670;&#160;</a></span>FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfRef()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename InputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfRef </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const InputType *</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Same as ToFusedNBitRowwiseQuantizedSBHalf but unoptimized. This should not be called directly except in testing. </p>
+
+</div>
+</div>
+<a id="ab22f5d961c6a42aab1c37b17a3d93770" name="ab22f5d961c6a42aab1c37b17a3d93770"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab22f5d961c6a42aab1c37b17a3d93770">&#9670;&#160;</a></span>FloatToBfloat16_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void FloatToBfloat16_ref </td>
+          <td>(</td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bfloat16 *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from fp32 to bfloat16: reference implementation. </p>
+
+</div>
+</div>
+<a id="aa423a42208a4fde5f23ab6a28cef24a3" name="aa423a42208a4fde5f23ab6a28cef24a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa423a42208a4fde5f23ab6a28cef24a3">&#9670;&#160;</a></span>FloatToBfloat16_simd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void FloatToBfloat16_simd </td>
+          <td>(</td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bfloat16 *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from fp32 to bfloat16: simd implementation. </p>
+
+</div>
+</div>
+<a id="af44c584c974f95f4866806cee3798742" name="af44c584c974f95f4866806cee3798742"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af44c584c974f95f4866806cee3798742">&#9670;&#160;</a></span>FloatToFloat16_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void FloatToFloat16_ref </td>
+          <td>(</td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float16 *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>do_clip</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from fp32 to float16: reference implementation.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">do_clip</td><td>if true we saturate to fp16 min and max instead of generating infinities. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a53a50b113345c09b89b45834f31d52df" name="a53a50b113345c09b89b45834f31d52df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53a50b113345c09b89b45834f31d52df">&#9670;&#160;</a></span>FloatToFloat16_simd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void FloatToFloat16_simd </td>
+          <td>(</td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float16 *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>do_clip</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>@ Transform all entries in a matrix from fp32 to float16: simd implementation.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">do_clip</td><td>if true we saturate to fp16 min and max instead of generating infinities. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a42aefaaf238d065625a64a757f998eef" name="a42aefaaf238d065625a64a757f998eef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42aefaaf238d065625a64a757f998eef">&#9670;&#160;</a></span>Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename OutputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf </td>
+          <td>(</td>
+          <td class="paramtype">const uint8_t *</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">OutputType *</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Convert fused rowwise quantized (8-bit) inputs to float or half outputs. Scale and Bias are in float. Each row's Scale and Bias are stored in the row itself (fused) at the end.</p>
+<p>This version intentionally supports only 8-bit because the corresponding quantize version only supports 8-bit. </p>
+
+</div>
+</div>
+<a id="a19217d3a8551a7b251ecb1eba79669bc" name="a19217d3a8551a7b251ecb1eba79669bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a19217d3a8551a7b251ecb1eba79669bc">&#9670;&#160;</a></span>Fused8BitRowwiseQuantizedSBFloatToFloatOrHalfRef()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename OutputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void Fused8BitRowwiseQuantizedSBFloatToFloatOrHalfRef </td>
+          <td>(</td>
+          <td class="paramtype">const uint8_t *</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">OutputType *</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Same as Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf but unoptimized. This should not be called directly except in testing. </p>
+
+</div>
+</div>
+<a id="a2b2ca55a7d2d5c2dbba337ee2e585f6a" name="a2b2ca55a7d2d5c2dbba337ee2e585f6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b2ca55a7d2d5c2dbba337ee2e585f6a">&#9670;&#160;</a></span>FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename OutputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const uint8_t *</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">OutputType *</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Convert fused rowwise quantized inputs to float (fp32 or fp16). bitrate specifies the number of bits in quantized input. Scale and Bias are in fp16. Each row's Scale and Bias are stored in the row itself (fused) at the end.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">bit_rate</td><td>can be 2, 4, or 8 </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="adee65a9c68614b76ffdf2b3bc11b4618" name="adee65a9c68614b76ffdf2b3bc11b4618"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adee65a9c68614b76ffdf2b3bc11b4618">&#9670;&#160;</a></span>FusedNBitRowwiseQuantizedSBHalfToFloatOrHalfRef()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename OutputType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void FusedNBitRowwiseQuantizedSBHalfToFloatOrHalfRef </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const uint8_t *</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">OutputType *</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Same as FusedNBitRowwiseQuantizedSBHalfToFloat but unoptimized. This should not be called directly except in testing. </p>
+
+</div>
+</div>
+<a id="aa06c4dd5673e6b3df1dfe3617fdc919d" name="aa06c4dd5673e6b3df1dfe3617fdc919d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa06c4dd5673e6b3df1dfe3617fdc919d">&#9670;&#160;</a></span>gen16BitVectorOne()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet, typename T , typename std::enable_if&lt; instSet==inst_set_t::avx2, int &gt;::type  = 0&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void gen16BitVectorOne </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T</td>          <td class="paramname"><span class="paramname"><em>dest</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Create instruction sequence to generate 16-bit 1s. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">T</td><td>Register type of destination, e.g., x86::Ymm or x86::Zmm</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">dest</td><td>Once the instruction sequence is executed, dest[0:15] will have 0x0001, dest[16:31] will have 0x0001 and so on </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a3c476c8ddbed58f3f6b4395dd55ed2a3" name="a3c476c8ddbed58f3f6b4395dd55ed2a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c476c8ddbed58f3f6b4395dd55ed2a3">&#9670;&#160;</a></span>gen8BitVectorOne()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T , typename std::enable_if&lt; std::is_same&lt; T, x86::Ymm &gt;::value, int &gt;::type  = 0&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void gen8BitVectorOne </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T</td>          <td class="paramname"><span class="paramname"><em>dest</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Create instruction sequence to generate 8-bit 1s. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">T</td><td>Register type of destination, e.g., x86::Ymm or x86::Zmm</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">dest</td><td>Once the instruction sequence is executed, dest[0:7] will have 0x01, dest[8:15] will have 0x01 and so on </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a77602a69076f938d21d336a0df00f9c4" name="a77602a69076f938d21d336a0df00f9c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77602a69076f938d21d336a0df00f9c4">&#9670;&#160;</a></span>GenerateEmbeddingSpMDM()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename InType , typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float, bool THREAD_LOCAL = false&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">EmbeddingSpMDMKernelSignature&lt; InType, IndexType, OffsetType, OutType &gt;::Type GenerateEmbeddingSpMDM </td>
+          <td>(</td>
+          <td class="paramtype">const std::int64_t</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>has_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>normalize_by_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>prefetch</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_weight_positional</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_bf16_out</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_bf16_in</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">InType</td><td>can be float, float16, or uint8_t </td></tr>
+    <tr><td class="paramname">IndexType</td><td>can be int32_t or int64_t </td></tr>
+    <tr><td class="paramname">IndexType</td><td>can be int32_t or int64_t</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">use_offsets</td><td>If true, the generated code assumes we will pass offsets instead of lengths that confirms PyTorch EmbeddingBag interface. In this case, the length of offsets array should be output_size + 1 and offsets[output_size] should be index_size. If false, the generate code assumes we will pass lengths that confirms Caffe2 SparseLengthsSum interface. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a57534e5ede9766d50e536437b499894d" name="a57534e5ede9766d50e536437b499894d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57534e5ede9766d50e536437b499894d">&#9670;&#160;</a></span>GenerateEmbeddingSpMDMFP8WithStrides()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">EmbeddingSpMDMKernelSignature&lt; std::uint8_t, IndexType, OffsetType, OutType &gt;::Type GenerateEmbeddingSpMDMFP8WithStrides </td>
+          <td>(</td>
+          <td class="paramtype">const std::int64_t</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>normalize_by_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_weight_positional</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>output_stride</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>input_stride</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em><span class="paramdefsep"> = </span><span class="paramdefval">7</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_bf16_out</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">output_stride</td><td>If -1, output_stride is same as block_size </td></tr>
+    <tr><td class="paramname">input_stride</td><td>in Bytes. If -1, input_stride is same as block_size / num_elem_per_byte + 2 * sizeof(float16) </td></tr>
+    <tr><td class="paramname">exponent_bits</td><td>is the number of exponent bits in the FP8 encode (normally 4 or 5) </td></tr>
+    <tr><td class="paramname">exponent_bias</td><td>is subtracted from the exponent to obtain the actual exponent for the floating-point number </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="aa4e2948ec5f9097f552de8a0458d49e1" name="aa4e2948ec5f9097f552de8a0458d49e1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa4e2948ec5f9097f552de8a0458d49e1">&#9670;&#160;</a></span>GenerateEmbeddingSpMDMNBit()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">EmbeddingSpMDMKernelSignature&lt; std::uint8_t, IndexType, OffsetType, OutType &gt;::Type GenerateEmbeddingSpMDMNBit </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int64_t</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>has_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>normalize_by_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>prefetch</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_weight_positional</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">IndexType</td><td>can be int32_t or int64_t </td></tr>
+    <tr><td class="paramname">OffsetType</td><td>can be int32_t or int64_t </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">bit_rate</td><td>can be 2 or 4 </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="aa7d2220ddfc7d5c9820fd03b73101d37" name="aa7d2220ddfc7d5c9820fd03b73101d37"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7d2220ddfc7d5c9820fd03b73101d37">&#9670;&#160;</a></span>GenerateEmbeddingSpMDMNBitRowWiseSparse()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename IndexType , typename OffsetType  = std::int32_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">EmbeddingSpMDMRowWiseSparseKernelSignature&lt; std::uint8_t, IndexType, OffsetType &gt;::Type GenerateEmbeddingSpMDMNBitRowWiseSparse </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int64_t</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>has_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>normalize_by_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>prefetch</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_weight_positional</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">IndexType</td><td>can be int32_t or int64_t </td></tr>
+    <tr><td class="paramname">OffsetType</td><td>can be int32_t or int64_t </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">bit_rate</td><td>can be 2 or 4 </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="abb137866f8726f5c6cbf150ccc7e5b08" name="abb137866f8726f5c6cbf150ccc7e5b08"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb137866f8726f5c6cbf150ccc7e5b08">&#9670;&#160;</a></span>GenerateEmbeddingSpMDMNBitWithStrides()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float, bool THREAD_LOCAL = false&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">EmbeddingSpMDMKernelSignature&lt; std::uint8_t, IndexType, OffsetType, OutType &gt;::Type GenerateEmbeddingSpMDMNBitWithStrides </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int64_t</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>has_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>normalize_by_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>prefetch</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_weight_positional</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>output_stride</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>input_stride</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>scale_bias_last</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_bf16_out</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">output_stride</td><td>If -1, output_stride is same as block_size </td></tr>
+    <tr><td class="paramname">input_stride</td><td>in Bytes. If -1, input_stride is same as block_size / num_elem_per_byte + 2 * sizeof(float16) </td></tr>
+    <tr><td class="paramname">scale_bias_last</td><td>if false, scale and bias appear at the beginning of each row and are in fp16 for table batched embedding (TBE) in FBGEMM_GPU. If false, it can also take -1 indices (output from pruned embedding id mapping) </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a6d6fe14c3ad83011adb500625ecbff01" name="a6d6fe14c3ad83011adb500625ecbff01"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d6fe14c3ad83011adb500625ecbff01">&#9670;&#160;</a></span>GenerateEmbeddingSpMDMRowWiseSparse()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename InType , typename IndexType , typename OffsetType  = std::int32_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">EmbeddingSpMDMRowWiseSparseKernelSignature&lt; InType, IndexType, OffsetType &gt;::Type GenerateEmbeddingSpMDMRowWiseSparse </td>
+          <td>(</td>
+          <td class="paramtype">const std::int64_t</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>has_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>normalize_by_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>prefetch</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_weight_positional</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">InType</td><td>can be float, float16, or uint8_t </td></tr>
+    <tr><td class="paramname">IndexType</td><td>can be int32_t or int64_t </td></tr>
+    <tr><td class="paramname">OffsetType</td><td>can be int32_t or int64_t </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a243ed0e4df7bb7b6c08a930ee71a996b" name="a243ed0e4df7bb7b6c08a930ee71a996b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a243ed0e4df7bb7b6c08a930ee71a996b">&#9670;&#160;</a></span>GenerateEmbeddingSpMDMWithStrides()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename InType , typename IndexType , typename OffsetType  = std::int32_t, typename OutType  = float, bool THREAD_LOCAL = false&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">EmbeddingSpMDMKernelSignature&lt; InType, IndexType, OffsetType, OutType &gt;::Type GenerateEmbeddingSpMDMWithStrides </td>
+          <td>(</td>
+          <td class="paramtype">const std::int64_t</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>has_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>normalize_by_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>prefetch</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_weight_positional</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>output_stride</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int64_t</td>          <td class="paramname"><span class="paramname"><em>input_stride</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>scale_bias_last</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>no_bag</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_bf16_out</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>is_bf16_in</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">output_stride</td><td>If -1, output_stride is same as block_size </td></tr>
+    <tr><td class="paramname">input_stride</td><td>If -1, input_stride is same as block_size </td></tr>
+    <tr><td class="paramname">scale_bias_last</td><td>if false, scale and bias appear at the beginning of each row and are in fp16 for table batched embedding (TBE) in FBGEMM_GPU. If false, it can also take -1 indices (output from pruned embedding id mapping) </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a90ceef30c1643dd1a87b1a0753b52e87" name="a90ceef30c1643dd1a87b1a0753b52e87"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90ceef30c1643dd1a87b1a0753b52e87">&#9670;&#160;</a></span>GenerateRowWiseSparseAdaGradFused()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename IndexType , typename OffsetType  = std::int32_t, typename DataType  = float&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">RowWiseSparseAdaGradFusedSignature&lt; IndexType, OffsetType, DataType &gt;::Type GenerateRowWiseSparseAdaGradFused </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>prefetch</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>use_stochastic_rounding</em><span class="paramdefsep"> = </span><span class="paramdefval">true</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>grad_stride</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">grad_stride</td><td>If -1, grad_stride is same as block size </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a2a15434be774f5beeb39e4fe225d6fb9" name="a2a15434be774f5beeb39e4fe225d6fb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2a15434be774f5beeb39e4fe225d6fb9">&#9670;&#160;</a></span>genU8I8S32FMA()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> INST_SET, typename std::enable_if&lt; INST_SET==inst_set_t::avx2||INST_SET==inst_set_t::avx512, int &gt;::type  = 0&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void genU8I8S32FMA </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>aReg</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>bReg</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>cReg</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>oneReg16Bit</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>tmpReg</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Generates instruction sequence to compute s32 += U8 * I8. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">T</td><td>Register type of destination, e.g., x86::Ymm or x86::Zmm</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">cReg</td><td>contains result </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="aa9ddfdb1cd3e41712844257212fcb050" name="aa9ddfdb1cd3e41712844257212fcb050"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa9ddfdb1cd3e41712844257212fcb050">&#9670;&#160;</a></span>genU8Sum4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> INST_SET, typename std::enable_if&lt; INST_SET==inst_set_t::avx2||INST_SET==inst_set_t::avx512, int &gt;::type  = 0&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void genU8Sum4 </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>dest</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>oneReg16Bit</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename <a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a>&lt; INST_SET &gt;::vec_reg_t</td>          <td class="paramname"><span class="paramname"><em>tmpReg</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Add 4 consecutive numbers of type uint8 and emit their sum as 32-bit numbers. i.e., dest[0:31] contains src[0:7] + src[8:15] + src[16:23] + src[24:31]. </p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">T</td><td>Register type of destination, e.g., x86::Ymm or x86::Zmm</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">dest</td><td>contains result </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a3535bf91ff758b3bd13929bf9f211c90" name="a3535bf91ff758b3bd13929bf9f211c90"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3535bf91ff758b3bd13929bf9f211c90">&#9670;&#160;</a></span>genU8Sum8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void genU8Sum8 </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T</td>          <td class="paramname"><span class="paramname"><em>dest</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T</td>          <td class="paramname"><span class="paramname"><em>tmpReg</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Add 8 consecutive numbers of type uint8 and emit their sum as 16-bit numbers. i.e., dest[0:15] contains src[0:7] + src[8:15] + src[16:23] + src[24:31] src[32:39] + src[40:47] + src[48:55] + src[56:63]. </p>
+<p>and</p>
+<p>dest[64:79] contains src[64:71] + src[71:79] + src[80:87] + src[88:95] src[96:103] + src[104:111] + src[112:119] + src[120:127]</p>
+<p>so on</p>
+<dl class="tparams"><dt>Template Parameters</dt><dd>
+  <table class="tparams">
+    <tr><td class="paramname">T</td><td>Register type of destination, e.g., x86::Ymm or x86::Zmm</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">dest</td><td>contains result </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a3a50b707287c0456d23e735846b144c0" name="a3a50b707287c0456d23e735846b144c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3a50b707287c0456d23e735846b144c0">&#9670;&#160;</a></span>initCRegs()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void initCRegs </td>
+          <td>(</td>
+          <td class="paramtype">x86::Emitter *</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>rowRegs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>colRegs</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Generate instructions for initializing the C registers to 0. </p>
+<p>Generate instructions for initializing the C registers to 0 in 32-bit Accumulation kernel. </p>
+
+</div>
+</div>
+<a id="a4bd183ba7e59151ac6bff236729d4a41" name="a4bd183ba7e59151ac6bff236729d4a41"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4bd183ba7e59151ac6bff236729d4a41">&#9670;&#160;</a></span>is_autovec_disabled()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool is_autovec_disabled </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Choosing which kernel (autovec/asmjit/ref) to use for nbit-CPU-TBE Available kernels:</p><ul>
+<li>ref: non-optimized, reference implementation that focuses on correctness, not performance</li>
+<li>asmjit: hand-optimized kernel by having asmjit emit SIMD instructions during runtime. Only supports x86_64 CPUs with AVX2/AVX512 instruction sets</li>
+<li>autovec: the kernel written in regular C++ code but in a way that makes compilers easier to generate vectorized SIMD instructions out of it. Supports both x86_64 and aarch64 CPUs. Currently only available on Linux. How to set environment variables:</li>
+<li>No environment variables: on x86_64 we will default to asmjit kernel, and on aarch64 and linux we will default to autovec. On non-linux aarch64 we will fall back to ref.</li>
+<li>Set FBGEMM_NO_AUTOVEC: on aarch64 linux we will use ref. On other platforms this will have no effect.</li>
+<li>Set FBGEMM_NO_ASMJIT: on x86_64 we will use ref. On other platforms this will have no effect.</li>
+<li>Set FBGEMM_NO_ASMJIT AND FBGEMM_FORCE_AUTOVEC: on x86_64 we will use autovec if these two variables are set at the same time. No effect on other platforms.</li>
+<li>FBGEMM_FORCE_AUTOVEC will override FBGEMM_NO_AUTOVEC if they are set at the same time.</li>
+<li>These variables are considered set as long as they exist regardless of content. That means assigning values like "1", "true", "y", "0", "false" or "no" has the same effect. The easiest way of setting a variable is to prepend <code>&lt;VARIABLE&gt;=1</code> before the benchmarking command. </li>
+</ul>
+
+</div>
+</div>
+<a id="a28c69d65ed666a9f46dc4763be70cdf6" name="a28c69d65ed666a9f46dc4763be70cdf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28c69d65ed666a9f46dc4763be70cdf6">&#9670;&#160;</a></span>PackA()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void PackA </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>nrow</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ncol</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>from</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ldim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>to</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Todo: make it fast with AVX2 transpose. </p>
+<p>class that performs packing of matrix in row-major or col-major format into internal packed blocked-row major format </p>
+
+</div>
+</div>
+<a id="adfee356e154f8b2f88c725885b1dbc11" name="adfee356e154f8b2f88c725885b1dbc11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfee356e154f8b2f88c725885b1dbc11">&#9670;&#160;</a></span>printMatrix()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void printMatrix </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae28c9cc48e43e99cb778d60ba35c0fbf">matrix_op_t</a></td>          <td class="paramname"><span class="paramname"><em>op</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const T *</td>          <td class="paramname"><span class="paramname"><em>inp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>R</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>C</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>ld</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::string</td>          <td class="paramname"><span class="paramname"><em>name</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Debugging helper. </p>
+<p>Print the matrix.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">op</td><td>Transpose type of the matrix. </td></tr>
+    <tr><td class="paramname">R</td><td>The height of the matrix. </td></tr>
+    <tr><td class="paramname">C</td><td>The width of the matrix. </td></tr>
+    <tr><td class="paramname">ld</td><td>The leading dimension of the matrix. </td></tr>
+    <tr><td class="paramname">name</td><td>The prefix string before printing the matrix. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a3350c03dc2d62e8e434332d088f6a895" name="a3350c03dc2d62e8e434332d088f6a895"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3350c03dc2d62e8e434332d088f6a895">&#9670;&#160;</a></span>Quantize()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T , bool LEGACY = true&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">T Quantize </td>
+          <td>(</td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>result_precision</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>result_is_signed</em><span class="paramdefsep"> = </span><span class="paramdefval">std::is_signed&lt;T&gt;::value</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Quantize src using zero_point and scale, clamp to the specified precision, and convert it to type T </p>
+
+</div>
+</div>
+<a id="a798fea9136d48e1cd4c8a2926fb869ed" name="a798fea9136d48e1cd4c8a2926fb869ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a798fea9136d48e1cd4c8a2926fb869ed">&#9670;&#160;</a></span>requantize_u8acc32_ref() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void requantize_u8acc32_ref </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>M</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ld</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>inp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>out</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>C_multiplier</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>C_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>A_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>B_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>row_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>col_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ncols_per_quant_group</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>fuse_relu</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Reference implementation of requantization step. float multiplier. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">bias</td><td>can be nullptr </td></tr>
+    <tr><td class="paramname">ncols_per_quant_group</td><td>the number of columns share the same quantization parameter. ncols_per_quant_group == N : per-tensor quantization ncols_per_quant_group == N / groups : per-group quantization ncols_per_quant_group == 1 : per-channel quantization </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="ab87b23be5587e267db6ab7d2b97c6915" name="ab87b23be5587e267db6ab7d2b97c6915"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab87b23be5587e267db6ab7d2b97c6915">&#9670;&#160;</a></span>requantize_u8acc32_ref() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void requantize_u8acc32_ref </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>M</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ld</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>inp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>out</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>C_multiplier</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>C_right_shift</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>C_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>A_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t</td>          <td class="paramname"><span class="paramname"><em>B_zero_point</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>row_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>col_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>fuse_relu</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Reference implementation of requantization step. int32 multiplier. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">bias</td><td>can be nullptr </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a8f972dca3254066120f58af5cf3b304c" name="a8f972dca3254066120f58af5cf3b304c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f972dca3254066120f58af5cf3b304c">&#9670;&#160;</a></span>rowOffsetBufferSizeGConv()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int SPATIAL_DIM = 2&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">int rowOffsetBufferSizeGConv </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a>&lt; SPATIAL_DIM &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>conv_param</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="section return"><dt>Returns</dt><dd>Size of row offset buffer in number of elements needed for fbgemmGroupwiseConv </dd></dl>
+
+</div>
+</div>
+<a id="a3bee8daea3756d030209a6815db314d9" name="a3bee8daea3756d030209a6815db314d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3bee8daea3756d030209a6815db314d9">&#9670;&#160;</a></span>rowwise_sparse_adagrad_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename IndexType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">int rowwise_sparse_adagrad_ref </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint64_t</td>          <td class="paramname"><span class="paramname"><em>param_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>w</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>g</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>h</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const IndexType *</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>epsilon</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>lr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.f</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const double *</td>          <td class="paramname"><span class="paramname"><em>counter</em><span class="paramdefsep"> = </span><span class="paramdefval">nullptr</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int64_t</td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">num_rows</td><td>number of rows reading </td></tr>
+    <tr><td class="paramname">block_size</td><td>number of parameters per rows </td></tr>
+    <tr><td class="paramname">param_size</td><td>total number of parameters </td></tr>
+    <tr><td class="paramname">w</td><td>input parameters </td></tr>
+    <tr><td class="paramname">g</td><td>input gradients </td></tr>
+    <tr><td class="paramname">h</td><td>input momentum </td></tr>
+    <tr><td class="paramname">indices</td><td>indices of each row </td></tr>
+    <tr><td class="paramname">counter</td><td>used for weight_decay adjusted for frequency. nullptr when frequency adjustment is not used. Ignored when weight_decay == 0 </td></tr>
+    <tr><td class="paramname">counter_halflife</td><td>weight_decay is adjusted only after this number of iterations </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a3f04df11e31dd656955d1bd1f8a7893d" name="a3f04df11e31dd656955d1bd1f8a7893d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f04df11e31dd656955d1bd1f8a7893d">&#9670;&#160;</a></span>sparse_adagrad_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename IndexType &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">int sparse_adagrad_ref </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>num_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::uint64_t</td>          <td class="paramname"><span class="paramname"><em>param_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>w</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>g</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>h</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const IndexType *</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>epsilon</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>lr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.f</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const double *</td>          <td class="paramname"><span class="paramname"><em>counter</em><span class="paramdefsep"> = </span><span class="paramdefval">nullptr</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int64_t</td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">num_rows</td><td>number of rows reading </td></tr>
+    <tr><td class="paramname">block_size</td><td>number of parameters per rows </td></tr>
+    <tr><td class="paramname">param_size</td><td>total number of parameters </td></tr>
+    <tr><td class="paramname">w</td><td>input parameters </td></tr>
+    <tr><td class="paramname">g</td><td>input gradients </td></tr>
+    <tr><td class="paramname">h</td><td>input momentum </td></tr>
+    <tr><td class="paramname">indices</td><td>indices of each row </td></tr>
+    <tr><td class="paramname">counter</td><td>used for weight_decay adjusted for frequency. nullptr when frequency adjustment is not used. Ignored when weight_decay == 0 </td></tr>
+    <tr><td class="paramname">counter_halflife</td><td>weight_decay is adjusted only after this number of iterations </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a1671cc912f6aa4bab678a0d255c8a690" name="a1671cc912f6aa4bab678a0d255c8a690"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1671cc912f6aa4bab678a0d255c8a690">&#9670;&#160;</a></span>SparseDenseMM()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void SparseDenseMM </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>M</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int *</td>          <td class="paramname"><span class="paramname"><em>row_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int *</td>          <td class="paramname"><span class="paramname"><em>col_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const float *</td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ldb</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">float *</td>          <td class="paramname"><span class="paramname"><em>C</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ldc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>accum</em><span class="paramdefsep"> = </span><span class="paramdefval">false</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">accum</td><td>Controls accumulation. 1 means we're accumulating to the C Matrix.</td></tr>
+  </table>
+  </dd>
+</dl>
+<p>Note on matrix order and layout: Unlike other fbgemm functions that follow PyTorch convention where A matrix is activation (so in uint8_t for quantized FC/Conv or fp32) and B matrix is weight (so in int8_t for quantized FC/Conv or fp32), here A is weight matrix. This is because we mostly target sparsity in weights and for row-major layout it's more efficient to have A as a sparse matrix: for each non-zero of A at ith row and kth column, we can access kth row of B, whose elements are contiguous in memory. If B matrix was sparse, for each non-zero of B at kth row and jth column, we would've needed to access kth column of A, whose elements are not contiguous in memory with C/C++'s row-major layout. Alternatively, we can call this function as if we're computing C^T = B^T * A^T while maintaining PyTorch's convention that the lefthand side matrix B is activation. If B matrix is in column-major layout, we don't need to do an extra transposition. The C matrix will be output in column-major layout, so if we have a back-to-back Sparse-Dense matrix-matrix multiplications, B matrices of subsequent matrices will be already in column-major layout. Refer to SparseDenseMMFP32Benchmark.cc for an example. </p>
+
+</div>
+</div>
+<a id="a4f19d1389f9e99cc0daded599b1f1fd4" name="a4f19d1389f9e99cc0daded599b1f1fd4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f19d1389f9e99cc0daded599b1f1fd4">&#9670;&#160;</a></span>spmdm_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void spmdm_ref </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>M</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const std::uint8_t *</td>          <td class="paramname"><span class="paramname"><em>A</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>lda</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm_1_1_compressed_sparse_column.html">CompressedSparseColumn</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>accumulation</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::int32_t *</td>          <td class="paramname"><span class="paramname"><em>C</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>ldc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>groups</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Reference implementation of SPMDM (sparse matrix times dense matrix). </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">groups</td><td>when &gt; 1, for gth group, we multiply A[:,g*(A.ncols/groups):(g+1)*(A.ncols/groups)] sub-matrix with B[:,g*(B.ncols/groups):(g+1)*(B.ncols/groups)] sub-matrix . </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a18832d0507cb6d8bce78371b97f66479" name="a18832d0507cb6d8bce78371b97f66479"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18832d0507cb6d8bce78371b97f66479">&#9670;&#160;</a></span>transpose_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void transpose_ref </td>
+          <td>(</td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>M</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const T *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>ld_src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>ld_dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Reference implementation of matrix transposition: B = A^T. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">M</td><td>The height of the matrix. </td></tr>
+    <tr><td class="paramname">N</td><td>The width of the matrix. </td></tr>
+    <tr><td class="paramname">src</td><td>The memory buffer of the source matrix A. </td></tr>
+    <tr><td class="paramname">ld_src</td><td>The leading dimension of the source matrix A. </td></tr>
+    <tr><td class="paramname">dst</td><td>The memory buffer of the destination matrix B. </td></tr>
+    <tr><td class="paramname">ld_dst</td><td>The leading dimension of the destination matrix B. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a75b4ad78ae16c6e6782f82e1ff4012a8" name="a75b4ad78ae16c6e6782f82e1ff4012a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a75b4ad78ae16c6e6782f82e1ff4012a8">&#9670;&#160;</a></span>transpose_simd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void transpose_simd </td>
+          <td>(</td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>M</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const T *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>ld_src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int64_t</td>          <td class="paramname"><span class="paramname"><em>ld_dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Transpose a matrix. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">M</td><td>the number of rows of input matrix </td></tr>
+    <tr><td class="paramname">N</td><td>the number of columns of input matrix </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers.html b/namespacemembers.html
new file mode 100644
index 000000000..baa0f4c8a
--- /dev/null
+++ b/namespacemembers.html
@@ -0,0 +1,244 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all documented namespace members with links to the namespaces they belong to:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>Bfloat16ToFloat_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae121dec17e2e8a7648b3077f970f8c49">fbgemm</a></li>
+<li>Bfloat16ToFloat_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a874e15e8f1c021008e76a24e8714024c">fbgemm</a></li>
+<li>Bfloat16ToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af84f2b20490beb1dd0da4b03cf93afac">fbgemm</a></li>
+<li>Bfloat16ToFloat_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#afb00b526459a0db53a2c6ffe0276dd3e">fbgemm</a></li>
+<li>broadcast8Bit()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a4840e075e8c46a94cb7a489c3fa6aee4">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>cblas_sgemm_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a88e97a715133ac27ca83ae5ab05010ed">fbgemm</a></li>
+<li>col_offsets_with_zero_pt_s8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0f66af5e8e787dc1ff6893ac75ae161f">fbgemm</a></li>
+<li>compare_buffers()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a9d995b583abb4b09927c90f66e3b1463">fbgemm</a></li>
+<li>ConvFastPath()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ad5bda89769bca9a01ddf81591f20ef02">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>depthwise_2d_same_pad()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ac2e9634d4e2366ed6f2181ae7e7b17b2">fbgemm</a></li>
+<li>depthwise_3d_same_pad()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0bfa499fd1b485bc3e457842343bca57">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>emitExtractHalfVector()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a602ac18c0e6c32448ff8d21818bded38">fbgemm</a></li>
+<li>emitLoadDWord()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa56904bd84399e10104d286e0e10a2d7">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>fbgemmAlignedAlloc()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ab55953ea0d8867577ef9b096d68cfce4">fbgemm</a></li>
+<li>fbgemmAlignedFree()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a539e708e033ffe98b075a6b6c5cb4b46">fbgemm</a></li>
+<li>fbgemmConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adc9d2af7ea01634fd2e5bef0e6baa0ab">fbgemm</a></li>
+<li>fbgemmEnableAvx512Ymm()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a9d17a4894f822f7afd5c79407bbf91d5">fbgemm</a></li>
+<li>fbgemmForceIsa()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af150495d47d5ccb1670524166fd9b45d">fbgemm</a></li>
+<li>fbgemmGet2DPartition()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a26e1a7f0b1935835ad95a52aa4f56eb8">fbgemm</a></li>
+<li>fbgemmGetThreadPartition()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a38cca353e8e2984e37704be8bbc327fe">fbgemm</a></li>
+<li>fbgemmGroupwiseConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5780ef4a16a1682740af29283360caa4">fbgemm</a></li>
+<li>fbgemmHasArmNeonSupport()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af727aa5e29e172f994653d01e444973e">fbgemm</a></li>
+<li>fbgemmHasArmSve2Support()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aae9bb60bfb4acb2e62976adcd98ccaa0">fbgemm</a></li>
+<li>fbgemmHasAvx2Support()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a52e1a4ce201a6b89ad8b3dee69c59d40">fbgemm</a></li>
+<li>fbgemmHasAvx512Support()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae0e6eeaba3d5c4265d9aee5e898fb329">fbgemm</a></li>
+<li>fbgemmHasAvx512VnniSupport()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae6e5fa9178cd2a70a01ef78a571802f5">fbgemm</a></li>
+<li>fbgemmInstructionSet()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a2be92a96ebd3c0d9bc9f9c0d0c537969">fbgemm</a></li>
+<li>fbgemmIsIntelXeonD()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a84685dfa70eedf3c2befcb8d02cf9d27">fbgemm</a></li>
+<li>fbgemmOptimizedGConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a19ec32cc9a1932f774bd8b2e0b047afe">fbgemm</a></li>
+<li>fbgemmPacked()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a1f01b8b3f8fea3e9c8ccc2aed30ba70a">fbgemm</a></li>
+<li>fbgemmPartition1D()&#160;:&#160;<a class="el" href="namespacefbgemm.html#abf9cb71c5c3a79935f7146f05510bb19">fbgemm</a></li>
+<li>fbgemmPartition1DBlocked()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae6d6321b283eaa5a8ddaaa96ea22c62f">fbgemm</a></li>
+<li>fbgemmSupportedCPU()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a713e97500428aba767f6fcaf39aac4b9">fbgemm</a></li>
+<li>FindMinMax()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx2.html#ga38920438e5d25d4092a1b695f3420b8e">fbgemm</a></li>
+<li>Float16ToFloat_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae0cba6562b792a67eb376841005a907b">fbgemm</a></li>
+<li>Float16ToFloat_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5d28283194eed8d19ebc5634fd78913f">fbgemm</a></li>
+<li>Float16ToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#afc22ec6e38a38c7f41484f844dbfbeac">fbgemm</a></li>
+<li>Float16ToFloat_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af066434e23720ecd4ddcc51d7a616aef">fbgemm</a></li>
+<li>Float8ToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ad699dd756e87f820cca1f1202cec2a11">fbgemm</a></li>
+<li>FloatOrHalfToFused8BitRowwiseQuantizedSBFloat()&#160;:&#160;<a class="el" href="namespacefbgemm.html#afafa94e239d016cf273ad0597152b86c">fbgemm</a></li>
+<li>FloatOrHalfToFused8BitRowwiseQuantizedSBFloatRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a7cba6dad217715349653862b3e691057">fbgemm</a></li>
+<li>FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-generic.html#ga6b77c8540e630305db9a5f30a84e7e5b">fbgemm</a></li>
+<li>FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ad89426896d5c7b1f1b5db8ebaf201547">fbgemm</a></li>
+<li>FloatToBfloat16_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a444fa054549274d8c6f442f0b866aa98">fbgemm</a></li>
+<li>FloatToBfloat16_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0e2b50c7d828e56f78cc0b8368dee35a">fbgemm</a></li>
+<li>FloatToBfloat16_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ab22f5d961c6a42aab1c37b17a3d93770">fbgemm</a></li>
+<li>FloatToBfloat16_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa423a42208a4fde5f23ab6a28cef24a3">fbgemm</a></li>
+<li>FloatToFloat16_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a61c95557adf5477f3078af22d6054a7d">fbgemm</a></li>
+<li>FloatToFloat16_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5305ff58517ca3669ec41c7f1d4817a4">fbgemm</a></li>
+<li>FloatToFloat16_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af44c584c974f95f4866806cee3798742">fbgemm</a></li>
+<li>FloatToFloat16_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a53a50b113345c09b89b45834f31d52df">fbgemm</a></li>
+<li>FloatToFloat8_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a32a45639603e1584965b471846fd067f">fbgemm</a></li>
+<li>Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a42aefaaf238d065625a64a757f998eef">fbgemm</a></li>
+<li>Fused8BitRowwiseQuantizedSBFloatToFloatOrHalfRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a19217d3a8551a7b251ecb1eba79669bc">fbgemm</a></li>
+<li>FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a2b2ca55a7d2d5c2dbba337ee2e585f6a">fbgemm</a></li>
+<li>FusedNBitRowwiseQuantizedSBHalfToFloatOrHalfRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adee65a9c68614b76ffdf2b3bc11b4618">fbgemm</a></li>
+<li>FusedQuantizeDequantize()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-generic.html#gaa51ab0f363fbcdf8ffa0a561884225d9">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>gen16BitVectorOne()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa06c4dd5673e6b3df1dfe3617fdc919d">fbgemm</a></li>
+<li>gen8BitVectorOne()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3c476c8ddbed58f3f6b4395dd55ed2a3">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDM()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a77602a69076f938d21d336a0df00f9c4">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMFP8WithStrides()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a57534e5ede9766d50e536437b499894d">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMNBit()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa4e2948ec5f9097f552de8a0458d49e1">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMNBitRowWiseSparse()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa7d2220ddfc7d5c9820fd03b73101d37">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMNBitWithStrides()&#160;:&#160;<a class="el" href="namespacefbgemm.html#abb137866f8726f5c6cbf150ccc7e5b08">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMRowWiseSparse()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a6d6fe14c3ad83011adb500625ecbff01">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMWithStrides()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a243ed0e4df7bb7b6c08a930ee71a996b">fbgemm</a></li>
+<li>GenerateRowWiseSparseAdaGradFused()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a90ceef30c1643dd1a87b1a0753b52e87">fbgemm</a></li>
+<li>genU8I8S32FMA()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a2a15434be774f5beeb39e4fe225d6fb9">fbgemm</a></li>
+<li>genU8Sum4()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa9ddfdb1cd3e41712844257212fcb050">fbgemm</a></li>
+<li>genU8Sum8()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3535bf91ff758b3bd13929bf9f211c90">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>impl_type_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5356ce4b0771923d6eee8b3692afd2f3">fbgemm</a></li>
+<li>initCRegs()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3a50b707287c0456d23e735846b144c0">fbgemm</a></li>
+<li>inst_set_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#a637f4382ad9fa1da0795e05672b74301">fbgemm</a></li>
+<li>is_autovec_disabled()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a4bd183ba7e59151ac6bff236729d4a41">fbgemm</a></li>
+<li>is_radix_sort_accelerated_with_openmp()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af24ff1c82832652af861c3634486513a">fbgemm</a></li>
+<li>isYmm()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adac821292975979b386dc3ab1b234a37">fbgemm</a></li>
+<li>isZmm()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a26137f070019d80935a34fe466ac85c4">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>matmul_u8i8acc16_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a826abc2e81aabe4c0059dd34abe8de0d">fbgemm</a></li>
+<li>matmul_u8i8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a28f838d0d9db9969debe82780183bd9a">fbgemm</a></li>
+<li>matrix_op_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>optimized_conv_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae779e18e5742efa69f340bcb616acdb2">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>PackA()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a28c69d65ed666a9f46dc4763be70cdf6">fbgemm</a></li>
+<li>printMatrix()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adfee356e154f8b2f88c725885b1dbc11">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_q" name="index_q"></a>- q -</h3><ul>
+<li>Quantize()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3350c03dc2d62e8e434332d088f6a895">fbgemm</a></li>
+<li>QuantizeGroupwise()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-generic.html#ga7a5705b5705425abc8f72fe339c2ae91">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>radix_sort_parallel()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3d34903420acd55fcebd0f8a19d8a84d">fbgemm</a></li>
+<li>reduceAvx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ac2d8c325cbc2893ed9a32f71c6a3596b">fbgemm</a></li>
+<li>requantize_u8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ab87b23be5587e267db6ab7d2b97c6915">fbgemm</a></li>
+<li>requantizeOutputProcessingAvx2()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx2.html#ga92e2b96889b039f101e24855e163021b">fbgemm</a></li>
+<li>requantizeOutputProcessingGConvAvx512()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx512.html#gab1b2ed3537f97d130f8ed039bc9aa463">fbgemm</a></li>
+<li>RoundToFloat16()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3bf47d3d99c8b3cb2af625d90c5494ab">fbgemm</a></li>
+<li>row_offsets_u8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0a160cf468a51c4634688b4f43851324">fbgemm</a></li>
+<li>rowOffsetBufferSizeGConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a8f972dca3254066120f58af5cf3b304c">fbgemm</a></li>
+<li>rowwise_sparse_adagrad_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3bee8daea3756d030209a6815db314d9">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>sparse_adagrad_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3f04df11e31dd656955d1bd1f8a7893d">fbgemm</a></li>
+<li>SparseDenseMM()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a1671cc912f6aa4bab678a0d255c8a690">fbgemm</a></li>
+<li>spmdm_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a4f19d1389f9e99cc0daded599b1f1fd4">fbgemm</a></li>
+<li>spmdmKernelAvx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a8b547effff25521017d20a5c4ddb8fcc">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>takeDepthWiseFastPath()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a523727ffa987158ac9021cc0d9b97e0b">fbgemm</a></li>
+<li>takePointWiseFastPath()&#160;:&#160;<a class="el" href="namespacefbgemm.html#affb3e7487c8a1c6c7d1549eb7090aee1">fbgemm</a></li>
+<li>transpose_8rows()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a9ee41553113b6cd89e0e336022acf250">fbgemm</a></li>
+<li>transpose_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a18832d0507cb6d8bce78371b97f66479">fbgemm</a></li>
+<li>transpose_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a75b4ad78ae16c6e6782f82e1ff4012a8">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_x" name="index_x"></a>- x -</h3><ul>
+<li>Xor128()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx2.html#ga94b9e26f3c7ff032c5316bcc0167c23b">fbgemm</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_enum.html b/namespacemembers_enum.html
new file mode 100644
index 000000000..062e44351
--- /dev/null
+++ b/namespacemembers_enum.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all documented namespace enums with links to the namespaces they belong to:</div><ul>
+<li>impl_type_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5356ce4b0771923d6eee8b3692afd2f3">fbgemm</a></li>
+<li>inst_set_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#a637f4382ad9fa1da0795e05672b74301">fbgemm</a></li>
+<li>matrix_op_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf">fbgemm</a></li>
+<li>optimized_conv_t&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae779e18e5742efa69f340bcb616acdb2">fbgemm</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func.html b/namespacemembers_func.html
new file mode 100644
index 000000000..0bd201156
--- /dev/null
+++ b/namespacemembers_func.html
@@ -0,0 +1,236 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all documented namespace functions with links to the namespaces they belong to:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>Bfloat16ToFloat_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae121dec17e2e8a7648b3077f970f8c49">fbgemm</a></li>
+<li>Bfloat16ToFloat_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a874e15e8f1c021008e76a24e8714024c">fbgemm</a></li>
+<li>Bfloat16ToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af84f2b20490beb1dd0da4b03cf93afac">fbgemm</a></li>
+<li>Bfloat16ToFloat_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#afb00b526459a0db53a2c6ffe0276dd3e">fbgemm</a></li>
+<li>broadcast8Bit()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a4840e075e8c46a94cb7a489c3fa6aee4">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>cblas_sgemm_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a88e97a715133ac27ca83ae5ab05010ed">fbgemm</a></li>
+<li>col_offsets_with_zero_pt_s8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0f66af5e8e787dc1ff6893ac75ae161f">fbgemm</a></li>
+<li>compare_buffers()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a9d995b583abb4b09927c90f66e3b1463">fbgemm</a></li>
+<li>ConvFastPath()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ad5bda89769bca9a01ddf81591f20ef02">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>depthwise_2d_same_pad()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ac2e9634d4e2366ed6f2181ae7e7b17b2">fbgemm</a></li>
+<li>depthwise_3d_same_pad()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0bfa499fd1b485bc3e457842343bca57">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>emitExtractHalfVector()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a602ac18c0e6c32448ff8d21818bded38">fbgemm</a></li>
+<li>emitLoadDWord()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa56904bd84399e10104d286e0e10a2d7">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>fbgemmAlignedAlloc()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ab55953ea0d8867577ef9b096d68cfce4">fbgemm</a></li>
+<li>fbgemmAlignedFree()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a539e708e033ffe98b075a6b6c5cb4b46">fbgemm</a></li>
+<li>fbgemmConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adc9d2af7ea01634fd2e5bef0e6baa0ab">fbgemm</a></li>
+<li>fbgemmEnableAvx512Ymm()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a9d17a4894f822f7afd5c79407bbf91d5">fbgemm</a></li>
+<li>fbgemmForceIsa()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af150495d47d5ccb1670524166fd9b45d">fbgemm</a></li>
+<li>fbgemmGet2DPartition()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a26e1a7f0b1935835ad95a52aa4f56eb8">fbgemm</a></li>
+<li>fbgemmGetThreadPartition()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a38cca353e8e2984e37704be8bbc327fe">fbgemm</a></li>
+<li>fbgemmGroupwiseConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5780ef4a16a1682740af29283360caa4">fbgemm</a></li>
+<li>fbgemmHasArmNeonSupport()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af727aa5e29e172f994653d01e444973e">fbgemm</a></li>
+<li>fbgemmHasArmSve2Support()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aae9bb60bfb4acb2e62976adcd98ccaa0">fbgemm</a></li>
+<li>fbgemmHasAvx2Support()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a52e1a4ce201a6b89ad8b3dee69c59d40">fbgemm</a></li>
+<li>fbgemmHasAvx512Support()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae0e6eeaba3d5c4265d9aee5e898fb329">fbgemm</a></li>
+<li>fbgemmHasAvx512VnniSupport()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae6e5fa9178cd2a70a01ef78a571802f5">fbgemm</a></li>
+<li>fbgemmInstructionSet()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a2be92a96ebd3c0d9bc9f9c0d0c537969">fbgemm</a></li>
+<li>fbgemmIsIntelXeonD()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a84685dfa70eedf3c2befcb8d02cf9d27">fbgemm</a></li>
+<li>fbgemmOptimizedGConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a19ec32cc9a1932f774bd8b2e0b047afe">fbgemm</a></li>
+<li>fbgemmPacked()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a1f01b8b3f8fea3e9c8ccc2aed30ba70a">fbgemm</a></li>
+<li>fbgemmPartition1D()&#160;:&#160;<a class="el" href="namespacefbgemm.html#abf9cb71c5c3a79935f7146f05510bb19">fbgemm</a></li>
+<li>fbgemmPartition1DBlocked()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae6d6321b283eaa5a8ddaaa96ea22c62f">fbgemm</a></li>
+<li>fbgemmSupportedCPU()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a713e97500428aba767f6fcaf39aac4b9">fbgemm</a></li>
+<li>FindMinMax()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx2.html#ga38920438e5d25d4092a1b695f3420b8e">fbgemm</a></li>
+<li>Float16ToFloat_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ae0cba6562b792a67eb376841005a907b">fbgemm</a></li>
+<li>Float16ToFloat_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5d28283194eed8d19ebc5634fd78913f">fbgemm</a></li>
+<li>Float16ToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#afc22ec6e38a38c7f41484f844dbfbeac">fbgemm</a></li>
+<li>Float16ToFloat_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af066434e23720ecd4ddcc51d7a616aef">fbgemm</a></li>
+<li>Float8ToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ad699dd756e87f820cca1f1202cec2a11">fbgemm</a></li>
+<li>FloatOrHalfToFused8BitRowwiseQuantizedSBFloat()&#160;:&#160;<a class="el" href="namespacefbgemm.html#afafa94e239d016cf273ad0597152b86c">fbgemm</a></li>
+<li>FloatOrHalfToFused8BitRowwiseQuantizedSBFloatRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a7cba6dad217715349653862b3e691057">fbgemm</a></li>
+<li>FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-generic.html#ga6b77c8540e630305db9a5f30a84e7e5b">fbgemm</a></li>
+<li>FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ad89426896d5c7b1f1b5db8ebaf201547">fbgemm</a></li>
+<li>FloatToBfloat16_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a444fa054549274d8c6f442f0b866aa98">fbgemm</a></li>
+<li>FloatToBfloat16_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0e2b50c7d828e56f78cc0b8368dee35a">fbgemm</a></li>
+<li>FloatToBfloat16_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ab22f5d961c6a42aab1c37b17a3d93770">fbgemm</a></li>
+<li>FloatToBfloat16_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa423a42208a4fde5f23ab6a28cef24a3">fbgemm</a></li>
+<li>FloatToFloat16_avx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a61c95557adf5477f3078af22d6054a7d">fbgemm</a></li>
+<li>FloatToFloat16_avx512()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a5305ff58517ca3669ec41c7f1d4817a4">fbgemm</a></li>
+<li>FloatToFloat16_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af44c584c974f95f4866806cee3798742">fbgemm</a></li>
+<li>FloatToFloat16_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a53a50b113345c09b89b45834f31d52df">fbgemm</a></li>
+<li>FloatToFloat8_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a32a45639603e1584965b471846fd067f">fbgemm</a></li>
+<li>Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a42aefaaf238d065625a64a757f998eef">fbgemm</a></li>
+<li>Fused8BitRowwiseQuantizedSBFloatToFloatOrHalfRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a19217d3a8551a7b251ecb1eba79669bc">fbgemm</a></li>
+<li>FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a2b2ca55a7d2d5c2dbba337ee2e585f6a">fbgemm</a></li>
+<li>FusedNBitRowwiseQuantizedSBHalfToFloatOrHalfRef()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adee65a9c68614b76ffdf2b3bc11b4618">fbgemm</a></li>
+<li>FusedQuantizeDequantize()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-generic.html#gaa51ab0f363fbcdf8ffa0a561884225d9">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>gen16BitVectorOne()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa06c4dd5673e6b3df1dfe3617fdc919d">fbgemm</a></li>
+<li>gen8BitVectorOne()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3c476c8ddbed58f3f6b4395dd55ed2a3">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDM()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a77602a69076f938d21d336a0df00f9c4">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMFP8WithStrides()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a57534e5ede9766d50e536437b499894d">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMNBit()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa4e2948ec5f9097f552de8a0458d49e1">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMNBitRowWiseSparse()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa7d2220ddfc7d5c9820fd03b73101d37">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMNBitWithStrides()&#160;:&#160;<a class="el" href="namespacefbgemm.html#abb137866f8726f5c6cbf150ccc7e5b08">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMRowWiseSparse()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a6d6fe14c3ad83011adb500625ecbff01">fbgemm</a></li>
+<li>GenerateEmbeddingSpMDMWithStrides()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a243ed0e4df7bb7b6c08a930ee71a996b">fbgemm</a></li>
+<li>GenerateRowWiseSparseAdaGradFused()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a90ceef30c1643dd1a87b1a0753b52e87">fbgemm</a></li>
+<li>genU8I8S32FMA()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a2a15434be774f5beeb39e4fe225d6fb9">fbgemm</a></li>
+<li>genU8Sum4()&#160;:&#160;<a class="el" href="namespacefbgemm.html#aa9ddfdb1cd3e41712844257212fcb050">fbgemm</a></li>
+<li>genU8Sum8()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3535bf91ff758b3bd13929bf9f211c90">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>initCRegs()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3a50b707287c0456d23e735846b144c0">fbgemm</a></li>
+<li>is_autovec_disabled()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a4bd183ba7e59151ac6bff236729d4a41">fbgemm</a></li>
+<li>is_radix_sort_accelerated_with_openmp()&#160;:&#160;<a class="el" href="namespacefbgemm.html#af24ff1c82832652af861c3634486513a">fbgemm</a></li>
+<li>isYmm()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adac821292975979b386dc3ab1b234a37">fbgemm</a></li>
+<li>isZmm()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a26137f070019d80935a34fe466ac85c4">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>matmul_u8i8acc16_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a826abc2e81aabe4c0059dd34abe8de0d">fbgemm</a></li>
+<li>matmul_u8i8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a28f838d0d9db9969debe82780183bd9a">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>PackA()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a28c69d65ed666a9f46dc4763be70cdf6">fbgemm</a></li>
+<li>printMatrix()&#160;:&#160;<a class="el" href="namespacefbgemm.html#adfee356e154f8b2f88c725885b1dbc11">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_q" name="index_q"></a>- q -</h3><ul>
+<li>Quantize()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3350c03dc2d62e8e434332d088f6a895">fbgemm</a></li>
+<li>QuantizeGroupwise()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-generic.html#ga7a5705b5705425abc8f72fe339c2ae91">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>radix_sort_parallel()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3d34903420acd55fcebd0f8a19d8a84d">fbgemm</a></li>
+<li>reduceAvx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ac2d8c325cbc2893ed9a32f71c6a3596b">fbgemm</a></li>
+<li>requantize_u8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#ab87b23be5587e267db6ab7d2b97c6915">fbgemm</a></li>
+<li>requantizeOutputProcessingAvx2()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx2.html#ga92e2b96889b039f101e24855e163021b">fbgemm</a></li>
+<li>requantizeOutputProcessingGConvAvx512()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx512.html#gab1b2ed3537f97d130f8ed039bc9aa463">fbgemm</a></li>
+<li>RoundToFloat16()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3bf47d3d99c8b3cb2af625d90c5494ab">fbgemm</a></li>
+<li>row_offsets_u8acc32_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a0a160cf468a51c4634688b4f43851324">fbgemm</a></li>
+<li>rowOffsetBufferSizeGConv()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a8f972dca3254066120f58af5cf3b304c">fbgemm</a></li>
+<li>rowwise_sparse_adagrad_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3bee8daea3756d030209a6815db314d9">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>sparse_adagrad_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a3f04df11e31dd656955d1bd1f8a7893d">fbgemm</a></li>
+<li>SparseDenseMM()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a1671cc912f6aa4bab678a0d255c8a690">fbgemm</a></li>
+<li>spmdm_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a4f19d1389f9e99cc0daded599b1f1fd4">fbgemm</a></li>
+<li>spmdmKernelAvx2()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a8b547effff25521017d20a5c4ddb8fcc">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>takeDepthWiseFastPath()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a523727ffa987158ac9021cc0d9b97e0b">fbgemm</a></li>
+<li>takePointWiseFastPath()&#160;:&#160;<a class="el" href="namespacefbgemm.html#affb3e7487c8a1c6c7d1549eb7090aee1">fbgemm</a></li>
+<li>transpose_8rows()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a9ee41553113b6cd89e0e336022acf250">fbgemm</a></li>
+<li>transpose_ref()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a18832d0507cb6d8bce78371b97f66479">fbgemm</a></li>
+<li>transpose_simd()&#160;:&#160;<a class="el" href="namespacefbgemm.html#a75b4ad78ae16c6e6782f82e1ff4012a8">fbgemm</a></li>
+</ul>
+
+
+<h3><a id="index_x" name="index_x"></a>- x -</h3><ul>
+<li>Xor128()&#160;:&#160;<a class="el" href="group__fbgemm-quant-utils-avx2.html#ga94b9e26f3c7ff032c5316bcc0167c23b">fbgemm</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/objects.inv b/objects.inv
index ee023fc7a..567cb56ec 100644
Binary files a/objects.inv and b/objects.inv differ
diff --git a/py-modindex.html b/py-modindex.html
index b29ef9189..8d1005ba0 100644
--- a/py-modindex.html
+++ b/py-modindex.html
@@ -299,6 +299,7 @@
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/search.html b/search.html
index d6a20d072..b26797706 100644
--- a/search.html
+++ b/search.html
@@ -292,6 +292,7 @@
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
diff --git a/search/all_1.js b/search/all_1.js
index 51844bfbc..8ac094f64 100644
--- a/search/all_1.js
+++ b/search/all_1.js
@@ -1,6 +1,8 @@
 var searchData=
 [
   ['addr_0',['addr',['../classfbgemm_1_1_pack_a_matrix.html#a04b923ddb781752fe65992543729422c',1,'fbgemm::PackAMatrix::addr()'],['../classfbgemm_1_1_pack_b_matrix.html#a04b923ddb781752fe65992543729422c',1,'fbgemm::PackBMatrix::addr()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a04b923ddb781752fe65992543729422c',1,'fbgemm::PackAWithRowOffset::addr()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a04b923ddb781752fe65992543729422c',1,'fbgemm::PackAWithQuantRowOffset::addr()']]],
-  ['avx2_1',['Quantization Utilities (AVX2)',['../group__fbgemm-quant-utils-avx2.html',1,'']]],
-  ['avx512_2',['Quantization Utilities (AVX512)',['../group__fbgemm-quant-utils-avx512.html',1,'']]]
+  ['ai_20attention_1',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]],
+  ['attention_2',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]],
+  ['avx2_3',['Quantization Utilities (AVX2)',['../group__fbgemm-quant-utils-avx2.html',1,'']]],
+  ['avx512_4',['Quantization Utilities (AVX512)',['../group__fbgemm-quant-utils-avx512.html',1,'']]]
 ];
diff --git a/search/all_10.js b/search/all_10.js
index e438411e3..4183158cc 100644
--- a/search/all_10.js
+++ b/search/all_10.js
@@ -1,46 +1,48 @@
 var searchData=
 [
   ['pack_0',['pack',['../classfbgemm_1_1_pack_matrix.html#a0c1765c6a94482209b1fc0cd334ad44e',1,'fbgemm::PackMatrix::pack()'],['../classfbgemm_1_1_pack_a_matrix.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAMatrix::pack()'],['../classfbgemm_1_1_pack_b_matrix.html#ae2d8887226e140ed6ddc140cd338910d',1,'fbgemm::PackBMatrix::pack()'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#a915ffc82b17862ab1d2a466a79d23a3f',1,'fbgemm::PackWeightMatrixForGConv::pack()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAWithIm2Col::pack()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAWithRowOffset::pack()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAWithQuantRowOffset::pack()'],['../structfbgemm_1_1_b_c_s_r_matrix.html#ae1871cae73e37637f6a2d65a14f0512f',1,'fbgemm::BCSRMatrix::pack(const DTYPE *src, size_t ld)'],['../structfbgemm_1_1_b_c_s_r_matrix.html#ac86c58878f6bcd10610f66eefbe53a90',1,'fbgemm::BCSRMatrix::pack(const DTYPE *src)']]],
-  ['packamatrix_1',['PackAMatrix',['../classfbgemm_1_1_pack_a_matrix.html',1,'fbgemm']]],
-  ['packawithim2col_2',['PackAWithIm2Col',['../classfbgemm_1_1_pack_a_with_im2_col.html',1,'PackAWithIm2Col&lt; T, accT, SPATIAL_DIM &gt;'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a37d96dcba66f792135549702d2f25e4a',1,'fbgemm::PackAWithIm2Col::PackAWithIm2Col()']]],
-  ['packawithquantrowoffset_3',['PackAWithQuantRowOffset',['../classfbgemm_1_1_pack_a_with_quant_row_offset.html',1,'PackAWithQuantRowOffset&lt; T, accT &gt;'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a44ca398424d2d534802de6b892bf3a6a',1,'fbgemm::PackAWithQuantRowOffset::PackAWithQuantRowOffset()']]],
-  ['packawithrowoffset_4',['PackAWithRowOffset',['../classfbgemm_1_1_pack_a_with_row_offset.html',1,'PackAWithRowOffset&lt; T, accT &gt;'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a8dceb15ed761dfbf804244ffd2fc7f66',1,'fbgemm::PackAWithRowOffset::PackAWithRowOffset()']]],
-  ['packbmatrix_5',['PackBMatrix',['../classfbgemm_1_1_pack_b_matrix.html',1,'PackBMatrix&lt; T, accT &gt;'],['../classfbgemm_1_1_pack_b_matrix.html#a1afee702206695dfcd20de0474408b07',1,'fbgemm::PackBMatrix::PackBMatrix()']]],
-  ['packbmatrix_3c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_20_3e_6',['PackBMatrix&lt; std::int8_t, std::int32_t &gt;',['../classfbgemm_1_1_pack_b_matrix.html',1,'fbgemm']]],
-  ['packedblock_7',['packedBlock',['../classfbgemm_1_1_pack_matrix.html#a9c6a626fc1b0a20479c167862d7a91be',1,'fbgemm::PackMatrix']]],
-  ['packedbuffersize_8',['packedBufferSize',['../classfbgemm_1_1_pack_matrix.html#ab11bd74e390ac73323a514cf2d6e6b98',1,'fbgemm::PackMatrix']]],
-  ['packedcolstart_9',['packedColStart',['../classfbgemm_1_1_pack_matrix.html#aa981736a44501513eb4c0f8cb72a11c8',1,'fbgemm::PackMatrix']]],
-  ['packedgemmmatrixb_10',['PackedGemmMatrixB',['../classfbgemm_1_1_packed_gemm_matrix_b.html',1,'fbgemm']]],
-  ['packedrowstart_11',['packedRowStart',['../classfbgemm_1_1_pack_matrix.html#ae9e47d9b93f5049504203ff55472e075',1,'fbgemm::PackMatrix']]],
-  ['packingtraits_12',['PackingTraits',['../structfbgemm_1_1_packing_traits.html',1,'fbgemm']]],
-  ['packingtraits_3c_20float_2c_20float_2c_20inst_5fset_5ft_3a_3aavx2_20_3e_13',['PackingTraits&lt; float, float, inst_set_t::avx2 &gt;',['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html',1,'']]],
-  ['packingtraits_3c_20float16_2c_20float_2c_20inst_5fset_5ft_3a_3aavx2_20_3e_14',['PackingTraits&lt; float16, float, inst_set_t::avx2 &gt;',['../struct_packing_traits_3_01float16_00_01float_00_01inst__set__t_1_1avx2_01_4.html',1,'']]],
-  ['packingtraits_3c_20int64_5ft_2c_20int64_5ft_2c_20inst_5fset_5ft_3a_3aavx512_20_3e_15',['PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;',['../struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20acct_2c_20inst_5fset_5ft_3a_3aavx512_5fvnni_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_26_26is_5f16or32bit_3c_20acct_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_16',['PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20acct_2c_20inst_5fset_5ft_3a_3aavx512_5fvnni_5fymm_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_26_26is_5f16or32bit_3c_20acct_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_17',['PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20std_3a_3aint16_5ft_2c_20inst_5fset_5ft_3a_3aavx2_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_18',['PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20std_3a_3aint16_5ft_2c_20inst_5fset_5ft_3a_3aavx512_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_19',['PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20std_3a_3aint16_5ft_2c_20inst_5fset_5ft_3a_3aavx512_5fymm_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_20',['PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20std_3a_3aint32_5ft_2c_20inst_5fset_5ft_3a_3aavx2_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_21',['PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20std_3a_3aint32_5ft_2c_20inst_5fset_5ft_3a_3aavx512_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_22',['PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html',1,'']]],
-  ['packingtraits_3c_20t_2c_20std_3a_3aint32_5ft_2c_20inst_5fset_5ft_3a_3aavx512_5fymm_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_23',['PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html',1,'']]],
-  ['packmatrix_24',['PackMatrix',['../classfbgemm_1_1_pack_matrix.html',1,'PackMatrix&lt; PT, inpType, accType &gt;'],['../classfbgemm_1_1_pack_matrix.html#ac15276b97315df2567c4ab36d48b8da0',1,'fbgemm::PackMatrix::PackMatrix()']]],
-  ['packmatrix_3c_20fbgemm_3a_3apackbmatrix_3c_20int8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_2c_20int8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_25',['PackMatrix&lt; fbgemm::PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, int8_t, typename packingAMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packamatrix_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_26',['PackMatrix&lt; PackAMatrix&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packawithim2col_3c_20t_2c_20std_3a_3aint32_5ft_2c_202_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_27',['PackMatrix&lt; PackAWithIm2Col&lt; T, std::int32_t, 2 &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packawithquantrowoffset_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_28',['PackMatrix&lt; PackAWithQuantRowOffset&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packawithrowoffset_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_29',['PackMatrix&lt; PackAWithRowOffset&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packbmatrix_3c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_20_3e_2c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_20_3e_30',['PackMatrix&lt; PackBMatrix&lt; std::int8_t, std::int32_t &gt;, std::int8_t, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packbmatrix_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_31',['PackMatrix&lt; PackBMatrix&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packingamatrix_2c_20typename_20packingamatrix_3a_3ainptype_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_32',['PackMatrix&lt; packingAMatrix, typename packingAMatrix::inpType, typename packingAMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packingamatrix_2c_20uint8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_33',['PackMatrix&lt; packingAMatrix, uint8_t, typename packingAMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packmatrix_3c_20packingbmatrix_2c_20typename_20packingbmatrix_3a_3ainptype_2c_20typename_20packingbmatrix_3a_3aacctype_20_3e_34',['PackMatrix&lt; packingBMatrix, typename packingBMatrix::inpType, typename packingBMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
-  ['packweightmatrixforgconv_35',['PackWeightMatrixForGConv',['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html',1,'PackWeightMatrixForGConv&lt; T, accT, SPATIAL_DIM &gt;'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#ac4aac545b455c64f161fc78ac724d3e3',1,'fbgemm::PackWeightMatrixForGConv::PackWeightMatrixForGConv()']]],
-  ['packweightmatrixforgconv_3c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_2c_202_20_3e_36',['PackWeightMatrixForGConv&lt; std::int8_t, std::int32_t, 2 &gt;',['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html',1,'fbgemm']]],
-  ['packweightsforconv_37',['PackWeightsForConv',['../classfbgemm_1_1_pack_weights_for_conv.html',1,'fbgemm']]],
-  ['permute_20pooled_20embeddings_20operators_20cpu_38',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
-  ['permute_20pooled_20embeddings_20operators_20cuda_39',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
-  ['pooled_20embeddings_20operators_20cpu_40',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
-  ['pooled_20embeddings_20operators_20cuda_41',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
-  ['printpackedmatrix_42',['printPackedMatrix',['../classfbgemm_1_1_pack_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_b_matrix.html#ab19db6d7505e9ed131b2a101f90d5093',1,'fbgemm::PackBMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithIm2Col::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithRowOffset::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithQuantRowOffset::printPackedMatrix()']]]
+  ['packa_1',['PackA',['../namespacefbgemm.html#a28c69d65ed666a9f46dc4763be70cdf6',1,'fbgemm']]],
+  ['packamatrix_2',['PackAMatrix',['../classfbgemm_1_1_pack_a_matrix.html',1,'fbgemm']]],
+  ['packawithim2col_3',['PackAWithIm2Col',['../classfbgemm_1_1_pack_a_with_im2_col.html',1,'PackAWithIm2Col&lt; T, accT, SPATIAL_DIM &gt;'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a37d96dcba66f792135549702d2f25e4a',1,'fbgemm::PackAWithIm2Col::PackAWithIm2Col()']]],
+  ['packawithquantrowoffset_4',['PackAWithQuantRowOffset',['../classfbgemm_1_1_pack_a_with_quant_row_offset.html',1,'PackAWithQuantRowOffset&lt; T, accT &gt;'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a44ca398424d2d534802de6b892bf3a6a',1,'fbgemm::PackAWithQuantRowOffset::PackAWithQuantRowOffset()']]],
+  ['packawithrowoffset_5',['PackAWithRowOffset',['../classfbgemm_1_1_pack_a_with_row_offset.html',1,'PackAWithRowOffset&lt; T, accT &gt;'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a8dceb15ed761dfbf804244ffd2fc7f66',1,'fbgemm::PackAWithRowOffset::PackAWithRowOffset()']]],
+  ['packbmatrix_6',['PackBMatrix',['../classfbgemm_1_1_pack_b_matrix.html',1,'PackBMatrix&lt; T, accT &gt;'],['../classfbgemm_1_1_pack_b_matrix.html#a1afee702206695dfcd20de0474408b07',1,'fbgemm::PackBMatrix::PackBMatrix()']]],
+  ['packbmatrix_3c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_20_3e_7',['PackBMatrix&lt; std::int8_t, std::int32_t &gt;',['../classfbgemm_1_1_pack_b_matrix.html',1,'fbgemm']]],
+  ['packedblock_8',['packedBlock',['../classfbgemm_1_1_pack_matrix.html#a9c6a626fc1b0a20479c167862d7a91be',1,'fbgemm::PackMatrix']]],
+  ['packedbuffersize_9',['packedBufferSize',['../classfbgemm_1_1_pack_matrix.html#ab11bd74e390ac73323a514cf2d6e6b98',1,'fbgemm::PackMatrix']]],
+  ['packedcolstart_10',['packedColStart',['../classfbgemm_1_1_pack_matrix.html#aa981736a44501513eb4c0f8cb72a11c8',1,'fbgemm::PackMatrix']]],
+  ['packedgemmmatrixb_11',['PackedGemmMatrixB',['../classfbgemm_1_1_packed_gemm_matrix_b.html',1,'fbgemm']]],
+  ['packedrowstart_12',['packedRowStart',['../classfbgemm_1_1_pack_matrix.html#ae9e47d9b93f5049504203ff55472e075',1,'fbgemm::PackMatrix']]],
+  ['packingtraits_13',['PackingTraits',['../structfbgemm_1_1_packing_traits.html',1,'fbgemm']]],
+  ['packingtraits_3c_20float_2c_20float_2c_20inst_5fset_5ft_3a_3aavx2_20_3e_14',['PackingTraits&lt; float, float, inst_set_t::avx2 &gt;',['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html',1,'']]],
+  ['packingtraits_3c_20float16_2c_20float_2c_20inst_5fset_5ft_3a_3aavx2_20_3e_15',['PackingTraits&lt; float16, float, inst_set_t::avx2 &gt;',['../struct_packing_traits_3_01float16_00_01float_00_01inst__set__t_1_1avx2_01_4.html',1,'']]],
+  ['packingtraits_3c_20int64_5ft_2c_20int64_5ft_2c_20inst_5fset_5ft_3a_3aavx512_20_3e_16',['PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;',['../struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20acct_2c_20inst_5fset_5ft_3a_3aavx512_5fvnni_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_26_26is_5f16or32bit_3c_20acct_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_17',['PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20acct_2c_20inst_5fset_5ft_3a_3aavx512_5fvnni_5fymm_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_26_26is_5f16or32bit_3c_20acct_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_18',['PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20std_3a_3aint16_5ft_2c_20inst_5fset_5ft_3a_3aavx2_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_19',['PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20std_3a_3aint16_5ft_2c_20inst_5fset_5ft_3a_3aavx512_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_20',['PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20std_3a_3aint16_5ft_2c_20inst_5fset_5ft_3a_3aavx512_5fymm_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_21',['PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20std_3a_3aint32_5ft_2c_20inst_5fset_5ft_3a_3aavx2_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_22',['PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20std_3a_3aint32_5ft_2c_20inst_5fset_5ft_3a_3aavx512_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_23',['PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html',1,'']]],
+  ['packingtraits_3c_20t_2c_20std_3a_3aint32_5ft_2c_20inst_5fset_5ft_3a_3aavx512_5fymm_2c_20typename_20std_3a_3aenable_5fif_3c_20is_5f8bit_3c_20t_20_3e_3a_3avalue_20_3e_3a_3atype_20_3e_24',['PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html',1,'']]],
+  ['packmatrix_25',['PackMatrix',['../classfbgemm_1_1_pack_matrix.html',1,'PackMatrix&lt; PT, inpType, accType &gt;'],['../classfbgemm_1_1_pack_matrix.html#ac15276b97315df2567c4ab36d48b8da0',1,'fbgemm::PackMatrix::PackMatrix()']]],
+  ['packmatrix_3c_20fbgemm_3a_3apackbmatrix_3c_20int8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_2c_20int8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_26',['PackMatrix&lt; fbgemm::PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, int8_t, typename packingAMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packamatrix_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_27',['PackMatrix&lt; PackAMatrix&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packawithim2col_3c_20t_2c_20std_3a_3aint32_5ft_2c_202_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_28',['PackMatrix&lt; PackAWithIm2Col&lt; T, std::int32_t, 2 &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packawithquantrowoffset_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_29',['PackMatrix&lt; PackAWithQuantRowOffset&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packawithrowoffset_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_30',['PackMatrix&lt; PackAWithRowOffset&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packbmatrix_3c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_20_3e_2c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_20_3e_31',['PackMatrix&lt; PackBMatrix&lt; std::int8_t, std::int32_t &gt;, std::int8_t, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packbmatrix_3c_20t_2c_20std_3a_3aint32_5ft_20_3e_2c_20t_2c_20std_3a_3aint32_5ft_20_3e_32',['PackMatrix&lt; PackBMatrix&lt; T, std::int32_t &gt;, T, std::int32_t &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packingamatrix_2c_20typename_20packingamatrix_3a_3ainptype_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_33',['PackMatrix&lt; packingAMatrix, typename packingAMatrix::inpType, typename packingAMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packingamatrix_2c_20uint8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_34',['PackMatrix&lt; packingAMatrix, uint8_t, typename packingAMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packmatrix_3c_20packingbmatrix_2c_20typename_20packingbmatrix_3a_3ainptype_2c_20typename_20packingbmatrix_3a_3aacctype_20_3e_35',['PackMatrix&lt; packingBMatrix, typename packingBMatrix::inpType, typename packingBMatrix::accType &gt;',['../classfbgemm_1_1_pack_matrix.html',1,'fbgemm']]],
+  ['packweightmatrixforgconv_36',['PackWeightMatrixForGConv',['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html',1,'PackWeightMatrixForGConv&lt; T, accT, SPATIAL_DIM &gt;'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#ac4aac545b455c64f161fc78ac724d3e3',1,'fbgemm::PackWeightMatrixForGConv::PackWeightMatrixForGConv()']]],
+  ['packweightmatrixforgconv_3c_20std_3a_3aint8_5ft_2c_20std_3a_3aint32_5ft_2c_202_20_3e_37',['PackWeightMatrixForGConv&lt; std::int8_t, std::int32_t, 2 &gt;',['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html',1,'fbgemm']]],
+  ['packweightsforconv_38',['PackWeightsForConv',['../classfbgemm_1_1_pack_weights_for_conv.html',1,'fbgemm']]],
+  ['permute_20pooled_20embeddings_20operators_20cpu_39',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['permute_20pooled_20embeddings_20operators_20cuda_40',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
+  ['pooled_20embeddings_20operators_20cpu_41',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['pooled_20embeddings_20operators_20cuda_42',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
+  ['printmatrix_43',['printMatrix',['../namespacefbgemm.html#adfee356e154f8b2f88c725885b1dbc11',1,'fbgemm']]],
+  ['printpackedmatrix_44',['printPackedMatrix',['../classfbgemm_1_1_pack_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_b_matrix.html#ab19db6d7505e9ed131b2a101f90d5093',1,'fbgemm::PackBMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithIm2Col::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithRowOffset::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithQuantRowOffset::printPackedMatrix()']]]
 ];
diff --git a/search/all_11.js b/search/all_11.js
index 5fdc303d4..b866da46f 100644
--- a/search/all_11.js
+++ b/search/all_11.js
@@ -4,6 +4,7 @@ var searchData=
   ['quantization_20utilities_20avx2_1',['Quantization Utilities (AVX2)',['../group__fbgemm-quant-utils-avx2.html',1,'']]],
   ['quantization_20utilities_20avx512_2',['Quantization Utilities (AVX512)',['../group__fbgemm-quant-utils-avx512.html',1,'']]],
   ['quantization_20utilities_20generic_3',['Quantization Utilities (Generic)',['../group__fbgemm-quant-utils-generic.html',1,'']]],
-  ['quantize_20data_20cpu_20operators_4',['Quantize Data CPU Operators',['../group__quantize-data-cpu.html',1,'']]],
-  ['quantizegroupwise_5',['QuantizeGroupwise',['../group__fbgemm-quant-utils-generic.html#ga7a5705b5705425abc8f72fe339c2ae91',1,'fbgemm']]]
+  ['quantize_4',['Quantize',['../namespacefbgemm.html#a3350c03dc2d62e8e434332d088f6a895',1,'fbgemm']]],
+  ['quantize_20data_20cpu_20operators_5',['Quantize Data CPU Operators',['../group__quantize-data-cpu.html',1,'']]],
+  ['quantizegroupwise_6',['QuantizeGroupwise',['../group__fbgemm-quant-utils-generic.html#ga7a5705b5705425abc8f72fe339c2ae91',1,'fbgemm']]]
 ];
diff --git a/search/all_12.js b/search/all_12.js
index f507e5586..07dce4ac5 100644
--- a/search/all_12.js
+++ b/search/all_12.js
@@ -1,14 +1,21 @@
 var searchData=
 [
-  ['real_5fmultiplier_0',['real_multiplier',['../structfbgemm_1_1_requantization_params.html#ad0e106dd418b27919550747b4bdd2e83',1,'fbgemm::RequantizationParams']]],
-  ['reluoutput_1',['ReluOutput',['../classfbgemm_1_1_relu_output.html',1,'fbgemm']]],
-  ['requantizationforfloatparams_5ft_2',['requantizationForFloatParams_t',['../structfbgemm_1_1requantization_for_float_params__t.html',1,'fbgemm']]],
-  ['requantizationparams_3',['RequantizationParams',['../structfbgemm_1_1_requantization_params.html',1,'fbgemm']]],
-  ['requantizationparams_5ft_4',['requantizationParams_t',['../structfbgemm_1_1requantization_params__t.html',1,'fbgemm']]],
-  ['requantizeforfloat_5',['ReQuantizeForFloat',['../classfbgemm_1_1_re_quantize_for_float.html',1,'ReQuantizeForFloat&lt; FUSE_RELU, Q_GRAN, outT, inT, nextOPType &gt;'],['../classfbgemm_1_1_re_quantize_for_float.html#a7ac7e62127705921ee912811a72697c6',1,'fbgemm::ReQuantizeForFloat::ReQuantizeForFloat()']]],
-  ['requantizeoutput_6',['ReQuantizeOutput',['../classfbgemm_1_1_re_quantize_output.html',1,'ReQuantizeOutput&lt; FUSE_RELU, Q_GRAN, BIAS_TYPE, outT, inT, nextOPType &gt;'],['../classfbgemm_1_1_re_quantize_output.html#ab36806f951ba9ce3733448d78633de16',1,'fbgemm::ReQuantizeOutput::ReQuantizeOutput()']]],
-  ['requantizeoutputprocessingavx2_7',['requantizeOutputProcessingAvx2',['../group__fbgemm-quant-utils-avx2.html#ga92e2b96889b039f101e24855e163021b',1,'fbgemm']]],
-  ['requantizeoutputprocessinggconvavx512_8',['requantizeOutputProcessingGConvAvx512',['../group__fbgemm-quant-utils-avx512.html#gab1b2ed3537f97d130f8ed039bc9aa463',1,'fbgemm']]],
-  ['row_5finterleave_9',['ROW_INTERLEAVE',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; float, float, inst_set_t::avx2 &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::ROW_INTERLEAVE']]],
-  ['rowoffsetbuffersize_10',['rowOffsetBufferSize',['../classfbgemm_1_1_pack_a_with_im2_col.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithIm2Col::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithRowOffset::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithQuantRowOffset::rowOffsetBufferSize()']]]
+  ['radix_5fsort_5fparallel_0',['radix_sort_parallel',['../namespacefbgemm.html#a3d34903420acd55fcebd0f8a19d8a84d',1,'fbgemm']]],
+  ['real_5fmultiplier_1',['real_multiplier',['../structfbgemm_1_1_requantization_params.html#ad0e106dd418b27919550747b4bdd2e83',1,'fbgemm::RequantizationParams']]],
+  ['reduceavx2_2',['reduceAvx2',['../namespacefbgemm.html#ac2d8c325cbc2893ed9a32f71c6a3596b',1,'fbgemm']]],
+  ['reluoutput_3',['ReluOutput',['../classfbgemm_1_1_relu_output.html',1,'fbgemm']]],
+  ['requantizationforfloatparams_5ft_4',['requantizationForFloatParams_t',['../structfbgemm_1_1requantization_for_float_params__t.html',1,'fbgemm']]],
+  ['requantizationparams_5',['RequantizationParams',['../structfbgemm_1_1_requantization_params.html',1,'fbgemm']]],
+  ['requantizationparams_5ft_6',['requantizationParams_t',['../structfbgemm_1_1requantization_params__t.html',1,'fbgemm']]],
+  ['requantize_5fu8acc32_5fref_7',['requantize_u8acc32_ref',['../namespacefbgemm.html#ab87b23be5587e267db6ab7d2b97c6915',1,'fbgemm::requantize_u8acc32_ref(int M, int N, int ld, const std::int32_t *inp, std::uint8_t *out, std::int32_t C_multiplier, std::int32_t C_right_shift, std::int32_t C_zero_point, std::int32_t A_zero_point, std::int32_t B_zero_point, const std::int32_t *row_offsets, const std::int32_t *col_offsets, const std::int32_t *bias, bool fuse_relu=false)'],['../namespacefbgemm.html#a798fea9136d48e1cd4c8a2926fb869ed',1,'fbgemm::requantize_u8acc32_ref(int M, int N, int ld, const std::int32_t *inp, std::uint8_t *out, const float *C_multiplier, std::int32_t C_zero_point, std::int32_t A_zero_point, const std::int32_t *B_zero_point, const std::int32_t *row_offsets, const std::int32_t *col_offsets, const std::int32_t *bias, int ncols_per_quant_group, bool fuse_relu=false)']]],
+  ['requantizeforfloat_8',['ReQuantizeForFloat',['../classfbgemm_1_1_re_quantize_for_float.html',1,'ReQuantizeForFloat&lt; FUSE_RELU, Q_GRAN, outT, inT, nextOPType &gt;'],['../classfbgemm_1_1_re_quantize_for_float.html#a7ac7e62127705921ee912811a72697c6',1,'fbgemm::ReQuantizeForFloat::ReQuantizeForFloat()']]],
+  ['requantizeoutput_9',['ReQuantizeOutput',['../classfbgemm_1_1_re_quantize_output.html',1,'ReQuantizeOutput&lt; FUSE_RELU, Q_GRAN, BIAS_TYPE, outT, inT, nextOPType &gt;'],['../classfbgemm_1_1_re_quantize_output.html#ab36806f951ba9ce3733448d78633de16',1,'fbgemm::ReQuantizeOutput::ReQuantizeOutput()']]],
+  ['requantizeoutputprocessingavx2_10',['requantizeOutputProcessingAvx2',['../group__fbgemm-quant-utils-avx2.html#ga92e2b96889b039f101e24855e163021b',1,'fbgemm']]],
+  ['requantizeoutputprocessinggconvavx512_11',['requantizeOutputProcessingGConvAvx512',['../group__fbgemm-quant-utils-avx512.html#gab1b2ed3537f97d130f8ed039bc9aa463',1,'fbgemm']]],
+  ['roundtofloat16_12',['RoundToFloat16',['../namespacefbgemm.html#a3bf47d3d99c8b3cb2af625d90c5494ab',1,'fbgemm']]],
+  ['row_5finterleave_13',['ROW_INTERLEAVE',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; float, float, inst_set_t::avx2 &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::ROW_INTERLEAVE'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html#a7b230df4f85b2d8c182b0da1d27b64a0',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::ROW_INTERLEAVE']]],
+  ['row_5foffsets_5fu8acc32_5fref_14',['row_offsets_u8acc32_ref',['../namespacefbgemm.html#a0a160cf468a51c4634688b4f43851324',1,'fbgemm']]],
+  ['rowoffsetbuffersize_15',['rowOffsetBufferSize',['../classfbgemm_1_1_pack_a_with_im2_col.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithIm2Col::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithRowOffset::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithQuantRowOffset::rowOffsetBufferSize()']]],
+  ['rowoffsetbuffersizegconv_16',['rowOffsetBufferSizeGConv',['../namespacefbgemm.html#a8f972dca3254066120f58af5cf3b304c',1,'fbgemm']]],
+  ['rowwise_5fsparse_5fadagrad_5fref_17',['rowwise_sparse_adagrad_ref',['../namespacefbgemm.html#a3bee8daea3756d030209a6815db314d9',1,'fbgemm']]]
 ];
diff --git a/search/all_13.js b/search/all_13.js
index 10cd0acf2..0bd6e046d 100644
--- a/search/all_13.js
+++ b/search/all_13.js
@@ -7,7 +7,11 @@ var searchData=
   ['simd_5finfo_3c_20inst_5fset_5ft_3a_3aavx512_5fymm_20_3e_4',['simd_info&lt; inst_set_t::avx512_ymm &gt;',['../structfbgemm_1_1simd__info.html',1,'fbgemm']]],
   ['sparse_20data_20cpu_20operators_5',['Sparse Data CPU Operators',['../group__sparse-data-cpu.html',1,'']]],
   ['sparse_20data_20cuda_20operators_6',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]],
-  ['sparseadagradsignature_7',['SparseAdaGradSignature',['../classfbgemm_1_1_sparse_ada_grad_signature.html',1,'fbgemm']]],
-  ['spmdm_8',['SpMDM',['../classfbgemm_1_1_compressed_sparse_column.html#a9f8530a8442a8fd99bfe3896d0fff5de',1,'fbgemm::CompressedSparseColumn']]],
-  ['storecregs_9',['storeCRegs',['../classfbgemm_1_1_code_gen_base.html#a01bcc02f063a515df6d7fda518ef1d12',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a12a9f2428ed6fd0dd90c91fd4477e271',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)']]]
+  ['sparse_5fadagrad_5fref_7',['sparse_adagrad_ref',['../namespacefbgemm.html#a3f04df11e31dd656955d1bd1f8a7893d',1,'fbgemm']]],
+  ['sparseadagradsignature_8',['SparseAdaGradSignature',['../classfbgemm_1_1_sparse_ada_grad_signature.html',1,'fbgemm']]],
+  ['sparsedensemm_9',['SparseDenseMM',['../namespacefbgemm.html#a1671cc912f6aa4bab678a0d255c8a690',1,'fbgemm']]],
+  ['spmdm_10',['SpMDM',['../classfbgemm_1_1_compressed_sparse_column.html#a9f8530a8442a8fd99bfe3896d0fff5de',1,'fbgemm::CompressedSparseColumn']]],
+  ['spmdm_5fref_11',['spmdm_ref',['../namespacefbgemm.html#a4f19d1389f9e99cc0daded599b1f1fd4',1,'fbgemm']]],
+  ['spmdmkernelavx2_12',['spmdmKernelAvx2',['../namespacefbgemm.html#a8b547effff25521017d20a5c4ddb8fcc',1,'fbgemm']]],
+  ['storecregs_13',['storeCRegs',['../classfbgemm_1_1_code_gen_base.html#a01bcc02f063a515df6d7fda518ef1d12',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a12a9f2428ed6fd0dd90c91fd4477e271',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)']]]
 ];
diff --git a/search/all_14.js b/search/all_14.js
index c53028077..0fe2208e9 100644
--- a/search/all_14.js
+++ b/search/all_14.js
@@ -1,10 +1,15 @@
 var searchData=
 [
-  ['tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
-  ['tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
-  ['tensorquantizationparams_2',['TensorQuantizationParams',['../structfbgemm_1_1_tensor_quantization_params.html',1,'fbgemm']]],
-  ['thread_5ftype_5ft_3',['thread_type_t',['../structfbgemm_1_1thread__type__t.html',1,'fbgemm']]],
-  ['tostring_4',['toString',['../structfbgemm_1_1conv__param__t.html#a1fe5121d6528fdea3f243321b3fa3a49',1,'fbgemm::conv_param_t']]],
-  ['transformation_20cpu_20operators_5',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
-  ['transformation_20cuda_20operators_6',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]]
+  ['takedepthwisefastpath_0',['takeDepthWiseFastPath',['../namespacefbgemm.html#a523727ffa987158ac9021cc0d9b97e0b',1,'fbgemm']]],
+  ['takepointwisefastpath_1',['takePointWiseFastPath',['../namespacefbgemm.html#affb3e7487c8a1c6c7d1549eb7090aee1',1,'fbgemm']]],
+  ['tensor_20cuda_20operators_2',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
+  ['tensor_20operators_3',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
+  ['tensorquantizationparams_4',['TensorQuantizationParams',['../structfbgemm_1_1_tensor_quantization_params.html',1,'fbgemm']]],
+  ['thread_5ftype_5ft_5',['thread_type_t',['../structfbgemm_1_1thread__type__t.html',1,'fbgemm']]],
+  ['tostring_6',['toString',['../structfbgemm_1_1conv__param__t.html#a1fe5121d6528fdea3f243321b3fa3a49',1,'fbgemm::conv_param_t']]],
+  ['transformation_20cpu_20operators_7',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
+  ['transformation_20cuda_20operators_8',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]],
+  ['transpose_5f8rows_9',['transpose_8rows',['../namespacefbgemm.html#a9ee41553113b6cd89e0e336022acf250',1,'fbgemm']]],
+  ['transpose_5fref_10',['transpose_ref',['../namespacefbgemm.html#a18832d0507cb6d8bce78371b97f66479',1,'fbgemm']]],
+  ['transpose_5fsimd_11',['transpose_simd',['../namespacefbgemm.html#a75b4ad78ae16c6e6782f82e1ff4012a8',1,'fbgemm']]]
 ];
diff --git a/search/all_2.js b/search/all_2.js
index a8c300901..5133f9337 100644
--- a/search/all_2.js
+++ b/search/all_2.js
@@ -2,12 +2,17 @@ var searchData=
 [
   ['bcol_5f_0',['bcol_',['../classfbgemm_1_1_pack_matrix.html#a39ff9fbd497e19e41a2666fb158b61bb',1,'fbgemm::PackMatrix']]],
   ['bcsrmatrix_1',['BCSRMatrix',['../structfbgemm_1_1_b_c_s_r_matrix.html',1,'fbgemm']]],
-  ['block_5ftype_5ft_2',['block_type_t',['../structfbgemm_1_1block__type__t.html',1,'fbgemm']]],
-  ['blockcols_3',['blockCols',['../classfbgemm_1_1_pack_matrix.html#abb3166a23e502ffb0bc12243ec205fc0',1,'fbgemm::PackMatrix']]],
-  ['blockcolsize_4',['blockColSize',['../classfbgemm_1_1_pack_matrix.html#a70ac7f71f0b18449dc35c7ecc1162f84',1,'fbgemm::PackMatrix']]],
-  ['blocking_5fparams_5',['blocking_params',['../classfbgemm_1_1_pack_matrix.html#aa94e292b3bf63b26e96c8d00654170a0',1,'fbgemm::PackMatrix']]],
-  ['blockingfactors_6',['BlockingFactors',['../structfbgemm_1_1_blocking_factors.html',1,'fbgemm']]],
-  ['blockrows_7',['blockRows',['../classfbgemm_1_1_pack_matrix.html#abf7a4f4bb1702ee01325f06409038631',1,'fbgemm::PackMatrix']]],
-  ['blockrowsize_8',['blockRowSize',['../classfbgemm_1_1_pack_matrix.html#a0f90dade3e2b75f0cbd459e24f94723d',1,'fbgemm::PackMatrix']]],
-  ['brow_5f_9',['brow_',['../classfbgemm_1_1_pack_matrix.html#a8d6df6d285a6ae4c23253f657c70efe0',1,'fbgemm::PackMatrix']]]
+  ['bfloat16tofloat_5favx2_2',['Bfloat16ToFloat_avx2',['../namespacefbgemm.html#ae121dec17e2e8a7648b3077f970f8c49',1,'fbgemm']]],
+  ['bfloat16tofloat_5favx512_3',['Bfloat16ToFloat_avx512',['../namespacefbgemm.html#a874e15e8f1c021008e76a24e8714024c',1,'fbgemm']]],
+  ['bfloat16tofloat_5fref_4',['Bfloat16ToFloat_ref',['../namespacefbgemm.html#af84f2b20490beb1dd0da4b03cf93afac',1,'fbgemm']]],
+  ['bfloat16tofloat_5fsimd_5',['Bfloat16ToFloat_simd',['../namespacefbgemm.html#afb00b526459a0db53a2c6ffe0276dd3e',1,'fbgemm']]],
+  ['block_5ftype_5ft_6',['block_type_t',['../structfbgemm_1_1block__type__t.html',1,'fbgemm']]],
+  ['blockcols_7',['blockCols',['../classfbgemm_1_1_pack_matrix.html#abb3166a23e502ffb0bc12243ec205fc0',1,'fbgemm::PackMatrix']]],
+  ['blockcolsize_8',['blockColSize',['../classfbgemm_1_1_pack_matrix.html#a70ac7f71f0b18449dc35c7ecc1162f84',1,'fbgemm::PackMatrix']]],
+  ['blocking_5fparams_9',['blocking_params',['../classfbgemm_1_1_pack_matrix.html#aa94e292b3bf63b26e96c8d00654170a0',1,'fbgemm::PackMatrix']]],
+  ['blockingfactors_10',['BlockingFactors',['../structfbgemm_1_1_blocking_factors.html',1,'fbgemm']]],
+  ['blockrows_11',['blockRows',['../classfbgemm_1_1_pack_matrix.html#abf7a4f4bb1702ee01325f06409038631',1,'fbgemm::PackMatrix']]],
+  ['blockrowsize_12',['blockRowSize',['../classfbgemm_1_1_pack_matrix.html#a0f90dade3e2b75f0cbd459e24f94723d',1,'fbgemm::PackMatrix']]],
+  ['broadcast8bit_13',['broadcast8Bit',['../namespacefbgemm.html#a4840e075e8c46a94cb7a489c3fa6aee4',1,'fbgemm']]],
+  ['brow_5f_14',['brow_',['../classfbgemm_1_1_pack_matrix.html#a8d6df6d285a6ae4c23253f657c70efe0',1,'fbgemm::PackMatrix']]]
 ];
diff --git a/search/all_3.js b/search/all_3.js
index 9ee0b3958..814489e1f 100644
--- a/search/all_3.js
+++ b/search/all_3.js
@@ -1,21 +1,25 @@
 var searchData=
 [
-  ['codecache_0',['CodeCache',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
-  ['codecache_3c_20kernel_5fsig_5ft_2c_20jit_5fconv_5fkernel_5ffp_20_3e_1',['CodeCache&lt; kernel_sig_t, jit_conv_kernel_fp &gt;',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
-  ['codecache_3c_20std_3a_3atuple_3c_20bool_2c_20int_2c_20int_2c_20int_20_3e_2c_20jit_5fmicro_5fkernel_5ffp_5fconvt_20_3e_2',['CodeCache&lt; std::tuple&lt; bool, int, int, int &gt;, jit_micro_kernel_fp_convT &gt;',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
-  ['codecache_3c_20std_3a_3atuple_3c_20bool_2c_20int_2c_20int_2c_20int_2c_20int_2c_20int_2c_20int_20_3e_2c_20jit_5fmicro_5fkernel_5ffp_20_3e_3',['CodeCache&lt; std::tuple&lt; bool, int, int, int, int, int, int &gt;, jit_micro_kernel_fp &gt;',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
-  ['codegenbase_4',['CodeGenBase',['../classfbgemm_1_1_code_gen_base.html',1,'CodeGenBase&lt; TA, TB, TC, accT &gt;'],['../classfbgemm_1_1_code_gen_base.html#a843f4289cb9de379bac477ed0dcba1cf',1,'fbgemm::CodeGenBase::CodeGenBase()']]],
-  ['codegenbase_3c_20packingamatrix_3a_3ainptype_2c_20packingbmatrix_3a_3ainptype_2c_20ct_2c_20packingbmatrix_3a_3aacctype_20_3e_5',['CodeGenBase&lt; packingAMatrix::inpType, packingBMatrix::inpType, cT, packingBMatrix::accType &gt;',['../classfbgemm_1_1_code_gen_base.html',1,'fbgemm']]],
-  ['codegenbase_3c_20uint8_5ft_2c_20int8_5ft_2c_20int32_5ft_2c_20packingamatrix_3a_3aacctype_20_3e_6',['CodeGenBase&lt; uint8_t, int8_t, int32_t, packingAMatrix::accType &gt;',['../classfbgemm_1_1_code_gen_base.html',1,'fbgemm']]],
-  ['combine_20input_20operators_7',['Combine Input Operators',['../group__input-combine.html',1,'']]],
-  ['comparator_8',['Comparator',['../structfbgemm__gpu_1_1_comparator.html',1,'fbgemm_gpu']]],
-  ['compressedsparsecolumn_9',['CompressedSparseColumn',['../classfbgemm_1_1_compressed_sparse_column.html',1,'fbgemm']]],
-  ['conv_5fparam_5ft_10',['conv_param_t',['../structfbgemm_1_1conv__param__t.html',1,'conv_param_t&lt; SPATIAL_DIM &gt;'],['../structfbgemm_1_1conv__param__t.html#a926431139532f74306f6cd6dc08d171a',1,'fbgemm::conv_param_t::conv_param_t()']]],
-  ['conv_5fparam_5ft_3c_202_20_3e_11',['conv_param_t&lt; 2 &gt;',['../structfbgemm_1_1conv__param__t.html',1,'fbgemm']]],
-  ['conv_5fparam_5ft_3c_20spatial_5fdim_20_3e_12',['conv_param_t&lt; SPATIAL_DIM &gt;',['../structfbgemm_1_1conv__param__t.html',1,'fbgemm']]],
-  ['cpu_13',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
-  ['cpu_20operators_14',['CPU Operators',['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
-  ['cuda_15',['CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]],
-  ['cuda_20memory_20operators_16',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
-  ['cuda_20operators_17',['CUDA Operators',['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]]
+  ['cblas_5fsgemm_5fref_0',['cblas_sgemm_ref',['../namespacefbgemm.html#a88e97a715133ac27ca83ae5ab05010ed',1,'fbgemm']]],
+  ['codecache_1',['CodeCache',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
+  ['codecache_3c_20kernel_5fsig_5ft_2c_20jit_5fconv_5fkernel_5ffp_20_3e_2',['CodeCache&lt; kernel_sig_t, jit_conv_kernel_fp &gt;',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
+  ['codecache_3c_20std_3a_3atuple_3c_20bool_2c_20int_2c_20int_2c_20int_20_3e_2c_20jit_5fmicro_5fkernel_5ffp_5fconvt_20_3e_3',['CodeCache&lt; std::tuple&lt; bool, int, int, int &gt;, jit_micro_kernel_fp_convT &gt;',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
+  ['codecache_3c_20std_3a_3atuple_3c_20bool_2c_20int_2c_20int_2c_20int_2c_20int_2c_20int_2c_20int_20_3e_2c_20jit_5fmicro_5fkernel_5ffp_20_3e_4',['CodeCache&lt; std::tuple&lt; bool, int, int, int, int, int, int &gt;, jit_micro_kernel_fp &gt;',['../classfbgemm_1_1_code_cache.html',1,'fbgemm']]],
+  ['codegenbase_5',['CodeGenBase',['../classfbgemm_1_1_code_gen_base.html',1,'CodeGenBase&lt; TA, TB, TC, accT &gt;'],['../classfbgemm_1_1_code_gen_base.html#a843f4289cb9de379bac477ed0dcba1cf',1,'fbgemm::CodeGenBase::CodeGenBase()']]],
+  ['codegenbase_3c_20packingamatrix_3a_3ainptype_2c_20packingbmatrix_3a_3ainptype_2c_20ct_2c_20packingbmatrix_3a_3aacctype_20_3e_6',['CodeGenBase&lt; packingAMatrix::inpType, packingBMatrix::inpType, cT, packingBMatrix::accType &gt;',['../classfbgemm_1_1_code_gen_base.html',1,'fbgemm']]],
+  ['codegenbase_3c_20uint8_5ft_2c_20int8_5ft_2c_20int32_5ft_2c_20packingamatrix_3a_3aacctype_20_3e_7',['CodeGenBase&lt; uint8_t, int8_t, int32_t, packingAMatrix::accType &gt;',['../classfbgemm_1_1_code_gen_base.html',1,'fbgemm']]],
+  ['col_5foffsets_5fwith_5fzero_5fpt_5fs8acc32_5fref_8',['col_offsets_with_zero_pt_s8acc32_ref',['../namespacefbgemm.html#a0f66af5e8e787dc1ff6893ac75ae161f',1,'fbgemm']]],
+  ['combine_20input_20operators_9',['Combine Input Operators',['../group__input-combine.html',1,'']]],
+  ['comparator_10',['Comparator',['../structfbgemm__gpu_1_1_comparator.html',1,'fbgemm_gpu']]],
+  ['compare_5fbuffers_11',['compare_buffers',['../namespacefbgemm.html#a9d995b583abb4b09927c90f66e3b1463',1,'fbgemm']]],
+  ['compressedsparsecolumn_12',['CompressedSparseColumn',['../classfbgemm_1_1_compressed_sparse_column.html',1,'fbgemm']]],
+  ['conv_5fparam_5ft_13',['conv_param_t',['../structfbgemm_1_1conv__param__t.html',1,'conv_param_t&lt; SPATIAL_DIM &gt;'],['../structfbgemm_1_1conv__param__t.html#a926431139532f74306f6cd6dc08d171a',1,'fbgemm::conv_param_t::conv_param_t()']]],
+  ['conv_5fparam_5ft_3c_202_20_3e_14',['conv_param_t&lt; 2 &gt;',['../structfbgemm_1_1conv__param__t.html',1,'fbgemm']]],
+  ['conv_5fparam_5ft_3c_20spatial_5fdim_20_3e_15',['conv_param_t&lt; SPATIAL_DIM &gt;',['../structfbgemm_1_1conv__param__t.html',1,'fbgemm']]],
+  ['convfastpath_16',['ConvFastPath',['../namespacefbgemm.html#ad5bda89769bca9a01ddf81591f20ef02',1,'fbgemm']]],
+  ['cpu_17',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['cpu_20operators_18',['CPU Operators',['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
+  ['cuda_19',['CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]],
+  ['cuda_20memory_20operators_20',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
+  ['cuda_20operators_21',['CUDA Operators',['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]]
 ];
diff --git a/search/all_4.js b/search/all_4.js
index 052da5884..794911b99 100644
--- a/search/all_4.js
+++ b/search/all_4.js
@@ -3,12 +3,14 @@ var searchData=
   ['data_20cpu_20operators_0',['Data CPU Operators',['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
   ['data_20cuda_20operators_1',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]],
   ['density_2',['Density',['../classfbgemm_1_1_compressed_sparse_column.html#a6629bcd3b06c396540c2d5b7e4852164',1,'fbgemm::CompressedSparseColumn']]],
-  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_3',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'split_embeddings_cache_cuda.cuh']]],
-  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_4',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'split_embeddings_cache_cuda.cuh']]],
-  ['donothing_5',['DoNothing',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
-  ['donothing_3c_20float_2c_20float_20_3e_6',['DoNothing&lt; float, float &gt;',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
-  ['donothing_3c_20std_3a_3aint32_5ft_2c_20std_3a_3aint32_5ft_20_3e_7',['DoNothing&lt; std::int32_t, std::int32_t &gt;',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
-  ['donothing_3c_20std_3a_3auint8_5ft_2c_20std_3a_3auint8_5ft_20_3e_8',['DoNothing&lt; std::uint8_t, std::uint8_t &gt;',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
-  ['dosconvoninpbuffer_9',['DoSConvOnInpBuffer',['../classfbgemm_1_1_do_s_conv_on_inp_buffer.html',1,'fbgemm']]],
-  ['dospmdmoninpbuffer_10',['DoSpmdmOnInpBuffer',['../classfbgemm_1_1_do_spmdm_on_inp_buffer.html',1,'fbgemm']]]
+  ['depthwise_5f2d_5fsame_5fpad_3',['depthwise_2d_same_pad',['../namespacefbgemm.html#ac2e9634d4e2366ed6f2181ae7e7b17b2',1,'fbgemm']]],
+  ['depthwise_5f3d_5fsame_5fpad_4',['depthwise_3d_same_pad',['../namespacefbgemm.html#a0bfa499fd1b485bc3e457842343bca57',1,'fbgemm']]],
+  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_5',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'split_embeddings_cache_cuda.cuh']]],
+  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_6',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'split_embeddings_cache_cuda.cuh']]],
+  ['donothing_7',['DoNothing',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
+  ['donothing_3c_20float_2c_20float_20_3e_8',['DoNothing&lt; float, float &gt;',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
+  ['donothing_3c_20std_3a_3aint32_5ft_2c_20std_3a_3aint32_5ft_20_3e_9',['DoNothing&lt; std::int32_t, std::int32_t &gt;',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
+  ['donothing_3c_20std_3a_3auint8_5ft_2c_20std_3a_3auint8_5ft_20_3e_10',['DoNothing&lt; std::uint8_t, std::uint8_t &gt;',['../classfbgemm_1_1_do_nothing.html',1,'fbgemm']]],
+  ['dosconvoninpbuffer_11',['DoSConvOnInpBuffer',['../classfbgemm_1_1_do_s_conv_on_inp_buffer.html',1,'fbgemm']]],
+  ['dospmdmoninpbuffer_12',['DoSpmdmOnInpBuffer',['../classfbgemm_1_1_do_spmdm_on_inp_buffer.html',1,'fbgemm']]]
 ];
diff --git a/search/all_5.js b/search/all_5.js
index c7e8bd291..7b2327a66 100644
--- a/search/all_5.js
+++ b/search/all_5.js
@@ -4,10 +4,13 @@ var searchData=
   ['embedding_20cuda_20operators_1',['Embedding CUDA Operators',['../group__embedding-cuda.html',1,'']]],
   ['embeddings_20operators_20cpu_2',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
   ['embeddings_20operators_20cuda_3',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
-  ['equals_4',['equals',['../classfbgemm_1_1_pack_b_matrix.html#a5299773354edb62a96e39dc55ab5d770',1,'fbgemm::PackBMatrix']]],
-  ['example_20method_20group_5',['Example Method Group',['../group__example-method-group.html',1,'']]],
-  ['example_5fmethod_6',['example_method',['../group__example-method-group.html#ga56a504c1752577359ba5b75a9cd52737',1,'example_code.cpp']]],
-  ['executekernel_7',['ExecuteKernel',['../classfbgemm_1_1_execute_kernel.html',1,'ExecuteKernel&lt; packingAMatrix, packingBMatrix, cT, processOutputType &gt;'],['../classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html#ae4a4e6063c0cb62d64d6159d102a899b',1,'fbgemm::ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;::ExecuteKernel()']]],
-  ['executekernel_3c_20packingamatrix_2c_20packbmatrix_3c_20int8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_2c_20ct_2c_20processoutputtype_20_3e_8',['ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;',['../classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html',1,'fbgemm']]],
-  ['expand_5finto_5fjagged_5fpermute_5fcuda_9',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#gab7344d63216dd37673733b26954aaec4',1,'fbgemm_gpu']]]
+  ['emitextracthalfvector_4',['emitExtractHalfVector',['../namespacefbgemm.html#a602ac18c0e6c32448ff8d21818bded38',1,'fbgemm']]],
+  ['emitloaddword_5',['emitLoadDWord',['../namespacefbgemm.html#aa56904bd84399e10104d286e0e10a2d7',1,'fbgemm']]],
+  ['equals_6',['equals',['../classfbgemm_1_1_pack_b_matrix.html#a5299773354edb62a96e39dc55ab5d770',1,'fbgemm::PackBMatrix']]],
+  ['example_20method_20group_7',['Example Method Group',['../group__example-method-group.html',1,'']]],
+  ['example_5fmethod_8',['example_method',['../group__example-method-group.html#ga56a504c1752577359ba5b75a9cd52737',1,'example_code.cpp']]],
+  ['executekernel_9',['ExecuteKernel',['../classfbgemm_1_1_execute_kernel.html',1,'ExecuteKernel&lt; packingAMatrix, packingBMatrix, cT, processOutputType &gt;'],['../classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html#ae4a4e6063c0cb62d64d6159d102a899b',1,'fbgemm::ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;::ExecuteKernel()']]],
+  ['executekernel_3c_20packingamatrix_2c_20packbmatrix_3c_20int8_5ft_2c_20typename_20packingamatrix_3a_3aacctype_20_3e_2c_20ct_2c_20processoutputtype_20_3e_10',['ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;',['../classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html',1,'fbgemm']]],
+  ['expand_5finto_5fjagged_5fpermute_5fcuda_11',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#gab7344d63216dd37673733b26954aaec4',1,'fbgemm_gpu']]],
+  ['experimental_20gen_20ai_20attention_12',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]]
 ];
diff --git a/search/all_6.js b/search/all_6.js
index 31fa5b3e7..507f453b5 100644
--- a/search/all_6.js
+++ b/search/all_6.js
@@ -1,6 +1,48 @@
 var searchData=
 [
-  ['findminmax_0',['FindMinMax',['../group__fbgemm-quant-utils-avx2.html#ga38920438e5d25d4092a1b695f3420b8e',1,'fbgemm']]],
-  ['floatorhalftofusednbitrowwisequantizedsbhalf_1',['FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf',['../group__fbgemm-quant-utils-generic.html#ga6b77c8540e630305db9a5f30a84e7e5b',1,'fbgemm']]],
-  ['fusedquantizedequantize_2',['FusedQuantizeDequantize',['../group__fbgemm-quant-utils-generic.html#gaa51ab0f363fbcdf8ffa0a561884225d9',1,'fbgemm']]]
+  ['fbgemm_0',['fbgemm',['../namespacefbgemm.html',1,'']]],
+  ['fbgemmalignedalloc_1',['fbgemmAlignedAlloc',['../namespacefbgemm.html#ab55953ea0d8867577ef9b096d68cfce4',1,'fbgemm']]],
+  ['fbgemmalignedfree_2',['fbgemmAlignedFree',['../namespacefbgemm.html#a539e708e033ffe98b075a6b6c5cb4b46',1,'fbgemm']]],
+  ['fbgemmconv_3',['fbgemmConv',['../namespacefbgemm.html#adc9d2af7ea01634fd2e5bef0e6baa0ab',1,'fbgemm']]],
+  ['fbgemmenableavx512ymm_4',['fbgemmEnableAvx512Ymm',['../namespacefbgemm.html#a9d17a4894f822f7afd5c79407bbf91d5',1,'fbgemm']]],
+  ['fbgemmforceisa_5',['fbgemmForceIsa',['../namespacefbgemm.html#af150495d47d5ccb1670524166fd9b45d',1,'fbgemm']]],
+  ['fbgemmget2dpartition_6',['fbgemmGet2DPartition',['../namespacefbgemm.html#a26e1a7f0b1935835ad95a52aa4f56eb8',1,'fbgemm']]],
+  ['fbgemmgetthreadpartition_7',['fbgemmGetThreadPartition',['../namespacefbgemm.html#a38cca353e8e2984e37704be8bbc327fe',1,'fbgemm']]],
+  ['fbgemmgroupwiseconv_8',['fbgemmGroupwiseConv',['../namespacefbgemm.html#a5780ef4a16a1682740af29283360caa4',1,'fbgemm']]],
+  ['fbgemmhasarmneonsupport_9',['fbgemmHasArmNeonSupport',['../namespacefbgemm.html#af727aa5e29e172f994653d01e444973e',1,'fbgemm']]],
+  ['fbgemmhasarmsve2support_10',['fbgemmHasArmSve2Support',['../namespacefbgemm.html#aae9bb60bfb4acb2e62976adcd98ccaa0',1,'fbgemm']]],
+  ['fbgemmhasavx2support_11',['fbgemmHasAvx2Support',['../namespacefbgemm.html#a52e1a4ce201a6b89ad8b3dee69c59d40',1,'fbgemm']]],
+  ['fbgemmhasavx512support_12',['fbgemmHasAvx512Support',['../namespacefbgemm.html#ae0e6eeaba3d5c4265d9aee5e898fb329',1,'fbgemm']]],
+  ['fbgemmhasavx512vnnisupport_13',['fbgemmHasAvx512VnniSupport',['../namespacefbgemm.html#ae6e5fa9178cd2a70a01ef78a571802f5',1,'fbgemm']]],
+  ['fbgemminstructionset_14',['fbgemmInstructionSet',['../namespacefbgemm.html#a2be92a96ebd3c0d9bc9f9c0d0c537969',1,'fbgemm']]],
+  ['fbgemmisintelxeond_15',['fbgemmIsIntelXeonD',['../namespacefbgemm.html#a84685dfa70eedf3c2befcb8d02cf9d27',1,'fbgemm']]],
+  ['fbgemmoptimizedgconv_16',['fbgemmOptimizedGConv',['../namespacefbgemm.html#a19ec32cc9a1932f774bd8b2e0b047afe',1,'fbgemm']]],
+  ['fbgemmpacked_17',['fbgemmPacked',['../namespacefbgemm.html#a1f01b8b3f8fea3e9c8ccc2aed30ba70a',1,'fbgemm']]],
+  ['fbgemmpartition1d_18',['fbgemmPartition1D',['../namespacefbgemm.html#abf9cb71c5c3a79935f7146f05510bb19',1,'fbgemm']]],
+  ['fbgemmpartition1dblocked_19',['fbgemmPartition1DBlocked',['../namespacefbgemm.html#ae6d6321b283eaa5a8ddaaa96ea22c62f',1,'fbgemm']]],
+  ['fbgemmsupportedcpu_20',['fbgemmSupportedCPU',['../namespacefbgemm.html#a713e97500428aba767f6fcaf39aac4b9',1,'fbgemm']]],
+  ['findminmax_21',['FindMinMax',['../group__fbgemm-quant-utils-avx2.html#ga38920438e5d25d4092a1b695f3420b8e',1,'fbgemm']]],
+  ['float16tofloat_5favx2_22',['Float16ToFloat_avx2',['../namespacefbgemm.html#ae0cba6562b792a67eb376841005a907b',1,'fbgemm']]],
+  ['float16tofloat_5favx512_23',['Float16ToFloat_avx512',['../namespacefbgemm.html#a5d28283194eed8d19ebc5634fd78913f',1,'fbgemm']]],
+  ['float16tofloat_5fref_24',['Float16ToFloat_ref',['../namespacefbgemm.html#afc22ec6e38a38c7f41484f844dbfbeac',1,'fbgemm']]],
+  ['float16tofloat_5fsimd_25',['Float16ToFloat_simd',['../namespacefbgemm.html#af066434e23720ecd4ddcc51d7a616aef',1,'fbgemm']]],
+  ['float8tofloat_5fref_26',['Float8ToFloat_ref',['../namespacefbgemm.html#ad699dd756e87f820cca1f1202cec2a11',1,'fbgemm']]],
+  ['floatorhalftofused8bitrowwisequantizedsbfloat_27',['FloatOrHalfToFused8BitRowwiseQuantizedSBFloat',['../namespacefbgemm.html#afafa94e239d016cf273ad0597152b86c',1,'fbgemm']]],
+  ['floatorhalftofused8bitrowwisequantizedsbfloatref_28',['FloatOrHalfToFused8BitRowwiseQuantizedSBFloatRef',['../namespacefbgemm.html#a7cba6dad217715349653862b3e691057',1,'fbgemm']]],
+  ['floatorhalftofusednbitrowwisequantizedsbhalf_29',['FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf',['../group__fbgemm-quant-utils-generic.html#ga6b77c8540e630305db9a5f30a84e7e5b',1,'fbgemm']]],
+  ['floatorhalftofusednbitrowwisequantizedsbhalfref_30',['FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfRef',['../namespacefbgemm.html#ad89426896d5c7b1f1b5db8ebaf201547',1,'fbgemm']]],
+  ['floattobfloat16_5favx2_31',['FloatToBfloat16_avx2',['../namespacefbgemm.html#a444fa054549274d8c6f442f0b866aa98',1,'fbgemm']]],
+  ['floattobfloat16_5favx512_32',['FloatToBfloat16_avx512',['../namespacefbgemm.html#a0e2b50c7d828e56f78cc0b8368dee35a',1,'fbgemm']]],
+  ['floattobfloat16_5fref_33',['FloatToBfloat16_ref',['../namespacefbgemm.html#ab22f5d961c6a42aab1c37b17a3d93770',1,'fbgemm']]],
+  ['floattobfloat16_5fsimd_34',['FloatToBfloat16_simd',['../namespacefbgemm.html#aa423a42208a4fde5f23ab6a28cef24a3',1,'fbgemm']]],
+  ['floattofloat16_5favx2_35',['FloatToFloat16_avx2',['../namespacefbgemm.html#a61c95557adf5477f3078af22d6054a7d',1,'fbgemm']]],
+  ['floattofloat16_5favx512_36',['FloatToFloat16_avx512',['../namespacefbgemm.html#a5305ff58517ca3669ec41c7f1d4817a4',1,'fbgemm']]],
+  ['floattofloat16_5fref_37',['FloatToFloat16_ref',['../namespacefbgemm.html#af44c584c974f95f4866806cee3798742',1,'fbgemm']]],
+  ['floattofloat16_5fsimd_38',['FloatToFloat16_simd',['../namespacefbgemm.html#a53a50b113345c09b89b45834f31d52df',1,'fbgemm']]],
+  ['floattofloat8_5fref_39',['FloatToFloat8_ref',['../namespacefbgemm.html#a32a45639603e1584965b471846fd067f',1,'fbgemm']]],
+  ['fused8bitrowwisequantizedsbfloattofloatorhalf_40',['Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf',['../namespacefbgemm.html#a42aefaaf238d065625a64a757f998eef',1,'fbgemm']]],
+  ['fused8bitrowwisequantizedsbfloattofloatorhalfref_41',['Fused8BitRowwiseQuantizedSBFloatToFloatOrHalfRef',['../namespacefbgemm.html#a19217d3a8551a7b251ecb1eba79669bc',1,'fbgemm']]],
+  ['fusednbitrowwisequantizedsbhalftofloatorhalf_42',['FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf',['../namespacefbgemm.html#a2b2ca55a7d2d5c2dbba337ee2e585f6a',1,'fbgemm']]],
+  ['fusednbitrowwisequantizedsbhalftofloatorhalfref_43',['FusedNBitRowwiseQuantizedSBHalfToFloatOrHalfRef',['../namespacefbgemm.html#adee65a9c68614b76ffdf2b3bc11b4618',1,'fbgemm']]],
+  ['fusedquantizedequantize_44',['FusedQuantizeDequantize',['../group__fbgemm-quant-utils-generic.html#gaa51ab0f363fbcdf8ffa0a561884225d9',1,'fbgemm']]]
 ];
diff --git a/search/all_7.js b/search/all_7.js
index c8e744634..c7f761e7c 100644
--- a/search/all_7.js
+++ b/search/all_7.js
@@ -1,13 +1,28 @@
 var searchData=
 [
   ['g_0',['G',['../structfbgemm_1_1conv__param__t.html#ab8735735273b982cc3125e51fe46e2f4',1,'fbgemm::conv_param_t']]],
-  ['gencomputeblock_1',['genComputeBlock',['../classfbgemm_1_1_code_gen_base.html#a176924b076bd6485a83a0dd75c20cac6',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a9727e9d8a35fccd581ad604006ea77fe',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)']]],
-  ['generic_2',['Quantization Utilities (Generic)',['../group__fbgemm-quant-utils-generic.html',1,'']]],
-  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_3',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
-  ['get_5funique_5findices_5fcuda_4',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]],
-  ['getbuf_5',['getBuf',['../classfbgemm_1_1_pack_matrix.html#ac34c29cb4d372b728c2b8460e142269b',1,'fbgemm::PackMatrix::getBuf()'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#a46f1fd2c0a84f4b0b40f2e907c1908a2',1,'fbgemm::PackWeightMatrixForGConv::getBuf()']]],
-  ['getcodeloggingfile_6',['getCodeLoggingFile',['../classfbgemm_1_1_code_gen_base.html#af4e14d6e1be8b47db233b7226e4b8e2a',1,'fbgemm::CodeGenBase']]],
-  ['getorcreate_7',['getOrCreate',['../classfbgemm_1_1_code_gen_base.html#af00d94622211a89e6568e05d9b63850a',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a65dee023d21aee79a75508f08e51c403',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t)'],['../classfbgemm_1_1_code_gen_base.html#ae20473007cc942d5263eed6677cfddee',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a3ba99549f858b04f892c5edb2580aa07',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#ab13fc9ae80b3c7b6f7c95597b3eca012',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#af378fb7873c900315a548c788e5f3e75',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)']]],
-  ['getrowoffsetbuffer_8',['getRowOffsetBuffer',['../classfbgemm_1_1_pack_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithIm2Col::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithRowOffset::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithQuantRowOffset::getRowOffsetBuffer()']]],
-  ['group_9',['Example Method Group',['../group__example-method-group.html',1,'']]]
+  ['gen_20ai_20attention_1',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]],
+  ['gen16bitvectorone_2',['gen16BitVectorOne',['../namespacefbgemm.html#aa06c4dd5673e6b3df1dfe3617fdc919d',1,'fbgemm']]],
+  ['gen8bitvectorone_3',['gen8BitVectorOne',['../namespacefbgemm.html#a3c476c8ddbed58f3f6b4395dd55ed2a3',1,'fbgemm']]],
+  ['gencomputeblock_4',['genComputeBlock',['../classfbgemm_1_1_code_gen_base.html#a176924b076bd6485a83a0dd75c20cac6',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a9727e9d8a35fccd581ad604006ea77fe',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)']]],
+  ['generateembeddingspmdm_5',['GenerateEmbeddingSpMDM',['../namespacefbgemm.html#a77602a69076f938d21d336a0df00f9c4',1,'fbgemm']]],
+  ['generateembeddingspmdmfp8withstrides_6',['GenerateEmbeddingSpMDMFP8WithStrides',['../namespacefbgemm.html#a57534e5ede9766d50e536437b499894d',1,'fbgemm']]],
+  ['generateembeddingspmdmnbit_7',['GenerateEmbeddingSpMDMNBit',['../namespacefbgemm.html#aa4e2948ec5f9097f552de8a0458d49e1',1,'fbgemm']]],
+  ['generateembeddingspmdmnbitrowwisesparse_8',['GenerateEmbeddingSpMDMNBitRowWiseSparse',['../namespacefbgemm.html#aa7d2220ddfc7d5c9820fd03b73101d37',1,'fbgemm']]],
+  ['generateembeddingspmdmnbitwithstrides_9',['GenerateEmbeddingSpMDMNBitWithStrides',['../namespacefbgemm.html#abb137866f8726f5c6cbf150ccc7e5b08',1,'fbgemm']]],
+  ['generateembeddingspmdmrowwisesparse_10',['GenerateEmbeddingSpMDMRowWiseSparse',['../namespacefbgemm.html#a6d6fe14c3ad83011adb500625ecbff01',1,'fbgemm']]],
+  ['generateembeddingspmdmwithstrides_11',['GenerateEmbeddingSpMDMWithStrides',['../namespacefbgemm.html#a243ed0e4df7bb7b6c08a930ee71a996b',1,'fbgemm']]],
+  ['generaterowwisesparseadagradfused_12',['GenerateRowWiseSparseAdaGradFused',['../namespacefbgemm.html#a90ceef30c1643dd1a87b1a0753b52e87',1,'fbgemm']]],
+  ['generic_13',['Quantization Utilities (Generic)',['../group__fbgemm-quant-utils-generic.html',1,'']]],
+  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_14',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
+  ['genu8i8s32fma_15',['genU8I8S32FMA',['../namespacefbgemm.html#a2a15434be774f5beeb39e4fe225d6fb9',1,'fbgemm']]],
+  ['genu8sum4_16',['genU8Sum4',['../namespacefbgemm.html#aa9ddfdb1cd3e41712844257212fcb050',1,'fbgemm']]],
+  ['genu8sum8_17',['genU8Sum8',['../namespacefbgemm.html#a3535bf91ff758b3bd13929bf9f211c90',1,'fbgemm']]],
+  ['get_5funique_5findices_5fcuda_18',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]],
+  ['getbuf_19',['getBuf',['../classfbgemm_1_1_pack_matrix.html#ac34c29cb4d372b728c2b8460e142269b',1,'fbgemm::PackMatrix::getBuf()'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#a46f1fd2c0a84f4b0b40f2e907c1908a2',1,'fbgemm::PackWeightMatrixForGConv::getBuf()']]],
+  ['getcodeloggingfile_20',['getCodeLoggingFile',['../classfbgemm_1_1_code_gen_base.html#af4e14d6e1be8b47db233b7226e4b8e2a',1,'fbgemm::CodeGenBase']]],
+  ['getorcreate_21',['getOrCreate',['../classfbgemm_1_1_code_gen_base.html#af00d94622211a89e6568e05d9b63850a',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a65dee023d21aee79a75508f08e51c403',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t)'],['../classfbgemm_1_1_code_gen_base.html#ae20473007cc942d5263eed6677cfddee',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a3ba99549f858b04f892c5edb2580aa07',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#ab13fc9ae80b3c7b6f7c95597b3eca012',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#af378fb7873c900315a548c788e5f3e75',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)']]],
+  ['getrowoffsetbuffer_22',['getRowOffsetBuffer',['../classfbgemm_1_1_pack_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithIm2Col::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithRowOffset::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithQuantRowOffset::getRowOffsetBuffer()']]],
+  ['gqa_5fattn_5fsplitk_5fcuda_23',['gqa_attn_splitk_cuda',['../group__experimental-gen-ai-attention.html#ga72225d1459d48465e83289c29df7447a',1,'fbgemm_gpu::gen_ai::attention']]],
+  ['group_24',['Example Method Group',['../group__example-method-group.html',1,'']]]
 ];
diff --git a/search/all_9.js b/search/all_9.js
index c29fede06..f29db09b4 100644
--- a/search/all_9.js
+++ b/search/all_9.js
@@ -2,16 +2,23 @@ var searchData=
 [
   ['ic_0',['IC',['../structfbgemm_1_1conv__param__t.html#aa1f2a9a2bf67f9d0cb26ec137fe48222',1,'fbgemm::conv_param_t']]],
   ['ics_1',['ICs',['../classfbgemm_1_1_compressed_sparse_column.html#a639afa1bb5bcdb507506ee50ef8f93e7',1,'fbgemm::CompressedSparseColumn']]],
-  ['in_5fdim_2',['IN_DIM',['../structfbgemm_1_1conv__param__t.html#a66c6bdf3479c1a76bf033361fe10d176',1,'fbgemm::conv_param_t']]],
-  ['input_20operators_3',['Combine Input Operators',['../group__input-combine.html',1,'']]],
-  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_4',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
-  ['is_5f16or32bit_5',['is_16or32bit',['../structis__16or32bit.html',1,'']]],
-  ['is_5f8bit_6',['is_8bit',['../structfbgemm_1_1is__8bit.html',1,'fbgemm']]],
-  ['is_5fuvm_5ftensor_7',['is_uvm_tensor',['../group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d',1,'fbgemm_gpu']]],
-  ['isa_8',['isA',['../classfbgemm_1_1_pack_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackMatrix::isA()'],['../classfbgemm_1_1_pack_a_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAMatrix::isA()'],['../classfbgemm_1_1_pack_b_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackBMatrix::isA()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithIm2Col::isA()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithRowOffset::isA()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithQuantRowOffset::isA()']]],
-  ['ishypersparse_9',['IsHyperSparse',['../classfbgemm_1_1_compressed_sparse_column.html#a5deac9b9ff0e1d7b22c7a887d40b4c8c',1,'fbgemm::CompressedSparseColumn']]],
-  ['ispackingcompliant_10',['isPackingCompliant',['../classfbgemm_1_1_pack_weights_for_conv.html#a5e78c80fc33d5b40be198d920a194193',1,'fbgemm::PackWeightsForConv']]],
-  ['isprepacked_11',['isPrePacked',['../classfbgemm_1_1_pack_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_b_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackBMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithIm2Col::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithRowOffset::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithQuantRowOffset::isPrePacked()']]],
-  ['istherecolremainder_12',['isThereColRemainder',['../classfbgemm_1_1_pack_matrix.html#a0fea05b14052070fcc8f2f5a9a829d0f',1,'fbgemm::PackMatrix']]],
-  ['isthislastkblock_13',['isThisLastKBlock',['../classfbgemm_1_1_pack_matrix.html#af38b0669b7bdf219aa56a9a587f4dbaa',1,'fbgemm::PackMatrix::isThisLastKBlock()'],['../classfbgemm_1_1_pack_b_matrix.html#a231aae141b5263a766275bb3236d297d',1,'fbgemm::PackBMatrix::isThisLastKBlock()']]]
+  ['impl_5ftype_5ft_2',['impl_type_t',['../namespacefbgemm.html#a5356ce4b0771923d6eee8b3692afd2f3',1,'fbgemm']]],
+  ['in_5fdim_3',['IN_DIM',['../structfbgemm_1_1conv__param__t.html#a66c6bdf3479c1a76bf033361fe10d176',1,'fbgemm::conv_param_t']]],
+  ['initcregs_4',['initCRegs',['../namespacefbgemm.html#a3a50b707287c0456d23e735846b144c0',1,'fbgemm']]],
+  ['input_20operators_5',['Combine Input Operators',['../group__input-combine.html',1,'']]],
+  ['inst_5fset_5ft_6',['inst_set_t',['../namespacefbgemm.html#a637f4382ad9fa1da0795e05672b74301',1,'fbgemm']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_7',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
+  ['is_5f16or32bit_8',['is_16or32bit',['../structis__16or32bit.html',1,'']]],
+  ['is_5f8bit_9',['is_8bit',['../structfbgemm_1_1is__8bit.html',1,'fbgemm']]],
+  ['is_5fautovec_5fdisabled_10',['is_autovec_disabled',['../namespacefbgemm.html#a4bd183ba7e59151ac6bff236729d4a41',1,'fbgemm']]],
+  ['is_5fradix_5fsort_5faccelerated_5fwith_5fopenmp_11',['is_radix_sort_accelerated_with_openmp',['../namespacefbgemm.html#af24ff1c82832652af861c3634486513a',1,'fbgemm']]],
+  ['is_5fuvm_5ftensor_12',['is_uvm_tensor',['../group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d',1,'fbgemm_gpu']]],
+  ['isa_13',['isA',['../classfbgemm_1_1_pack_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackMatrix::isA()'],['../classfbgemm_1_1_pack_a_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAMatrix::isA()'],['../classfbgemm_1_1_pack_b_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackBMatrix::isA()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithIm2Col::isA()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithRowOffset::isA()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithQuantRowOffset::isA()']]],
+  ['ishypersparse_14',['IsHyperSparse',['../classfbgemm_1_1_compressed_sparse_column.html#a5deac9b9ff0e1d7b22c7a887d40b4c8c',1,'fbgemm::CompressedSparseColumn']]],
+  ['ispackingcompliant_15',['isPackingCompliant',['../classfbgemm_1_1_pack_weights_for_conv.html#a5e78c80fc33d5b40be198d920a194193',1,'fbgemm::PackWeightsForConv']]],
+  ['isprepacked_16',['isPrePacked',['../classfbgemm_1_1_pack_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_b_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackBMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithIm2Col::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithRowOffset::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithQuantRowOffset::isPrePacked()']]],
+  ['istherecolremainder_17',['isThereColRemainder',['../classfbgemm_1_1_pack_matrix.html#a0fea05b14052070fcc8f2f5a9a829d0f',1,'fbgemm::PackMatrix']]],
+  ['isthislastkblock_18',['isThisLastKBlock',['../classfbgemm_1_1_pack_matrix.html#af38b0669b7bdf219aa56a9a587f4dbaa',1,'fbgemm::PackMatrix::isThisLastKBlock()'],['../classfbgemm_1_1_pack_b_matrix.html#a231aae141b5263a766275bb3236d297d',1,'fbgemm::PackBMatrix::isThisLastKBlock()']]],
+  ['isymm_19',['isYmm',['../namespacefbgemm.html#adac821292975979b386dc3ab1b234a37',1,'fbgemm']]],
+  ['iszmm_20',['isZmm',['../namespacefbgemm.html#a26137f070019d80935a34fe466ac85c4',1,'fbgemm']]]
 ];
diff --git a/search/all_d.js b/search/all_d.js
index 364ae2fca..69ca33cb0 100644
--- a/search/all_d.js
+++ b/search/all_d.js
@@ -1,13 +1,16 @@
 var searchData=
 [
-  ['mb_0',['MB',['../structfbgemm_1_1conv__param__t.html#ae28122c4c103b2e65c7c8b1b6d6c35ca',1,'fbgemm::conv_param_t']]],
-  ['mcb_1',['MCB',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; float, float, inst_set_t::avx2 &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;::MCB']]],
-  ['memcopy_2',['memCopy',['../classfbgemm_1_1mem_copy.html',1,'fbgemm']]],
-  ['memory_20operators_3',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
-  ['merge_20operators_4',['Merge Operators',['../group__merge-pooled-emb.html',1,'']]],
-  ['metaequals_5',['metaEquals',['../classfbgemm_1_1_pack_b_matrix.html#aa03364175cb684a60f52bc80215e907b',1,'fbgemm::PackBMatrix']]],
-  ['method_20group_6',['Example Method Group',['../group__example-method-group.html',1,'']]],
-  ['mismatchingparams_7',['mismatchingParams',['../classfbgemm_1_1_pack_weights_for_conv.html#ac8508d632e224b9a8ee2432c5b012393',1,'fbgemm::PackWeightsForConv']]],
-  ['mr_8',['MR',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; float, float, inst_set_t::avx2 &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;::MR']]],
-  ['multiplier_9',['multiplier',['../structfbgemm_1_1_requantization_params.html#a3c61c2609f8bc23b8df280bd531f6515',1,'fbgemm::RequantizationParams']]]
+  ['matmul_5fu8i8acc16_5fref_0',['matmul_u8i8acc16_ref',['../namespacefbgemm.html#a826abc2e81aabe4c0059dd34abe8de0d',1,'fbgemm']]],
+  ['matmul_5fu8i8acc32_5fref_1',['matmul_u8i8acc32_ref',['../namespacefbgemm.html#a28f838d0d9db9969debe82780183bd9a',1,'fbgemm']]],
+  ['matrix_5fop_5ft_2',['matrix_op_t',['../namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf',1,'fbgemm']]],
+  ['mb_3',['MB',['../structfbgemm_1_1conv__param__t.html#ae28122c4c103b2e65c7c8b1b6d6c35ca',1,'fbgemm::conv_param_t']]],
+  ['mcb_4',['MCB',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; float, float, inst_set_t::avx2 &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MCB'],['../struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html#a7eea94d5b967637ff9e474a421ae14e2',1,'PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;::MCB']]],
+  ['memcopy_5',['memCopy',['../classfbgemm_1_1mem_copy.html',1,'fbgemm']]],
+  ['memory_20operators_6',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
+  ['merge_20operators_7',['Merge Operators',['../group__merge-pooled-emb.html',1,'']]],
+  ['metaequals_8',['metaEquals',['../classfbgemm_1_1_pack_b_matrix.html#aa03364175cb684a60f52bc80215e907b',1,'fbgemm::PackBMatrix']]],
+  ['method_20group_9',['Example Method Group',['../group__example-method-group.html',1,'']]],
+  ['mismatchingparams_10',['mismatchingParams',['../classfbgemm_1_1_pack_weights_for_conv.html#ac8508d632e224b9a8ee2432c5b012393',1,'fbgemm::PackWeightsForConv']]],
+  ['mr_11',['MR',['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx2_00_01typename_01std_fe37d46c6e9c6ab5afbe4d3665c382fb.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx2_00_01typename_01std_858291a64a7808d94f01c15180f04f2c.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx2, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01float_00_01float_00_01inst__set__t_1_1avx2_01_4.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; float, float, inst_set_t::avx2 &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512_00_01typename_01st563fe14c40d9d54cf9fe6113c26e66c0.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int32__t_00_01inst__set__t_1_1avx512__ymm_00_01typename23c91419ea08f5673443445db549693f.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int32_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512_00_01typename_01sta3c205cd2e965b8e751c31d57cbb32f1.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01std_1_1int16__t_00_01inst__set__t_1_1avx512__ymm_00_01typenamea22ccba6542408684108d40af5374bf6.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, std::int16_t, inst_set_t::avx512_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni_00_01typename_01std_1_495ec4d719e603d9e79f7a55acd55e37.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01_t_00_01acc_t_00_01inst__set__t_1_1avx512__vnni__ymm_00_01typename_01s0dc87ea23078ad687de8b8ea67c6d3f3.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; T, accT, inst_set_t::avx512_vnni_ymm, typename std::enable_if&lt; is_8bit&lt; T &gt;::value &amp;&amp;is_16or32bit&lt; accT &gt;::value &gt;::type &gt;::MR'],['../struct_packing_traits_3_01int64__t_00_01int64__t_00_01inst__set__t_1_1avx512_01_4.html#a79b17319ff1245f18d73191560b2b506',1,'PackingTraits&lt; int64_t, int64_t, inst_set_t::avx512 &gt;::MR']]],
+  ['multiplier_12',['multiplier',['../structfbgemm_1_1_requantization_params.html#a3c61c2609f8bc23b8df280bd531f6515',1,'fbgemm::RequantizationParams']]]
 ];
diff --git a/search/all_f.js b/search/all_f.js
index cafbd2d51..f679c9d2c 100644
--- a/search/all_f.js
+++ b/search/all_f.js
@@ -3,5 +3,6 @@ var searchData=
   ['oc_0',['OC',['../structfbgemm_1_1conv__param__t.html#af005c0a5ba16f86ce90490d51d61e92e',1,'fbgemm::conv_param_t']]],
   ['operators_1',['Operators',['../group__input-combine.html',1,'Combine Input Operators'],['../group__cumem-utils.html',1,'CUDA Memory Operators'],['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__jagged-tensor-ops-cpu.html',1,'Jagged Tensor Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__merge-pooled-emb.html',1,'Merge Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
   ['operators_20cpu_2',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
-  ['operators_20cuda_3',['Operators CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]]
+  ['operators_20cuda_3',['Operators CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]],
+  ['optimized_5fconv_5ft_4',['optimized_conv_t',['../namespacefbgemm.html#ae779e18e5742efa69f340bcb616acdb2',1,'fbgemm']]]
 ];
diff --git a/search/enums_0.js b/search/enums_0.js
new file mode 100644
index 000000000..b7fcfc9f8
--- /dev/null
+++ b/search/enums_0.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['impl_5ftype_5ft_0',['impl_type_t',['../namespacefbgemm.html#a5356ce4b0771923d6eee8b3692afd2f3',1,'fbgemm']]],
+  ['inst_5fset_5ft_1',['inst_set_t',['../namespacefbgemm.html#a637f4382ad9fa1da0795e05672b74301',1,'fbgemm']]]
+];
diff --git a/search/enums_1.js b/search/enums_1.js
new file mode 100644
index 000000000..c86f2f5a0
--- /dev/null
+++ b/search/enums_1.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['matrix_5fop_5ft_0',['matrix_op_t',['../namespacefbgemm.html#ae28c9cc48e43e99cb778d60ba35c0fbf',1,'fbgemm']]]
+];
diff --git a/search/enums_2.js b/search/enums_2.js
new file mode 100644
index 000000000..40692ebc3
--- /dev/null
+++ b/search/enums_2.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['optimized_5fconv_5ft_0',['optimized_conv_t',['../namespacefbgemm.html#ae779e18e5742efa69f340bcb616acdb2',1,'fbgemm']]]
+];
diff --git a/search/functions_10.js b/search/functions_10.js
index e671de328..fbf75f060 100644
--- a/search/functions_10.js
+++ b/search/functions_10.js
@@ -1,8 +1,15 @@
 var searchData=
 [
-  ['requantizeforfloat_0',['ReQuantizeForFloat',['../classfbgemm_1_1_re_quantize_for_float.html#a7ac7e62127705921ee912811a72697c6',1,'fbgemm::ReQuantizeForFloat']]],
-  ['requantizeoutput_1',['ReQuantizeOutput',['../classfbgemm_1_1_re_quantize_output.html#ab36806f951ba9ce3733448d78633de16',1,'fbgemm::ReQuantizeOutput']]],
-  ['requantizeoutputprocessingavx2_2',['requantizeOutputProcessingAvx2',['../group__fbgemm-quant-utils-avx2.html#ga92e2b96889b039f101e24855e163021b',1,'fbgemm']]],
-  ['requantizeoutputprocessinggconvavx512_3',['requantizeOutputProcessingGConvAvx512',['../group__fbgemm-quant-utils-avx512.html#gab1b2ed3537f97d130f8ed039bc9aa463',1,'fbgemm']]],
-  ['rowoffsetbuffersize_4',['rowOffsetBufferSize',['../classfbgemm_1_1_pack_a_with_im2_col.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithIm2Col::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithRowOffset::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithQuantRowOffset::rowOffsetBufferSize()']]]
+  ['radix_5fsort_5fparallel_0',['radix_sort_parallel',['../namespacefbgemm.html#a3d34903420acd55fcebd0f8a19d8a84d',1,'fbgemm']]],
+  ['reduceavx2_1',['reduceAvx2',['../namespacefbgemm.html#ac2d8c325cbc2893ed9a32f71c6a3596b',1,'fbgemm']]],
+  ['requantize_5fu8acc32_5fref_2',['requantize_u8acc32_ref',['../namespacefbgemm.html#ab87b23be5587e267db6ab7d2b97c6915',1,'fbgemm::requantize_u8acc32_ref(int M, int N, int ld, const std::int32_t *inp, std::uint8_t *out, std::int32_t C_multiplier, std::int32_t C_right_shift, std::int32_t C_zero_point, std::int32_t A_zero_point, std::int32_t B_zero_point, const std::int32_t *row_offsets, const std::int32_t *col_offsets, const std::int32_t *bias, bool fuse_relu=false)'],['../namespacefbgemm.html#a798fea9136d48e1cd4c8a2926fb869ed',1,'fbgemm::requantize_u8acc32_ref(int M, int N, int ld, const std::int32_t *inp, std::uint8_t *out, const float *C_multiplier, std::int32_t C_zero_point, std::int32_t A_zero_point, const std::int32_t *B_zero_point, const std::int32_t *row_offsets, const std::int32_t *col_offsets, const std::int32_t *bias, int ncols_per_quant_group, bool fuse_relu=false)']]],
+  ['requantizeforfloat_3',['ReQuantizeForFloat',['../classfbgemm_1_1_re_quantize_for_float.html#a7ac7e62127705921ee912811a72697c6',1,'fbgemm::ReQuantizeForFloat']]],
+  ['requantizeoutput_4',['ReQuantizeOutput',['../classfbgemm_1_1_re_quantize_output.html#ab36806f951ba9ce3733448d78633de16',1,'fbgemm::ReQuantizeOutput']]],
+  ['requantizeoutputprocessingavx2_5',['requantizeOutputProcessingAvx2',['../group__fbgemm-quant-utils-avx2.html#ga92e2b96889b039f101e24855e163021b',1,'fbgemm']]],
+  ['requantizeoutputprocessinggconvavx512_6',['requantizeOutputProcessingGConvAvx512',['../group__fbgemm-quant-utils-avx512.html#gab1b2ed3537f97d130f8ed039bc9aa463',1,'fbgemm']]],
+  ['roundtofloat16_7',['RoundToFloat16',['../namespacefbgemm.html#a3bf47d3d99c8b3cb2af625d90c5494ab',1,'fbgemm']]],
+  ['row_5foffsets_5fu8acc32_5fref_8',['row_offsets_u8acc32_ref',['../namespacefbgemm.html#a0a160cf468a51c4634688b4f43851324',1,'fbgemm']]],
+  ['rowoffsetbuffersize_9',['rowOffsetBufferSize',['../classfbgemm_1_1_pack_a_with_im2_col.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithIm2Col::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithRowOffset::rowOffsetBufferSize()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#aa77e3ad795b908ab26006e954e19fa19',1,'fbgemm::PackAWithQuantRowOffset::rowOffsetBufferSize()']]],
+  ['rowoffsetbuffersizegconv_10',['rowOffsetBufferSizeGConv',['../namespacefbgemm.html#a8f972dca3254066120f58af5cf3b304c',1,'fbgemm']]],
+  ['rowwise_5fsparse_5fadagrad_5fref_11',['rowwise_sparse_adagrad_ref',['../namespacefbgemm.html#a3bee8daea3756d030209a6815db314d9',1,'fbgemm']]]
 ];
diff --git a/search/functions_11.js b/search/functions_11.js
index 2555a4458..a442497ea 100644
--- a/search/functions_11.js
+++ b/search/functions_11.js
@@ -1,5 +1,9 @@
 var searchData=
 [
-  ['spmdm_0',['SpMDM',['../classfbgemm_1_1_compressed_sparse_column.html#a9f8530a8442a8fd99bfe3896d0fff5de',1,'fbgemm::CompressedSparseColumn']]],
-  ['storecregs_1',['storeCRegs',['../classfbgemm_1_1_code_gen_base.html#a01bcc02f063a515df6d7fda518ef1d12',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a12a9f2428ed6fd0dd90c91fd4477e271',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)']]]
+  ['sparse_5fadagrad_5fref_0',['sparse_adagrad_ref',['../namespacefbgemm.html#a3f04df11e31dd656955d1bd1f8a7893d',1,'fbgemm']]],
+  ['sparsedensemm_1',['SparseDenseMM',['../namespacefbgemm.html#a1671cc912f6aa4bab678a0d255c8a690',1,'fbgemm']]],
+  ['spmdm_2',['SpMDM',['../classfbgemm_1_1_compressed_sparse_column.html#a9f8530a8442a8fd99bfe3896d0fff5de',1,'fbgemm::CompressedSparseColumn']]],
+  ['spmdm_5fref_3',['spmdm_ref',['../namespacefbgemm.html#a4f19d1389f9e99cc0daded599b1f1fd4',1,'fbgemm']]],
+  ['spmdmkernelavx2_4',['spmdmKernelAvx2',['../namespacefbgemm.html#a8b547effff25521017d20a5c4ddb8fcc',1,'fbgemm']]],
+  ['storecregs_5',['storeCRegs',['../classfbgemm_1_1_code_gen_base.html#a01bcc02f063a515df6d7fda518ef1d12',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a12a9f2428ed6fd0dd90c91fd4477e271',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)'],['../classfbgemm_1_1_code_gen_base.html#a87e3f3cd0d070bf371466f4c7521266d',1,'fbgemm::CodeGenBase::storeCRegs(x86::Emitter *a, int rowRegs, int colRegs, x86::Gp C_Offset, x86::Gp ldcReg, bool accum)']]]
 ];
diff --git a/search/functions_12.js b/search/functions_12.js
index 69f9a510d..d8488b989 100644
--- a/search/functions_12.js
+++ b/search/functions_12.js
@@ -1,4 +1,9 @@
 var searchData=
 [
-  ['tostring_0',['toString',['../structfbgemm_1_1conv__param__t.html#a1fe5121d6528fdea3f243321b3fa3a49',1,'fbgemm::conv_param_t']]]
+  ['takedepthwisefastpath_0',['takeDepthWiseFastPath',['../namespacefbgemm.html#a523727ffa987158ac9021cc0d9b97e0b',1,'fbgemm']]],
+  ['takepointwisefastpath_1',['takePointWiseFastPath',['../namespacefbgemm.html#affb3e7487c8a1c6c7d1549eb7090aee1',1,'fbgemm']]],
+  ['tostring_2',['toString',['../structfbgemm_1_1conv__param__t.html#a1fe5121d6528fdea3f243321b3fa3a49',1,'fbgemm::conv_param_t']]],
+  ['transpose_5f8rows_3',['transpose_8rows',['../namespacefbgemm.html#a9ee41553113b6cd89e0e336022acf250',1,'fbgemm']]],
+  ['transpose_5fref_4',['transpose_ref',['../namespacefbgemm.html#a18832d0507cb6d8bce78371b97f66479',1,'fbgemm']]],
+  ['transpose_5fsimd_5',['transpose_simd',['../namespacefbgemm.html#a75b4ad78ae16c6e6782f82e1ff4012a8',1,'fbgemm']]]
 ];
diff --git a/search/functions_2.js b/search/functions_2.js
index 4d4f01545..13ed6cb52 100644
--- a/search/functions_2.js
+++ b/search/functions_2.js
@@ -1,7 +1,12 @@
 var searchData=
 [
-  ['blockcols_0',['blockCols',['../classfbgemm_1_1_pack_matrix.html#abb3166a23e502ffb0bc12243ec205fc0',1,'fbgemm::PackMatrix']]],
-  ['blockcolsize_1',['blockColSize',['../classfbgemm_1_1_pack_matrix.html#a70ac7f71f0b18449dc35c7ecc1162f84',1,'fbgemm::PackMatrix']]],
-  ['blockrows_2',['blockRows',['../classfbgemm_1_1_pack_matrix.html#abf7a4f4bb1702ee01325f06409038631',1,'fbgemm::PackMatrix']]],
-  ['blockrowsize_3',['blockRowSize',['../classfbgemm_1_1_pack_matrix.html#a0f90dade3e2b75f0cbd459e24f94723d',1,'fbgemm::PackMatrix']]]
+  ['bfloat16tofloat_5favx2_0',['Bfloat16ToFloat_avx2',['../namespacefbgemm.html#ae121dec17e2e8a7648b3077f970f8c49',1,'fbgemm']]],
+  ['bfloat16tofloat_5favx512_1',['Bfloat16ToFloat_avx512',['../namespacefbgemm.html#a874e15e8f1c021008e76a24e8714024c',1,'fbgemm']]],
+  ['bfloat16tofloat_5fref_2',['Bfloat16ToFloat_ref',['../namespacefbgemm.html#af84f2b20490beb1dd0da4b03cf93afac',1,'fbgemm']]],
+  ['bfloat16tofloat_5fsimd_3',['Bfloat16ToFloat_simd',['../namespacefbgemm.html#afb00b526459a0db53a2c6ffe0276dd3e',1,'fbgemm']]],
+  ['blockcols_4',['blockCols',['../classfbgemm_1_1_pack_matrix.html#abb3166a23e502ffb0bc12243ec205fc0',1,'fbgemm::PackMatrix']]],
+  ['blockcolsize_5',['blockColSize',['../classfbgemm_1_1_pack_matrix.html#a70ac7f71f0b18449dc35c7ecc1162f84',1,'fbgemm::PackMatrix']]],
+  ['blockrows_6',['blockRows',['../classfbgemm_1_1_pack_matrix.html#abf7a4f4bb1702ee01325f06409038631',1,'fbgemm::PackMatrix']]],
+  ['blockrowsize_7',['blockRowSize',['../classfbgemm_1_1_pack_matrix.html#a0f90dade3e2b75f0cbd459e24f94723d',1,'fbgemm::PackMatrix']]],
+  ['broadcast8bit_8',['broadcast8Bit',['../namespacefbgemm.html#a4840e075e8c46a94cb7a489c3fa6aee4',1,'fbgemm']]]
 ];
diff --git a/search/functions_3.js b/search/functions_3.js
index 7ae16a663..f4ffead28 100644
--- a/search/functions_3.js
+++ b/search/functions_3.js
@@ -1,5 +1,9 @@
 var searchData=
 [
-  ['codegenbase_0',['CodeGenBase',['../classfbgemm_1_1_code_gen_base.html#a843f4289cb9de379bac477ed0dcba1cf',1,'fbgemm::CodeGenBase']]],
-  ['conv_5fparam_5ft_1',['conv_param_t',['../structfbgemm_1_1conv__param__t.html#a926431139532f74306f6cd6dc08d171a',1,'fbgemm::conv_param_t']]]
+  ['cblas_5fsgemm_5fref_0',['cblas_sgemm_ref',['../namespacefbgemm.html#a88e97a715133ac27ca83ae5ab05010ed',1,'fbgemm']]],
+  ['codegenbase_1',['CodeGenBase',['../classfbgemm_1_1_code_gen_base.html#a843f4289cb9de379bac477ed0dcba1cf',1,'fbgemm::CodeGenBase']]],
+  ['col_5foffsets_5fwith_5fzero_5fpt_5fs8acc32_5fref_2',['col_offsets_with_zero_pt_s8acc32_ref',['../namespacefbgemm.html#a0f66af5e8e787dc1ff6893ac75ae161f',1,'fbgemm']]],
+  ['compare_5fbuffers_3',['compare_buffers',['../namespacefbgemm.html#a9d995b583abb4b09927c90f66e3b1463',1,'fbgemm']]],
+  ['conv_5fparam_5ft_4',['conv_param_t',['../structfbgemm_1_1conv__param__t.html#a926431139532f74306f6cd6dc08d171a',1,'fbgemm::conv_param_t']]],
+  ['convfastpath_5',['ConvFastPath',['../namespacefbgemm.html#ad5bda89769bca9a01ddf81591f20ef02',1,'fbgemm']]]
 ];
diff --git a/search/functions_4.js b/search/functions_4.js
index 9d803af72..38dfba6fa 100644
--- a/search/functions_4.js
+++ b/search/functions_4.js
@@ -1,6 +1,8 @@
 var searchData=
 [
   ['density_0',['Density',['../classfbgemm_1_1_compressed_sparse_column.html#a6629bcd3b06c396540c2d5b7e4852164',1,'fbgemm::CompressedSparseColumn']]],
-  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_1',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'split_embeddings_cache_cuda.cuh']]],
-  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_2',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'split_embeddings_cache_cuda.cuh']]]
+  ['depthwise_5f2d_5fsame_5fpad_1',['depthwise_2d_same_pad',['../namespacefbgemm.html#ac2e9634d4e2366ed6f2181ae7e7b17b2',1,'fbgemm']]],
+  ['depthwise_5f3d_5fsame_5fpad_2',['depthwise_3d_same_pad',['../namespacefbgemm.html#a0bfa499fd1b485bc3e457842343bca57',1,'fbgemm']]],
+  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_3',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'split_embeddings_cache_cuda.cuh']]],
+  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_4',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'split_embeddings_cache_cuda.cuh']]]
 ];
diff --git a/search/functions_5.js b/search/functions_5.js
index 9592dd017..d6ab9b057 100644
--- a/search/functions_5.js
+++ b/search/functions_5.js
@@ -1,7 +1,9 @@
 var searchData=
 [
-  ['equals_0',['equals',['../classfbgemm_1_1_pack_b_matrix.html#a5299773354edb62a96e39dc55ab5d770',1,'fbgemm::PackBMatrix']]],
-  ['example_5fmethod_1',['example_method',['../group__example-method-group.html#ga56a504c1752577359ba5b75a9cd52737',1,'example_code.cpp']]],
-  ['executekernel_2',['ExecuteKernel',['../classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html#ae4a4e6063c0cb62d64d6159d102a899b',1,'fbgemm::ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;']]],
-  ['expand_5finto_5fjagged_5fpermute_5fcuda_3',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#gab7344d63216dd37673733b26954aaec4',1,'fbgemm_gpu']]]
+  ['emitextracthalfvector_0',['emitExtractHalfVector',['../namespacefbgemm.html#a602ac18c0e6c32448ff8d21818bded38',1,'fbgemm']]],
+  ['emitloaddword_1',['emitLoadDWord',['../namespacefbgemm.html#aa56904bd84399e10104d286e0e10a2d7',1,'fbgemm']]],
+  ['equals_2',['equals',['../classfbgemm_1_1_pack_b_matrix.html#a5299773354edb62a96e39dc55ab5d770',1,'fbgemm::PackBMatrix']]],
+  ['example_5fmethod_3',['example_method',['../group__example-method-group.html#ga56a504c1752577359ba5b75a9cd52737',1,'example_code.cpp']]],
+  ['executekernel_4',['ExecuteKernel',['../classfbgemm_1_1_execute_kernel_3_01packing_a_matrix_00_01_pack_b_matrix_3_01int8__t_00_01typenam9894617fba2431fcc8042b1a22b96270.html#ae4a4e6063c0cb62d64d6159d102a899b',1,'fbgemm::ExecuteKernel&lt; packingAMatrix, PackBMatrix&lt; int8_t, typename packingAMatrix::accType &gt;, cT, processOutputType &gt;']]],
+  ['expand_5finto_5fjagged_5fpermute_5fcuda_5',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#gab7344d63216dd37673733b26954aaec4',1,'fbgemm_gpu']]]
 ];
diff --git a/search/functions_6.js b/search/functions_6.js
index 31fa5b3e7..f936feadf 100644
--- a/search/functions_6.js
+++ b/search/functions_6.js
@@ -1,6 +1,47 @@
 var searchData=
 [
-  ['findminmax_0',['FindMinMax',['../group__fbgemm-quant-utils-avx2.html#ga38920438e5d25d4092a1b695f3420b8e',1,'fbgemm']]],
-  ['floatorhalftofusednbitrowwisequantizedsbhalf_1',['FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf',['../group__fbgemm-quant-utils-generic.html#ga6b77c8540e630305db9a5f30a84e7e5b',1,'fbgemm']]],
-  ['fusedquantizedequantize_2',['FusedQuantizeDequantize',['../group__fbgemm-quant-utils-generic.html#gaa51ab0f363fbcdf8ffa0a561884225d9',1,'fbgemm']]]
+  ['fbgemmalignedalloc_0',['fbgemmAlignedAlloc',['../namespacefbgemm.html#ab55953ea0d8867577ef9b096d68cfce4',1,'fbgemm']]],
+  ['fbgemmalignedfree_1',['fbgemmAlignedFree',['../namespacefbgemm.html#a539e708e033ffe98b075a6b6c5cb4b46',1,'fbgemm']]],
+  ['fbgemmconv_2',['fbgemmConv',['../namespacefbgemm.html#adc9d2af7ea01634fd2e5bef0e6baa0ab',1,'fbgemm']]],
+  ['fbgemmenableavx512ymm_3',['fbgemmEnableAvx512Ymm',['../namespacefbgemm.html#a9d17a4894f822f7afd5c79407bbf91d5',1,'fbgemm']]],
+  ['fbgemmforceisa_4',['fbgemmForceIsa',['../namespacefbgemm.html#af150495d47d5ccb1670524166fd9b45d',1,'fbgemm']]],
+  ['fbgemmget2dpartition_5',['fbgemmGet2DPartition',['../namespacefbgemm.html#a26e1a7f0b1935835ad95a52aa4f56eb8',1,'fbgemm']]],
+  ['fbgemmgetthreadpartition_6',['fbgemmGetThreadPartition',['../namespacefbgemm.html#a38cca353e8e2984e37704be8bbc327fe',1,'fbgemm']]],
+  ['fbgemmgroupwiseconv_7',['fbgemmGroupwiseConv',['../namespacefbgemm.html#a5780ef4a16a1682740af29283360caa4',1,'fbgemm']]],
+  ['fbgemmhasarmneonsupport_8',['fbgemmHasArmNeonSupport',['../namespacefbgemm.html#af727aa5e29e172f994653d01e444973e',1,'fbgemm']]],
+  ['fbgemmhasarmsve2support_9',['fbgemmHasArmSve2Support',['../namespacefbgemm.html#aae9bb60bfb4acb2e62976adcd98ccaa0',1,'fbgemm']]],
+  ['fbgemmhasavx2support_10',['fbgemmHasAvx2Support',['../namespacefbgemm.html#a52e1a4ce201a6b89ad8b3dee69c59d40',1,'fbgemm']]],
+  ['fbgemmhasavx512support_11',['fbgemmHasAvx512Support',['../namespacefbgemm.html#ae0e6eeaba3d5c4265d9aee5e898fb329',1,'fbgemm']]],
+  ['fbgemmhasavx512vnnisupport_12',['fbgemmHasAvx512VnniSupport',['../namespacefbgemm.html#ae6e5fa9178cd2a70a01ef78a571802f5',1,'fbgemm']]],
+  ['fbgemminstructionset_13',['fbgemmInstructionSet',['../namespacefbgemm.html#a2be92a96ebd3c0d9bc9f9c0d0c537969',1,'fbgemm']]],
+  ['fbgemmisintelxeond_14',['fbgemmIsIntelXeonD',['../namespacefbgemm.html#a84685dfa70eedf3c2befcb8d02cf9d27',1,'fbgemm']]],
+  ['fbgemmoptimizedgconv_15',['fbgemmOptimizedGConv',['../namespacefbgemm.html#a19ec32cc9a1932f774bd8b2e0b047afe',1,'fbgemm']]],
+  ['fbgemmpacked_16',['fbgemmPacked',['../namespacefbgemm.html#a1f01b8b3f8fea3e9c8ccc2aed30ba70a',1,'fbgemm']]],
+  ['fbgemmpartition1d_17',['fbgemmPartition1D',['../namespacefbgemm.html#abf9cb71c5c3a79935f7146f05510bb19',1,'fbgemm']]],
+  ['fbgemmpartition1dblocked_18',['fbgemmPartition1DBlocked',['../namespacefbgemm.html#ae6d6321b283eaa5a8ddaaa96ea22c62f',1,'fbgemm']]],
+  ['fbgemmsupportedcpu_19',['fbgemmSupportedCPU',['../namespacefbgemm.html#a713e97500428aba767f6fcaf39aac4b9',1,'fbgemm']]],
+  ['findminmax_20',['FindMinMax',['../group__fbgemm-quant-utils-avx2.html#ga38920438e5d25d4092a1b695f3420b8e',1,'fbgemm']]],
+  ['float16tofloat_5favx2_21',['Float16ToFloat_avx2',['../namespacefbgemm.html#ae0cba6562b792a67eb376841005a907b',1,'fbgemm']]],
+  ['float16tofloat_5favx512_22',['Float16ToFloat_avx512',['../namespacefbgemm.html#a5d28283194eed8d19ebc5634fd78913f',1,'fbgemm']]],
+  ['float16tofloat_5fref_23',['Float16ToFloat_ref',['../namespacefbgemm.html#afc22ec6e38a38c7f41484f844dbfbeac',1,'fbgemm']]],
+  ['float16tofloat_5fsimd_24',['Float16ToFloat_simd',['../namespacefbgemm.html#af066434e23720ecd4ddcc51d7a616aef',1,'fbgemm']]],
+  ['float8tofloat_5fref_25',['Float8ToFloat_ref',['../namespacefbgemm.html#ad699dd756e87f820cca1f1202cec2a11',1,'fbgemm']]],
+  ['floatorhalftofused8bitrowwisequantizedsbfloat_26',['FloatOrHalfToFused8BitRowwiseQuantizedSBFloat',['../namespacefbgemm.html#afafa94e239d016cf273ad0597152b86c',1,'fbgemm']]],
+  ['floatorhalftofused8bitrowwisequantizedsbfloatref_27',['FloatOrHalfToFused8BitRowwiseQuantizedSBFloatRef',['../namespacefbgemm.html#a7cba6dad217715349653862b3e691057',1,'fbgemm']]],
+  ['floatorhalftofusednbitrowwisequantizedsbhalf_28',['FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf',['../group__fbgemm-quant-utils-generic.html#ga6b77c8540e630305db9a5f30a84e7e5b',1,'fbgemm']]],
+  ['floatorhalftofusednbitrowwisequantizedsbhalfref_29',['FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfRef',['../namespacefbgemm.html#ad89426896d5c7b1f1b5db8ebaf201547',1,'fbgemm']]],
+  ['floattobfloat16_5favx2_30',['FloatToBfloat16_avx2',['../namespacefbgemm.html#a444fa054549274d8c6f442f0b866aa98',1,'fbgemm']]],
+  ['floattobfloat16_5favx512_31',['FloatToBfloat16_avx512',['../namespacefbgemm.html#a0e2b50c7d828e56f78cc0b8368dee35a',1,'fbgemm']]],
+  ['floattobfloat16_5fref_32',['FloatToBfloat16_ref',['../namespacefbgemm.html#ab22f5d961c6a42aab1c37b17a3d93770',1,'fbgemm']]],
+  ['floattobfloat16_5fsimd_33',['FloatToBfloat16_simd',['../namespacefbgemm.html#aa423a42208a4fde5f23ab6a28cef24a3',1,'fbgemm']]],
+  ['floattofloat16_5favx2_34',['FloatToFloat16_avx2',['../namespacefbgemm.html#a61c95557adf5477f3078af22d6054a7d',1,'fbgemm']]],
+  ['floattofloat16_5favx512_35',['FloatToFloat16_avx512',['../namespacefbgemm.html#a5305ff58517ca3669ec41c7f1d4817a4',1,'fbgemm']]],
+  ['floattofloat16_5fref_36',['FloatToFloat16_ref',['../namespacefbgemm.html#af44c584c974f95f4866806cee3798742',1,'fbgemm']]],
+  ['floattofloat16_5fsimd_37',['FloatToFloat16_simd',['../namespacefbgemm.html#a53a50b113345c09b89b45834f31d52df',1,'fbgemm']]],
+  ['floattofloat8_5fref_38',['FloatToFloat8_ref',['../namespacefbgemm.html#a32a45639603e1584965b471846fd067f',1,'fbgemm']]],
+  ['fused8bitrowwisequantizedsbfloattofloatorhalf_39',['Fused8BitRowwiseQuantizedSBFloatToFloatOrHalf',['../namespacefbgemm.html#a42aefaaf238d065625a64a757f998eef',1,'fbgemm']]],
+  ['fused8bitrowwisequantizedsbfloattofloatorhalfref_40',['Fused8BitRowwiseQuantizedSBFloatToFloatOrHalfRef',['../namespacefbgemm.html#a19217d3a8551a7b251ecb1eba79669bc',1,'fbgemm']]],
+  ['fusednbitrowwisequantizedsbhalftofloatorhalf_41',['FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf',['../namespacefbgemm.html#a2b2ca55a7d2d5c2dbba337ee2e585f6a',1,'fbgemm']]],
+  ['fusednbitrowwisequantizedsbhalftofloatorhalfref_42',['FusedNBitRowwiseQuantizedSBHalfToFloatOrHalfRef',['../namespacefbgemm.html#adee65a9c68614b76ffdf2b3bc11b4618',1,'fbgemm']]],
+  ['fusedquantizedequantize_43',['FusedQuantizeDequantize',['../group__fbgemm-quant-utils-generic.html#gaa51ab0f363fbcdf8ffa0a561884225d9',1,'fbgemm']]]
 ];
diff --git a/search/functions_7.js b/search/functions_7.js
index 56dd88c2e..6c5dcc88b 100644
--- a/search/functions_7.js
+++ b/search/functions_7.js
@@ -1,10 +1,24 @@
 var searchData=
 [
-  ['gencomputeblock_0',['genComputeBlock',['../classfbgemm_1_1_code_gen_base.html#a176924b076bd6485a83a0dd75c20cac6',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a9727e9d8a35fccd581ad604006ea77fe',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)']]],
-  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_1',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
-  ['get_5funique_5findices_5fcuda_2',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]],
-  ['getbuf_3',['getBuf',['../classfbgemm_1_1_pack_matrix.html#ac34c29cb4d372b728c2b8460e142269b',1,'fbgemm::PackMatrix::getBuf()'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#a46f1fd2c0a84f4b0b40f2e907c1908a2',1,'fbgemm::PackWeightMatrixForGConv::getBuf()']]],
-  ['getcodeloggingfile_4',['getCodeLoggingFile',['../classfbgemm_1_1_code_gen_base.html#af4e14d6e1be8b47db233b7226e4b8e2a',1,'fbgemm::CodeGenBase']]],
-  ['getorcreate_5',['getOrCreate',['../classfbgemm_1_1_code_gen_base.html#af00d94622211a89e6568e05d9b63850a',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a65dee023d21aee79a75508f08e51c403',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t)'],['../classfbgemm_1_1_code_gen_base.html#ae20473007cc942d5263eed6677cfddee',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a3ba99549f858b04f892c5edb2580aa07',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#ab13fc9ae80b3c7b6f7c95597b3eca012',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#af378fb7873c900315a548c788e5f3e75',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)']]],
-  ['getrowoffsetbuffer_6',['getRowOffsetBuffer',['../classfbgemm_1_1_pack_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithIm2Col::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithRowOffset::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithQuantRowOffset::getRowOffsetBuffer()']]]
+  ['gen16bitvectorone_0',['gen16BitVectorOne',['../namespacefbgemm.html#aa06c4dd5673e6b3df1dfe3617fdc919d',1,'fbgemm']]],
+  ['gen8bitvectorone_1',['gen8BitVectorOne',['../namespacefbgemm.html#a3c476c8ddbed58f3f6b4395dd55ed2a3',1,'fbgemm']]],
+  ['gencomputeblock_2',['genComputeBlock',['../classfbgemm_1_1_code_gen_base.html#a176924b076bd6485a83a0dd75c20cac6',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a9727e9d8a35fccd581ad604006ea77fe',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#aa2af59748852e0ff4bfec95c946cbcc9',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)'],['../classfbgemm_1_1_code_gen_base.html#a8c35863faf15810abfe3fe1cd432a687',1,'fbgemm::CodeGenBase::genComputeBlock(x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp, int rowRegs, int colRegs, int lda)']]],
+  ['generateembeddingspmdm_3',['GenerateEmbeddingSpMDM',['../namespacefbgemm.html#a77602a69076f938d21d336a0df00f9c4',1,'fbgemm']]],
+  ['generateembeddingspmdmfp8withstrides_4',['GenerateEmbeddingSpMDMFP8WithStrides',['../namespacefbgemm.html#a57534e5ede9766d50e536437b499894d',1,'fbgemm']]],
+  ['generateembeddingspmdmnbit_5',['GenerateEmbeddingSpMDMNBit',['../namespacefbgemm.html#aa4e2948ec5f9097f552de8a0458d49e1',1,'fbgemm']]],
+  ['generateembeddingspmdmnbitrowwisesparse_6',['GenerateEmbeddingSpMDMNBitRowWiseSparse',['../namespacefbgemm.html#aa7d2220ddfc7d5c9820fd03b73101d37',1,'fbgemm']]],
+  ['generateembeddingspmdmnbitwithstrides_7',['GenerateEmbeddingSpMDMNBitWithStrides',['../namespacefbgemm.html#abb137866f8726f5c6cbf150ccc7e5b08',1,'fbgemm']]],
+  ['generateembeddingspmdmrowwisesparse_8',['GenerateEmbeddingSpMDMRowWiseSparse',['../namespacefbgemm.html#a6d6fe14c3ad83011adb500625ecbff01',1,'fbgemm']]],
+  ['generateembeddingspmdmwithstrides_9',['GenerateEmbeddingSpMDMWithStrides',['../namespacefbgemm.html#a243ed0e4df7bb7b6c08a930ee71a996b',1,'fbgemm']]],
+  ['generaterowwisesparseadagradfused_10',['GenerateRowWiseSparseAdaGradFused',['../namespacefbgemm.html#a90ceef30c1643dd1a87b1a0753b52e87',1,'fbgemm']]],
+  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_11',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
+  ['genu8i8s32fma_12',['genU8I8S32FMA',['../namespacefbgemm.html#a2a15434be774f5beeb39e4fe225d6fb9',1,'fbgemm']]],
+  ['genu8sum4_13',['genU8Sum4',['../namespacefbgemm.html#aa9ddfdb1cd3e41712844257212fcb050',1,'fbgemm']]],
+  ['genu8sum8_14',['genU8Sum8',['../namespacefbgemm.html#a3535bf91ff758b3bd13929bf9f211c90',1,'fbgemm']]],
+  ['get_5funique_5findices_5fcuda_15',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]],
+  ['getbuf_16',['getBuf',['../classfbgemm_1_1_pack_matrix.html#ac34c29cb4d372b728c2b8460e142269b',1,'fbgemm::PackMatrix::getBuf()'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#a46f1fd2c0a84f4b0b40f2e907c1908a2',1,'fbgemm::PackWeightMatrixForGConv::getBuf()']]],
+  ['getcodeloggingfile_17',['getCodeLoggingFile',['../classfbgemm_1_1_code_gen_base.html#af4e14d6e1be8b47db233b7226e4b8e2a',1,'fbgemm::CodeGenBase']]],
+  ['getorcreate_18',['getOrCreate',['../classfbgemm_1_1_code_gen_base.html#af00d94622211a89e6568e05d9b63850a',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a65dee023d21aee79a75508f08e51c403',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t)'],['../classfbgemm_1_1_code_gen_base.html#ae20473007cc942d5263eed6677cfddee',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a3ba99549f858b04f892c5edb2580aa07',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#ab13fc9ae80b3c7b6f7c95597b3eca012',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#af378fb7873c900315a548c788e5f3e75',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)'],['../classfbgemm_1_1_code_gen_base.html#a4050603658b0e5cf634fd9a989cb84bc',1,'fbgemm::CodeGenBase::getOrCreate(bool accum, int32_t mc, int32_t nc, int32_t kc)']]],
+  ['getrowoffsetbuffer_19',['getRowOffsetBuffer',['../classfbgemm_1_1_pack_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_matrix.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAMatrix::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithIm2Col::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithRowOffset::getRowOffsetBuffer()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a531d76d5d88825a31860959965c3af62',1,'fbgemm::PackAWithQuantRowOffset::getRowOffsetBuffer()']]],
+  ['gqa_5fattn_5fsplitk_5fcuda_20',['gqa_attn_splitk_cuda',['../group__experimental-gen-ai-attention.html#ga72225d1459d48465e83289c29df7447a',1,'fbgemm_gpu::gen_ai::attention']]]
 ];
diff --git a/search/functions_9.js b/search/functions_9.js
index a22263101..b460b19bf 100644
--- a/search/functions_9.js
+++ b/search/functions_9.js
@@ -1,12 +1,17 @@
 var searchData=
 [
   ['ics_0',['ICs',['../classfbgemm_1_1_compressed_sparse_column.html#a639afa1bb5bcdb507506ee50ef8f93e7',1,'fbgemm::CompressedSparseColumn']]],
-  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_1',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
-  ['is_5fuvm_5ftensor_2',['is_uvm_tensor',['../group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d',1,'fbgemm_gpu']]],
-  ['isa_3',['isA',['../classfbgemm_1_1_pack_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackMatrix::isA()'],['../classfbgemm_1_1_pack_a_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAMatrix::isA()'],['../classfbgemm_1_1_pack_b_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackBMatrix::isA()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithIm2Col::isA()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithRowOffset::isA()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithQuantRowOffset::isA()']]],
-  ['ishypersparse_4',['IsHyperSparse',['../classfbgemm_1_1_compressed_sparse_column.html#a5deac9b9ff0e1d7b22c7a887d40b4c8c',1,'fbgemm::CompressedSparseColumn']]],
-  ['ispackingcompliant_5',['isPackingCompliant',['../classfbgemm_1_1_pack_weights_for_conv.html#a5e78c80fc33d5b40be198d920a194193',1,'fbgemm::PackWeightsForConv']]],
-  ['isprepacked_6',['isPrePacked',['../classfbgemm_1_1_pack_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_b_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackBMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithIm2Col::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithRowOffset::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithQuantRowOffset::isPrePacked()']]],
-  ['istherecolremainder_7',['isThereColRemainder',['../classfbgemm_1_1_pack_matrix.html#a0fea05b14052070fcc8f2f5a9a829d0f',1,'fbgemm::PackMatrix']]],
-  ['isthislastkblock_8',['isThisLastKBlock',['../classfbgemm_1_1_pack_matrix.html#af38b0669b7bdf219aa56a9a587f4dbaa',1,'fbgemm::PackMatrix::isThisLastKBlock()'],['../classfbgemm_1_1_pack_b_matrix.html#a231aae141b5263a766275bb3236d297d',1,'fbgemm::PackBMatrix::isThisLastKBlock()']]]
+  ['initcregs_1',['initCRegs',['../namespacefbgemm.html#a3a50b707287c0456d23e735846b144c0',1,'fbgemm']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_2',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
+  ['is_5fautovec_5fdisabled_3',['is_autovec_disabled',['../namespacefbgemm.html#a4bd183ba7e59151ac6bff236729d4a41',1,'fbgemm']]],
+  ['is_5fradix_5fsort_5faccelerated_5fwith_5fopenmp_4',['is_radix_sort_accelerated_with_openmp',['../namespacefbgemm.html#af24ff1c82832652af861c3634486513a',1,'fbgemm']]],
+  ['is_5fuvm_5ftensor_5',['is_uvm_tensor',['../group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d',1,'fbgemm_gpu']]],
+  ['isa_6',['isA',['../classfbgemm_1_1_pack_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackMatrix::isA()'],['../classfbgemm_1_1_pack_a_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAMatrix::isA()'],['../classfbgemm_1_1_pack_b_matrix.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackBMatrix::isA()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithIm2Col::isA()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithRowOffset::isA()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a16921c92359f31fbdc4968c875c90ae2',1,'fbgemm::PackAWithQuantRowOffset::isA()']]],
+  ['ishypersparse_7',['IsHyperSparse',['../classfbgemm_1_1_compressed_sparse_column.html#a5deac9b9ff0e1d7b22c7a887d40b4c8c',1,'fbgemm::CompressedSparseColumn']]],
+  ['ispackingcompliant_8',['isPackingCompliant',['../classfbgemm_1_1_pack_weights_for_conv.html#a5e78c80fc33d5b40be198d920a194193',1,'fbgemm::PackWeightsForConv']]],
+  ['isprepacked_9',['isPrePacked',['../classfbgemm_1_1_pack_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_b_matrix.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackBMatrix::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithIm2Col::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithRowOffset::isPrePacked()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a354db6b6efb4336767afa41583a96082',1,'fbgemm::PackAWithQuantRowOffset::isPrePacked()']]],
+  ['istherecolremainder_10',['isThereColRemainder',['../classfbgemm_1_1_pack_matrix.html#a0fea05b14052070fcc8f2f5a9a829d0f',1,'fbgemm::PackMatrix']]],
+  ['isthislastkblock_11',['isThisLastKBlock',['../classfbgemm_1_1_pack_matrix.html#af38b0669b7bdf219aa56a9a587f4dbaa',1,'fbgemm::PackMatrix::isThisLastKBlock()'],['../classfbgemm_1_1_pack_b_matrix.html#a231aae141b5263a766275bb3236d297d',1,'fbgemm::PackBMatrix::isThisLastKBlock()']]],
+  ['isymm_12',['isYmm',['../namespacefbgemm.html#adac821292975979b386dc3ab1b234a37',1,'fbgemm']]],
+  ['iszmm_13',['isZmm',['../namespacefbgemm.html#a26137f070019d80935a34fe466ac85c4',1,'fbgemm']]]
 ];
diff --git a/search/functions_c.js b/search/functions_c.js
index 9ff4cdfc7..4466cf3cc 100644
--- a/search/functions_c.js
+++ b/search/functions_c.js
@@ -1,5 +1,7 @@
 var searchData=
 [
-  ['metaequals_0',['metaEquals',['../classfbgemm_1_1_pack_b_matrix.html#aa03364175cb684a60f52bc80215e907b',1,'fbgemm::PackBMatrix']]],
-  ['mismatchingparams_1',['mismatchingParams',['../classfbgemm_1_1_pack_weights_for_conv.html#ac8508d632e224b9a8ee2432c5b012393',1,'fbgemm::PackWeightsForConv']]]
+  ['matmul_5fu8i8acc16_5fref_0',['matmul_u8i8acc16_ref',['../namespacefbgemm.html#a826abc2e81aabe4c0059dd34abe8de0d',1,'fbgemm']]],
+  ['matmul_5fu8i8acc32_5fref_1',['matmul_u8i8acc32_ref',['../namespacefbgemm.html#a28f838d0d9db9969debe82780183bd9a',1,'fbgemm']]],
+  ['metaequals_2',['metaEquals',['../classfbgemm_1_1_pack_b_matrix.html#aa03364175cb684a60f52bc80215e907b',1,'fbgemm::PackBMatrix']]],
+  ['mismatchingparams_3',['mismatchingParams',['../classfbgemm_1_1_pack_weights_for_conv.html#ac8508d632e224b9a8ee2432c5b012393',1,'fbgemm::PackWeightsForConv']]]
 ];
diff --git a/search/functions_e.js b/search/functions_e.js
index 1fbcefb19..69b32a354 100644
--- a/search/functions_e.js
+++ b/search/functions_e.js
@@ -1,15 +1,17 @@
 var searchData=
 [
   ['pack_0',['pack',['../classfbgemm_1_1_pack_matrix.html#a0c1765c6a94482209b1fc0cd334ad44e',1,'fbgemm::PackMatrix::pack()'],['../classfbgemm_1_1_pack_a_matrix.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAMatrix::pack()'],['../classfbgemm_1_1_pack_b_matrix.html#ae2d8887226e140ed6ddc140cd338910d',1,'fbgemm::PackBMatrix::pack()'],['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#a915ffc82b17862ab1d2a466a79d23a3f',1,'fbgemm::PackWeightMatrixForGConv::pack()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAWithIm2Col::pack()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAWithRowOffset::pack()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a58a5c6b7f15d3c2a796942e383a97f36',1,'fbgemm::PackAWithQuantRowOffset::pack()'],['../structfbgemm_1_1_b_c_s_r_matrix.html#ae1871cae73e37637f6a2d65a14f0512f',1,'fbgemm::BCSRMatrix::pack(const DTYPE *src, size_t ld)'],['../structfbgemm_1_1_b_c_s_r_matrix.html#ac86c58878f6bcd10610f66eefbe53a90',1,'fbgemm::BCSRMatrix::pack(const DTYPE *src)']]],
-  ['packawithim2col_1',['PackAWithIm2Col',['../classfbgemm_1_1_pack_a_with_im2_col.html#a37d96dcba66f792135549702d2f25e4a',1,'fbgemm::PackAWithIm2Col']]],
-  ['packawithquantrowoffset_2',['PackAWithQuantRowOffset',['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a44ca398424d2d534802de6b892bf3a6a',1,'fbgemm::PackAWithQuantRowOffset']]],
-  ['packawithrowoffset_3',['PackAWithRowOffset',['../classfbgemm_1_1_pack_a_with_row_offset.html#a8dceb15ed761dfbf804244ffd2fc7f66',1,'fbgemm::PackAWithRowOffset']]],
-  ['packbmatrix_4',['PackBMatrix',['../classfbgemm_1_1_pack_b_matrix.html#a1afee702206695dfcd20de0474408b07',1,'fbgemm::PackBMatrix']]],
-  ['packedblock_5',['packedBlock',['../classfbgemm_1_1_pack_matrix.html#a9c6a626fc1b0a20479c167862d7a91be',1,'fbgemm::PackMatrix']]],
-  ['packedbuffersize_6',['packedBufferSize',['../classfbgemm_1_1_pack_matrix.html#ab11bd74e390ac73323a514cf2d6e6b98',1,'fbgemm::PackMatrix']]],
-  ['packedcolstart_7',['packedColStart',['../classfbgemm_1_1_pack_matrix.html#aa981736a44501513eb4c0f8cb72a11c8',1,'fbgemm::PackMatrix']]],
-  ['packedrowstart_8',['packedRowStart',['../classfbgemm_1_1_pack_matrix.html#ae9e47d9b93f5049504203ff55472e075',1,'fbgemm::PackMatrix']]],
-  ['packmatrix_9',['PackMatrix',['../classfbgemm_1_1_pack_matrix.html#ac15276b97315df2567c4ab36d48b8da0',1,'fbgemm::PackMatrix']]],
-  ['packweightmatrixforgconv_10',['PackWeightMatrixForGConv',['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#ac4aac545b455c64f161fc78ac724d3e3',1,'fbgemm::PackWeightMatrixForGConv']]],
-  ['printpackedmatrix_11',['printPackedMatrix',['../classfbgemm_1_1_pack_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_b_matrix.html#ab19db6d7505e9ed131b2a101f90d5093',1,'fbgemm::PackBMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithIm2Col::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithRowOffset::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithQuantRowOffset::printPackedMatrix()']]]
+  ['packa_1',['PackA',['../namespacefbgemm.html#a28c69d65ed666a9f46dc4763be70cdf6',1,'fbgemm']]],
+  ['packawithim2col_2',['PackAWithIm2Col',['../classfbgemm_1_1_pack_a_with_im2_col.html#a37d96dcba66f792135549702d2f25e4a',1,'fbgemm::PackAWithIm2Col']]],
+  ['packawithquantrowoffset_3',['PackAWithQuantRowOffset',['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a44ca398424d2d534802de6b892bf3a6a',1,'fbgemm::PackAWithQuantRowOffset']]],
+  ['packawithrowoffset_4',['PackAWithRowOffset',['../classfbgemm_1_1_pack_a_with_row_offset.html#a8dceb15ed761dfbf804244ffd2fc7f66',1,'fbgemm::PackAWithRowOffset']]],
+  ['packbmatrix_5',['PackBMatrix',['../classfbgemm_1_1_pack_b_matrix.html#a1afee702206695dfcd20de0474408b07',1,'fbgemm::PackBMatrix']]],
+  ['packedblock_6',['packedBlock',['../classfbgemm_1_1_pack_matrix.html#a9c6a626fc1b0a20479c167862d7a91be',1,'fbgemm::PackMatrix']]],
+  ['packedbuffersize_7',['packedBufferSize',['../classfbgemm_1_1_pack_matrix.html#ab11bd74e390ac73323a514cf2d6e6b98',1,'fbgemm::PackMatrix']]],
+  ['packedcolstart_8',['packedColStart',['../classfbgemm_1_1_pack_matrix.html#aa981736a44501513eb4c0f8cb72a11c8',1,'fbgemm::PackMatrix']]],
+  ['packedrowstart_9',['packedRowStart',['../classfbgemm_1_1_pack_matrix.html#ae9e47d9b93f5049504203ff55472e075',1,'fbgemm::PackMatrix']]],
+  ['packmatrix_10',['PackMatrix',['../classfbgemm_1_1_pack_matrix.html#ac15276b97315df2567c4ab36d48b8da0',1,'fbgemm::PackMatrix']]],
+  ['packweightmatrixforgconv_11',['PackWeightMatrixForGConv',['../classfbgemm_1_1_pack_weight_matrix_for_g_conv.html#ac4aac545b455c64f161fc78ac724d3e3',1,'fbgemm::PackWeightMatrixForGConv']]],
+  ['printmatrix_12',['printMatrix',['../namespacefbgemm.html#adfee356e154f8b2f88c725885b1dbc11',1,'fbgemm']]],
+  ['printpackedmatrix_13',['printPackedMatrix',['../classfbgemm_1_1_pack_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_matrix.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_b_matrix.html#ab19db6d7505e9ed131b2a101f90d5093',1,'fbgemm::PackBMatrix::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_im2_col.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithIm2Col::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithRowOffset::printPackedMatrix()'],['../classfbgemm_1_1_pack_a_with_quant_row_offset.html#a6efc512f013eacc053ed29b2dee722d5',1,'fbgemm::PackAWithQuantRowOffset::printPackedMatrix()']]]
 ];
diff --git a/search/functions_f.js b/search/functions_f.js
index 709e3aae6..a6a8ee423 100644
--- a/search/functions_f.js
+++ b/search/functions_f.js
@@ -1,4 +1,5 @@
 var searchData=
 [
-  ['quantizegroupwise_0',['QuantizeGroupwise',['../group__fbgemm-quant-utils-generic.html#ga7a5705b5705425abc8f72fe339c2ae91',1,'fbgemm']]]
+  ['quantize_0',['Quantize',['../namespacefbgemm.html#a3350c03dc2d62e8e434332d088f6a895',1,'fbgemm']]],
+  ['quantizegroupwise_1',['QuantizeGroupwise',['../group__fbgemm-quant-utils-generic.html#ga7a5705b5705425abc8f72fe339c2ae91',1,'fbgemm']]]
 ];
diff --git a/search/groups_0.js b/search/groups_0.js
index 6d9180ff1..51f3b99c1 100644
--- a/search/groups_0.js
+++ b/search/groups_0.js
@@ -1,5 +1,7 @@
 var searchData=
 [
-  ['avx2_0',['Quantization Utilities (AVX2)',['../group__fbgemm-quant-utils-avx2.html',1,'']]],
-  ['avx512_1',['Quantization Utilities (AVX512)',['../group__fbgemm-quant-utils-avx512.html',1,'']]]
+  ['ai_20attention_0',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]],
+  ['attention_1',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]],
+  ['avx2_2',['Quantization Utilities (AVX2)',['../group__fbgemm-quant-utils-avx2.html',1,'']]],
+  ['avx512_3',['Quantization Utilities (AVX512)',['../group__fbgemm-quant-utils-avx512.html',1,'']]]
 ];
diff --git a/search/groups_3.js b/search/groups_3.js
index 858143fb1..b7c85daf5 100644
--- a/search/groups_3.js
+++ b/search/groups_3.js
@@ -4,5 +4,6 @@ var searchData=
   ['embedding_20cuda_20operators_1',['Embedding CUDA Operators',['../group__embedding-cuda.html',1,'']]],
   ['embeddings_20operators_20cpu_2',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
   ['embeddings_20operators_20cuda_3',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
-  ['example_20method_20group_4',['Example Method Group',['../group__example-method-group.html',1,'']]]
+  ['example_20method_20group_4',['Example Method Group',['../group__example-method-group.html',1,'']]],
+  ['experimental_20gen_20ai_20attention_5',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]]
 ];
diff --git a/search/groups_4.js b/search/groups_4.js
index 0989b6636..3d3d8935e 100644
--- a/search/groups_4.js
+++ b/search/groups_4.js
@@ -1,5 +1,6 @@
 var searchData=
 [
-  ['generic_0',['Quantization Utilities (Generic)',['../group__fbgemm-quant-utils-generic.html',1,'']]],
-  ['group_1',['Example Method Group',['../group__example-method-group.html',1,'']]]
+  ['gen_20ai_20attention_0',['Experimental-gen-ai-attention',['../group__experimental-gen-ai-attention.html',1,'']]],
+  ['generic_1',['Quantization Utilities (Generic)',['../group__fbgemm-quant-utils-generic.html',1,'']]],
+  ['group_2',['Example Method Group',['../group__example-method-group.html',1,'']]]
 ];
diff --git a/search/namespaces_0.js b/search/namespaces_0.js
new file mode 100644
index 000000000..dd5bd2229
--- /dev/null
+++ b/search/namespaces_0.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['fbgemm_0',['fbgemm',['../namespacefbgemm.html',1,'']]]
+];
diff --git a/search/searchdata.js b/search/searchdata.js
index 5801d1f78..51d806d81 100644
--- a/search/searchdata.js
+++ b/search/searchdata.js
@@ -2,26 +2,32 @@ var indexSectionsWithContent =
 {
   0: "_abcdefghijklmnopqrstux",
   1: "bcdeimprst",
-  2: "_abcdefghijlmnpqrstux",
-  3: "bgikmnor",
-  4: "acdegijlmopqstu"
+  2: "f",
+  3: "_abcdefghijlmnpqrstux",
+  4: "bgikmnor",
+  5: "imo",
+  6: "acdegijlmopqstu"
 };
 
 var indexSectionNames =
 {
   0: "all",
   1: "classes",
-  2: "functions",
-  3: "variables",
-  4: "groups"
+  2: "namespaces",
+  3: "functions",
+  4: "variables",
+  5: "enums",
+  6: "groups"
 };
 
 var indexSectionLabels =
 {
   0: "All",
   1: "Classes",
-  2: "Functions",
-  3: "Variables",
-  4: "Modules"
+  2: "Namespaces",
+  3: "Functions",
+  4: "Variables",
+  5: "Enumerations",
+  6: "Modules"
 };
 
diff --git a/searchindex.js b/searchindex.js
index b48492544..c75a1e360 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["fbgemm-cpp-api/QuantUtils", "fbgemm-development/BuildInstructions", "fbgemm_gpu-cpp-api/embedding_ops", "fbgemm_gpu-cpp-api/input_combine", "fbgemm_gpu-cpp-api/jagged_tensor_ops", "fbgemm_gpu-cpp-api/layout_transform_ops", "fbgemm_gpu-cpp-api/memory_utils", "fbgemm_gpu-cpp-api/merge_pooled_embeddings", "fbgemm_gpu-cpp-api/quantize_ops", "fbgemm_gpu-cpp-api/sparse_ops", "fbgemm_gpu-cpp-api/split_table_batched_embeddings", "fbgemm_gpu-development/BuildInstructions", "fbgemm_gpu-development/InstallationInstructions", "fbgemm_gpu-development/TestInstructions", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps", "fbgemm_gpu-python-api/jagged_tensor_ops", "fbgemm_gpu-python-api/table_batched_embedding_ops", "general/ContactUs", "general/Contributing", "general/License", "general/documentation/Cpp", "general/documentation/Overview", "general/documentation/Python", "general/documentation/Sphinx", "index"], "filenames": ["fbgemm-cpp-api/QuantUtils.rst", "fbgemm-development/BuildInstructions.rst", "fbgemm_gpu-cpp-api/embedding_ops.rst", "fbgemm_gpu-cpp-api/input_combine.rst", "fbgemm_gpu-cpp-api/jagged_tensor_ops.rst", "fbgemm_gpu-cpp-api/layout_transform_ops.rst", "fbgemm_gpu-cpp-api/memory_utils.rst", "fbgemm_gpu-cpp-api/merge_pooled_embeddings.rst", "fbgemm_gpu-cpp-api/quantize_ops.rst", "fbgemm_gpu-cpp-api/sparse_ops.rst", "fbgemm_gpu-cpp-api/split_table_batched_embeddings.rst", "fbgemm_gpu-development/BuildInstructions.rst", "fbgemm_gpu-development/InstallationInstructions.rst", "fbgemm_gpu-development/TestInstructions.rst", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "fbgemm_gpu-python-api/jagged_tensor_ops.rst", "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "general/ContactUs.rst", "general/Contributing.rst", "general/License.rst", "general/documentation/Cpp.rst", "general/documentation/Overview.rst", "general/documentation/Python.rst", "general/documentation/Sphinx.rst", "index.rst"], "titles": ["Quantization Utilities", "Build Instructions", "Embedding Operators", "Combine Input Operators", "Jagged Tensor Operators", "Layout Transformation Operators", "CUDA Memory Operators", "Pooled Embeddings Operators", "Quantization Operators", "Sparse Data Operators", "Table Batched Embedding Operators", "Build Instructions", "Installation Instructions", "Test Instructions", "Jagged Tensor Operators", "Jagged Tensor Operators", "Table Batched Embedding (TBE) Operators", "Contact Us", "Contributing", "License", "Adding Documentation to C++ Code", "Documentation", "Adding Documentation to Python Code", "Sphinx Documentation Pointers", "FBGEMM and FBGEMM_GPU Documentation Homepage"], "terms": {"templat": [0, 11, 20], "typenam": [0, 20], "t": [0, 1, 6, 9, 11, 16, 18, 20, 21], "layout_t": 0, "layout": [0, 24], "kcx": 0, "void": [0, 2, 6, 8, 10], "quantizegroupwis": 0, "const": [0, 2, 3, 4, 5, 6, 7, 8, 9, 10, 22], "float": [0, 8, 15, 16, 20, 22], "src": 0, "int": [0, 8, 15, 16, 20, 22], "k": 0, "c": [0, 10, 12, 14, 19, 21, 22, 23], "x": [0, 4, 14, 20, 22], "g": [0, 1, 9, 11, 20, 22], "scale": 0, "std": [0, 3, 4, 5, 6, 7, 9, 10, 11, 20, 22], "int32_t": [0, 20, 22], "zero_point": 0, "dst": 0, "point": [0, 8, 15, 20, 22], "data": [0, 6, 14, 16, 19, 24], "type": [0, 1, 8, 12, 14, 15, 16, 20], "paramet": [0, 6, 8, 9, 15, 16, 20, 21, 22], "output": [0, 4, 8, 9, 15, 16, 20, 22], "int8_t": 0, "uint8_t": [0, 8, 10], "ar": [0, 1, 4, 10, 11, 12, 14, 15, 16, 19, 20, 21, 22], "support": [0, 1, 11, 12, 14, 22, 24], "input": [0, 4, 6, 8, 9, 14, 15, 16, 20, 24], "tensor": [0, 2, 3, 5, 6, 7, 8, 9, 10, 16, 21, 22, 24], "kxc": 0, "correspond": [0, 9, 10, 14, 20, 22], "kcr": 0, "kctr": 0, "weight": [0, 2, 9, 10, 16], "time": [0, 1, 11, 12, 14], "dimens": [0, 4, 6, 9, 14, 15, 16, 22], "krsc": 0, "ktrsc": 0, "channel": [0, 11, 12, 17], "number": [0, 1, 9, 11, 14, 15, 16, 21], "r": [0, 13, 21], "": [0, 1, 6, 11, 13, 14, 18, 20, 21, 22], "group": [0, 14, 20], "function": [0, 1, 11, 20, 22], "perform": [0, 1, 8, 9, 14, 24], "channelwis": 0, "1": [0, 1, 9, 10, 11, 12, 13, 14, 15, 16, 21, 22, 23], "groupwis": 0, "per": [0, 14], "size": [0, 1, 6, 8, 9, 14, 15, 16], "should": [0, 9, 10, 11, 12, 14, 18, 20, 21, 22], "equal": [0, 14, 22], "zero": [0, 15, 22], "reprsent": 0, "fusedquantizedequant": 0, "int64_t": [0, 2, 3, 4, 5, 6, 8, 9, 10], "len": [0, 14], "tensorquantizationparam": 0, "qparam": 0, "thread_id": 0, "0": [0, 1, 8, 9, 10, 11, 12, 14, 15, 16, 22], "num_thread": 0, "noise_ratio": 0, "0f": 0, "fuse": [0, 8, 16], "integ": [0, 6, 8, 14], "dequant": 0, "kernel": [0, 1, 6, 13, 24], "acceler": 0, "awar": 0, "train": [0, 16, 24], "fp32": [0, 8, 16], "valu": [0, 4, 6, 8, 9, 10, 15, 16, 20, 21, 22], "u": [0, 11, 23, 24], "int8": [0, 16], "us": [0, 1, 6, 9, 11, 13, 14, 16, 17, 18, 19, 20, 21, 22, 23, 24], "provid": [0, 1, 11, 12, 13, 19, 20, 21, 22, 24], "back": [0, 6, 10, 11, 12], "inputtyp": 0, "floatorhalftofusednbitrowwisequantizedsbhalf": 0, "bit_rat": [0, 8], "size_t": [0, 8, 20], "input_row": 0, "input_column": 0, "convert": [0, 6, 8, 14, 15, 22], "fp16": [0, 8, 16], "rowwis": [0, 8, 16], "bitrat": 0, "specifi": [0, 1, 8, 9, 11, 15, 16], "bit": [0, 8], "bia": [0, 8], "each": [0, 9, 11, 14, 15, 16, 22], "row": [0, 4, 10, 14, 15, 16, 22], "store": [0, 9, 10], "itself": [0, 14, 21], "end": [0, 12, 14, 23], "can": [0, 1, 8, 9, 11, 12, 14, 20, 21, 22, 23], "4": [0, 11, 12, 14, 15, 16, 22], "8": [0, 8, 11, 14, 16], "uint32_t": 0, "xor128": 0, "random": 0, "gener": [0, 1, 9, 11, 12, 20, 23], "9": [0, 11, 14, 16], "base": [0, 1, 9, 10, 11, 14], "thi": [0, 1, 4, 6, 7, 9, 11, 12, 14, 17, 18, 19, 20, 22, 23, 24], "paper": 0, "findminmax": 0, "m": [0, 11, 12, 13], "min": 0, "max": [0, 16], "find": [0, 10, 11], "matrix": [0, 1, 15, 24], "bool": [0, 6, 7, 8, 10, 16], "a_symmetr": 0, "b_symmetr": 0, "quantizationgranular": 0, "q_gran": 0, "has_bia": 0, "fuse_relu": 0, "bias_typ": 0, "direct": [0, 10, 12, 19, 20, 22, 23], "fals": [0, 6, 16, 21], "requantizeoutputprocessingavx2": 0, "out": [0, 11, 17, 19, 21], "inp": 0, "block_type_t": 0, "block": [0, 20, 22, 23], "ld_out": 0, "ld_in": 0, "requantizationparams_t": 0, "requant": 0, "avx2": [0, 1], "i": [0, 1, 4, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 18, 19, 20, 21, 22, 23, 24], "c_per_g": 0, "requantizeoutputprocessinggconvavx512": 0, "avx512": 0, "note": [1, 10, 11, 12, 20, 21, 22, 23], "The": [1, 6, 8, 9, 12, 13, 14, 15, 16, 18, 20, 21, 22, 23], "most": [1, 11, 12, 14, 21], "date": [1, 11, 12, 21], "embed": [1, 11, 12, 21, 24], "script": [1, 11, 12, 21], "bundl": [1, 11, 12, 21], "repo": [1, 11, 12, 21, 22], "under": [1, 11, 12, 18, 19, 21, 22], "setup_env": [1, 11, 12, 21], "bash": [1, 11, 12, 21], "step": [1, 11, 12, 14, 21, 22], "fbgemm_gpu": [1, 6, 14, 16, 17, 18, 19, 20, 22], "follow": [1, 9, 11, 12, 14, 19, 20, 21, 22], "toolchain": [1, 11, 12], "run": [1, 11, 12, 21], "cpu": [1, 6, 7, 13, 21], "higher": 1, "In": [1, 9, 11, 12, 14, 18, 20, 22], "doe": [1, 2, 12, 20, 21, 22], "have": [1, 9, 10, 11, 14, 21], "ani": [1, 9, 11, 15, 18, 19, 21, 22], "intel": 1, "mkl": 1, "howev": [1, 11, 14, 19], "comparison": 1, "some": [1, 11, 14, 21], "benchmark": 1, "If": [1, 11, 12, 16, 18, 20, 21, 22], "found": [1, 11, 12, 21], "path": [1, 11, 20, 23], "through": [1, 18, 20, 22], "intel_mkl_dir": 1, "variabl": 1, "built": [1, 11, 12, 21, 24], "report": [1, 12], "otherwis": [1, 6, 12, 19], "subset": 1, "all": [1, 9, 10, 11, 12, 14, 16, 19, 21], "three": [1, 14], "git": [1, 11], "submodul": [1, 11], "custom": [1, 23], "version": [1, 12], "desir": [1, 11, 14, 15, 20], "thei": [1, 11, 21, 23], "asmjit_src_dir": 1, "cpuinfo_src_dir": 1, "googletest_source_dir": 1, "With": 1, "inner": [1, 14], "take": [1, 11], "one": [1, 8, 9, 10, 15, 16, 20, 22], "doesn": 1, "fit": [1, 19], "approach": 1, "so": [1, 9, 11, 12, 14], "implement": [1, 11, 14], "dynam": 1, "effici": [1, 24], "shape": [1, 14, 16], "specif": [1, 9, 11, 16, 19], "vector": [1, 3, 4, 5, 6, 7, 15, 22], "code": [1, 11, 19, 21], "third": 1, "parti": 1, "call": [1, 6, 12], "detect": [1, 13], "runtim": [1, 11], "pytorch": [1, 14, 17, 21, 22, 24], "project": [1, 18], "dispatch": [1, 6], "optim": [1, 8, 16], "test": [1, 11, 12, 18, 24], "you": [1, 18, 20, 22], "don": [1, 9, 11, 21], "want": [1, 18], "togeth": [1, 20, 21], "default": [1, 9, 11, 12, 16], "turn": [1, 21], "off": [1, 12, 17], "simpli": [1, 11], "fbgemm_build_test": 1, "conda": [1, 13, 21], "For": [1, 13, 14, 17, 19, 20, 21, 22, 23], "platform": [1, 11, 19], "machin": [1, 11, 12, 13, 24], "microsoft": [1, 8], "visual": 1, "studio": 1, "2019": 1, "newer": [1, 11], "recommend": [1, 4, 11, 12, 14], "here": [1, 6, 11, 18, 20, 21, 22, 23], "necessari": [1, 11], "ninja": [1, 11], "etc": [1, 11, 16], "n": [1, 8, 11, 12, 23], "env_nam": [1, 11, 12], "y": [1, 4, 11, 12, 15, 21], "doxygen": [1, 20, 21], "make": [1, 10, 11, 18, 20, 21, 22], "openbla": 1, "packag": [1, 13, 21], "onli": [1, 9, 10, 13, 14, 18, 20, 21, 23], "clone": [1, 11], "along": [1, 11, 12], "its": [1, 6, 9, 11, 16, 19, 21, 23], "insid": [1, 11, 12, 13, 21, 23], "recurs": [1, 11], "http": [1, 11, 12, 18, 20, 21, 22], "github": [1, 11, 18], "com": [1, 11, 18], "cd": [1, 11, 13, 21], "assum": [1, 9], "process": [1, 4, 12, 14, 18, 22], "straightforward": 1, "creat": [1, 6, 11, 14, 18, 20, 22, 23], "directori": [1, 11, 13, 18, 20, 21], "mkdir": 1, "argument": [1, 9, 20, 21, 22], "build_arg": 1, "duse_sanit": 1, "address": [1, 11], "dfbgemm_library_typ": 1, "share": [1, 6], "dpython_execut": 1, "which": [1, 9, 11, 12, 14, 16, 21], "python3": [1, 12], "option": [1, 2, 4, 6, 10, 11, 15, 16], "document": [1, 6, 18, 19], "dfbgemm_build_doc": 1, "ON": [1, 19], "j": [1, 14], "verbos": 1, "As": [1, 9, 11, 12, 14], "write": [1, 11, 12, 21, 22], "fail": [1, 12, 13, 20], "due": [1, 11], "known": [1, 11, 16], "regress": 1, "To": [1, 11, 13, 23], "work": [1, 11, 12, 14, 18], "around": 1, "append": [1, 11, 20, 22], "export": [1, 11, 13], "prior": [1, 11, 12, 19], "cflag": 1, "wno": 1, "error": [1, 8, 12, 20, 21, 22], "mayb": 1, "uniniti": 1, "restrict": 1, "cxxflag": 1, "pleas": [1, 18, 20, 22], "see": [1, 6, 11, 12, 14, 20, 22, 23], "77939": 1, "1094": 1, "1666": 1, "more": [1, 6, 11, 16, 20, 22, 23], "detail": [1, 12], "exactli": 1, "same": [1, 6, 9, 11, 14, 15, 20, 21, 22], "extra": 1, "need": [1, 11, 12, 13, 14, 18, 20, 22, 23], "ad": [1, 18, 21], "invoc": [1, 11, 21], "llvm": [1, 11], "standard": [1, 11], "libc": 1, "openmp": [1, 11], "libomp": 1, "locat": [1, 6, 10, 11, 14], "cc_path": 1, "cxx_path": 1, "dcmake_c_compil": 1, "dcmake_cxx_compil": 1, "dcmake_c_flag": [1, 11], "fopenmp": 1, "stdlib": [1, 11], "conda_prefix": [1, 11], "includ": [1, 7, 11, 19, 20, 22], "dcmake_cxx_flag": [1, 11], "likewis": 1, "also": [1, 11, 16, 23], "veri": [1, 11, 20, 21, 22], "target": [1, 6, 8, 9, 11, 14, 20, 21, 22, 23], "architectur": [1, 11, 12], "bc": [1, 11], "x64": 1, "program": [1, 18], "file": [1, 11, 12, 17, 18, 20, 21, 22, 23], "x86": [1, 24], "enterpris": 1, "vc": 1, "auxiliari": 1, "vcvarsal": 1, "bat": 1, "build_dir": 1, "dfbgemm_build_benchmark": 1, "dcmake_build_typ": 1, "releas": [1, 12], "cl": 1, "ex": 1, "v": [1, 4, 13, 15], "int_nbit_split_embedding_codegen_lookup_funct": 2, "dev_weight": [2, 10], "uvm_weight": [2, 10], "weights_plac": [2, 10], "weights_offset": [2, 10], "weights_ti": [2, 10], "d_offset": [2, 8, 10], "total_d": [2, 10, 16], "max_int2_d": 2, "max_int4_d": 2, "max_int8_d": 2, "max_float16_d": 2, "max_float32_d": 2, "indic": [2, 10, 14, 16], "offset": [2, 4, 9, 10, 15, 16], "pooling_mod": [2, 16], "c10": [2, 4, 6, 8, 10], "indice_weight": 2, "output_dtyp": [2, 8, 16], "lxu_cache_weight": [2, 10], "lxu_cache_loc": [2, 10], "row_align": [2, 10], "max_float8_d": 2, "fp8_exponent_bit": 2, "fp8_exponent_bia": 2, "int_nbit_split_embedding_uvm_caching_codegen_lookup_funct": 2, "cache_hash_size_cumsum": [2, 10], "total_cache_hash_s": [2, 10], "cache_index_table_map": [2, 10], "lxu_cache_st": [2, 10], "lxu_stat": 2, "simlar": 2, "uvm_cach": 2, "lookup": [2, 10], "pruned_hashmap_lookup_cuda": 2, "hash_tabl": 2, "hash_table_offset": 2, "pruned_array_lookup_cuda": 2, "index_remap": 2, "index_remappings_offset": 2, "bounds_check_indices_cuda": 2, "rows_per_t": 2, "bounds_check_mod": [2, 16], "warn": [2, 16, 20], "b_ofset": 2, "max_b": [2, 10], "int_nbit_split_embedding_codegen_lookup_function_cpu": 2, "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu": 2, "pruned_hashmap_insert_unweighted_cpu": 2, "dense_indic": 2, "pruned_hashmap_lookup_unweighted_cpu": 2, "pruned_array_lookup_cpu": 2, "tupl": [3, 4, 9, 10, 16], "tbe_input_combine_cpu": 3, "indices_list": 3, "offsets_list": 3, "per_sample_weight": [3, 16], "include_last_offset": 3, "padding_fused_tbe_input_combine_cpu": 3, "batch_siz": 3, "solv": 4, "issu": [4, 6, 11, 12, 17], "when": [4, 9, 11, 13, 14, 16, 20, 21, 23], "differ": [4, 9, 14], "length": [4, 9, 15, 16, 22], "often": 4, "occur": [4, 20], "spars": [4, 14, 24], "featur": [4, 9, 14, 16, 17], "system": [4, 11, 12, 14], "well": [4, 9, 11, 20], "natur": [4, 14], "languag": [4, 14, 23], "batch": [4, 9, 14, 15, 24], "jagged_to_padded_dense_forward": 4, "symintarrayref": 4, "max_length": [4, 15], "doubl": [4, 8, 9], "padding_valu": [4, 15], "jagged_dense_elementwise_add_jagged_output_cuda": 4, "x_valu": [4, 15], "x_offset": [4, 15, 22], "where": [4, 6, 9, 14, 15, 16], "dens": [4, 15, 22], "jagged_to_padded_dens": [4, 15], "jagged_dense_elementwise_add": [4, 15], "jagged_dense_elementwise_mul": [4, 15], "batched_dense_vec_jagged_2d_mul": [4, 15], "a_valu": [4, 15], "a_offset": [4, 15], "dense_to_jag": [4, 15], "symint": 4, "total_l": [4, 15], "jagged_dense_elementwise_add_jagged_output": [4, 15], "jagged_1d_to_dens": [4, 15], "max_l": 4, "jagged_2d_to_dens": [4, 11, 12, 15, 21, 22], "max_sequence_length": [4, 15, 22], "recat_embedding_grad_output_cuda": 5, "grad_output": 5, "num_features_per_rank": 5, "recat_embedding_grad_output_mixed_d_cuda": 5, "dim_sum_per_rank": 5, "recat_embedding_grad_output_mixed_d_batch_cuda": 5, "cumsum_dim_sum_per_rank": 5, "recat_embedding_grad_output_mixed_d_cpu": 5, "new_managed_tensor": 6, "self": 6, "alloc": [6, 20], "an": [6, 9, 12, 13, 14, 16, 20, 21, 22, 23], "unifi": 6, "manag": [6, 11, 12, 16], "uvm": [6, 13], "Then": 6, "set": [6, 10, 13, 14, 15, 16], "prefer": [6, 12], "storag": [6, 8, 10], "host": [6, 11], "establish": 6, "map": [6, 9, 10, 14, 16], "devic": [6, 7, 11, 13, 16], "return": [6, 8, 9, 15, 16, 20, 21, 22], "A": [6, 8, 12, 14, 15, 16, 19, 20, 21, 22], "new": [6, 8, 10, 20, 21, 22], "new_managed_tensor_meta": 6, "placehold": 6, "meta": [6, 19], "kei": 6, "empti": [6, 14, 15, 23], "new_host_mapped_tensor": 6, "new_unified_tensor": 6, "is_host_map": 6, "either": [6, 8, 9, 11, 12], "whether": [6, 11, 19], "depend": [6, 8, 11, 12, 14], "new_vanilla_managed_tensor": 6, "allow": [6, 11], "automat": [6, 9, 13, 21], "uvm_storag": 6, "check": [6, 16], "gpu": [6, 11, 12, 13, 24], "true": [6, 16], "is_uvm_tensor": 6, "BUT": [6, 19], "non": [6, 16], "uvm_to_cpu": 6, "effect": [6, 14], "move": 6, "from": [6, 8, 9, 10, 11, 12, 13, 14, 16, 18, 19, 20, 21, 22, 23], "uvm_to_devic": 6, "prototyp": 6, "whose": 6, "uvm_cuda_mem_advis": 6, "cuda_memory_advis": 6, "cudamemadvis": 6, "cudamemoryadvis": 6, "enum": [6, 8], "avail": [6, 11, 13, 21], "python": [6, 11, 13, 20, 21, 23], "side": [6, 20, 22, 24], "namespac": 6, "over": [6, 11], "valid": 6, "inform": [6, 14, 22, 23], "uvm_cuda_mem_prefetch_async": 6, "device_t": 6, "cudamemprefetchasync": 6, "prefetch": 6, "destin": 6, "uvm_mem_advice_dont_fork": 6, "madvis": 6, "madv_dontfork": 6, "workaround": 6, "driver": [6, 11], "un": 6, "page": [6, 18, 23, 24], "tabl": [6, 9, 14, 24], "fork": [6, 18], "caus": [6, 11, 12, 19, 21], "slowdown": 6, "next": [6, 14, 20, 22], "access": [6, 16], "uvm_to_cpu_clon": 6, "copi": 6, "contigu": [6, 9], "singl": [6, 8], "thread": 6, "memcpi": 6, "contain": [6, 11, 14, 15, 16, 22], "section": [7, 11, 22], "cuda": [7, 16, 24], "variou": 7, "all_to_one_devic": 7, "inputtensor": 7, "target_devic": 7, "permute_pooled_embs_split_gpu": 7, "pooled_emb": 7, "offset_dim_list": 7, "permute_list": 7, "inv_offset_dim_list": 7, "inv_permute_list": 7, "permute_pooled_embs_auto_grad_split_gpu": 7, "permute_pooled_embs_auto_grad_gpu": 7, "permute_pooled_embs_cpu_impl": 7, "allow_dupl": 7, "permute_pooled_embs_split_cpu": 7, "permute_pooled_embs_auto_grad_split_cpu": 7, "permute_pooled_embs_auto_grad": 7, "permute_pooled_embs_auto_grad_cpu": 7, "model": [8, 9], "techniqu": 8, "reduc": 8, "larg": [8, 11], "order": [8, 14, 18], "achiev": [8, 12], "better": [8, 20], "small": 8, "loss": [8, 19], "accuraci": 8, "_float_to_bfloat16_gpu": 8, "brain": 8, "bfloat16": 8, "_bfloat16_to_float_gpu": 8, "_float_to_fp8rowwise_gpu": 8, "forward": 8, "fp8": 8, "dtype": [8, 16], "sparsetyp": [8, 16], "bf16": 8, "throw": [8, 20], "_fp8rowwise_to_float_gpu": 8, "represent": [8, 14], "_float_to_fused8bitrowwise_gpu": 8, "_half_to_fused8bitrowwise_gpu": 8, "half": 8, "_single_or_half_precision_to_fused8bitrowwise_gpu": 8, "_fused8bitrowwise_to_float_gpu": 8, "_fused8bitrowwise_to_half_gpu": 8, "_fused8bitrowwise_to_single_or_half_precision_gpu": 8, "scale_bias_last": 8, "quant_padding_float_typ": 8, "_fused8bitrowwise_to_float_mixed_dim_gpu": 8, "kfloat": 8, "khalf": 8, "_float_to_fusednbitrowwise_gpu": 8, "_half_to_fusednbitrowwise_gpu": 8, "_single_or_half_precision_to_fusednbitrowwise_gpu": 8, "_fusednbitrowwise_to_float_gpu": 8, "_fusednbitrowwise_to_half_gpu": 8, "_fusednbitrowwise_to_single_or_half_precision_gpu": 8, "_float_to_hfp8_gpu": 8, "ebit": 8, "exponent_bia": 8, "max_po": 8, "hybrid": 8, "hfp8": 8, "_hfp8_to_float_gpu": 8, "_float_to_msfp_gpu": 8, "bounding_box_s": 8, "mbit": 8, "min_po": 8, "msfp": 8, "_msfp_to_float_gpu": 8, "_float_to_paddedfp8rowwise_gpu": 8, "row_dim": 8, "pad": [8, 14, 15, 22], "_paddedfp8rowwise_to_float_gpu": 8, "output_last_dim": 8, "_fused8bitrowwise_to_float_cpu_out": 8, "_float_to_fused8bitrowwise_cpu_out": 8, "float_to_fused8bitrowwise_cpu": 8, "half_to_fused8bitrowwise_cpu": 8, "float_or_half_to_fused8bitrowwise_cpu": 8, "fused8bitrowwise_to_float_cpu": 8, "fused8bitrowwise_to_half_cpu": 8, "fused8bitrowwise_to_float_or_half_cpu": 8, "float_to_fp8rowwise_cpu": 8, "fp8rowwise_to_float_cpu": 8, "fusednbitrowwise_to_float_cpu": 8, "fusednbitrowwise_to_half_cpu": 8, "fusednbitrowwise_to_float_or_half_cpu": 8, "floattofp8quantized_ref": 8, "nrow": 8, "ncol": 8, "fp8quantizedtofloat_ref": 8, "expand_into_jagged_permute_cuda": 9, "permut": 9, "input_offset": 9, "output_offset": 9, "output_s": 9, "expand_into_jagged_permut": 9, "expand": 9, "index": [9, 10, 11, 12, 14, 20, 22], "case": [9, 11, 12, 14, 18], "ha": [9, 12, 14, 18, 20, 21], "across": [9, 11], "rank": [9, 14], "level": 9, "exclus": 9, "op": [9, 12, 15, 22], "bag": [9, 16, 24], "posit": [9, 16], "sit": 9, "after": [9, 11, 12, 13, 14, 16, 21, 22, 23], "we": [9, 11, 14, 18], "deriv": [9, 14, 19], "arrai": [9, 15, 22], "comput": [9, 11, 12, 16], "formula": 9, "output_permut": 9, "table_offset": 9, "bag_offset": 9, "histogram_binning_calibration_cpu": 9, "logit": 9, "bin_num_exampl": 9, "bin_num_posit": 9, "positive_weight": 9, "lower_bound": 9, "upper_bound": 9, "bin_ctr_in_use_aft": 9, "bin_ctr_weight_valu": 9, "divid": [9, 14], "predict": 9, "rang": [9, 14], "e": [9, 11, 14, 20, 22, 23], "b": [9, 11, 14, 15, 16, 20, 21, 22, 23], "bin": [9, 11], "two": [9, 14, 15, 16, 21], "exampl": [9, 11, 12, 13, 15, 16, 20, 21, 22, 23], "fall": [9, 11, 12], "bucket": [9, 11], "basic": [9, 22], "histogram": 9, "result": [9, 11, 15], "statist": 9, "real": 9, "ctr": 9, "num_po": 9, "num_exampl": 9, "final": 9, "calibr": 9, "pre": [9, 11, 12], "cali": 9, "wai": [9, 19], "within": 9, "suffici": [9, 18, 21], "That": 9, "fine": 9, "grain": 9, "modul": [9, 12, 16, 22], "theoret": 9, "layer": 9, "fix": [9, 11], "uncalibr": 9, "befor": [9, 11, 16, 23], "appli": [9, 11, 14, 16], "sigmoid": 9, "calibart": 9, "pass": [9, 16, 18, 21], "lower": 9, "bound": [9, 14], "calibration_target": 9, "observ": 9, "sum": [9, 15, 16], "statisct": 9, "final_calibrated_predict": 9, "bin_ctr_weight": 9, "bin_ctr": 9, "calibrated_predict": 9, "bin_id": 9, "generic_histogram_binning_calibration_by_feature_cpu": 9, "segment_valu": 9, "segment_length": 9, "num_seg": 9, "bin_boundari": 9, "extens": [9, 20, 21], "ectr": 9, "abov": [9, 12, 14, 19, 20, 22, 23], "accept": [9, 18], "sort": [9, 10, 11], "keyjaggedtensor": 9, "num_bin": 9, "longer": [9, 17, 20], "still": [9, 11], "parambin_ctr_weight_valu": 9, "get_unique_indices_cuda": 10, "linear_indic": 10, "max_indic": 10, "compute_count": 10, "dedupl": 10, "pair": [10, 23], "lru_cache_find_uncached_cuda": 10, "unique_indic": 10, "unique_indices_length": 10, "time_stamp": 10, "lru_stat": 10, "gather_cache_stat": 10, "uvm_cache_stat": 10, "lock_cache_lin": 10, "lxu_cache_locking_count": 10, "lru": [10, 16], "cach": [10, 11, 16], "uncach": 10, "them": 10, "host_lxu_cache_slot": 10, "h_in": 10, "cache_set": [10, 16], "linearize_cache_indices_cuda": 10, "b_offset": 10, "linear": 10, "uniqu": [10, 23], "linearize_cache_indices_from_row_idx_cuda": 10, "update_table_indic": 10, "update_row_indic": 10, "format": [10, 21, 22], "inplac": 10, "updat": [10, 11, 12, 16, 18], "lru_cache_populate_cuda": 10, "hash_size_cumsum": 10, "linear_cache_indic": 10, "stochastic_round": [10, 16], "fetch": 10, "insert": [10, 23], "timestep": 10, "lru_cache_populate_byte_cuda": 10, "byte": 10, "element": [10, 14], "direct_mapped_lru_cache_populate_byte_cuda": 10, "lxu_cache_miss_timestamp": 10, "assoc": 10, "variant": [10, 11, 12, 21], "lfu_cache_populate_cuda": 10, "lfu_stat": 10, "lfu": [10, 16], "lfu_cache_populate_byte_cuda": 10, "lxu_cache_lookup_cuda": 10, "invalid_index": 10, "num_uniq_cache_indic": 10, "lxu_cache_locations_output": 10, "look": [10, 16], "up": [10, 16], "slot": 10, "sentinel": 10, "miss": [10, 11], "direct_mapped_lxu_cache_lookup_cuda": 10, "lxu_cache_flush_cuda": 10, "flush": 10, "reset_weight_momentum_cuda": 10, "momentum1_dev": 10, "momentum1_uvm": 10, "momentum1_plac": 10, "momentum1_offset": 10, "pruned_indic": 10, "pruned_indices_offset": 10, "logical_table_id": 10, "buffer_id": 10, "lxu_cache_locking_counter_decrement_cuda": 10, "decrement": 10, "counter": 10, "lxu_cache_locations_update_cuda": 10, "lxu_cache_locations_new": 10, "fbgemm": [11, 12, 15, 17, 18, 19, 21, 22], "reproduc": [11, 12, 18, 19], "platform_nam": 11, "unam": 11, "prefix": [11, 23], "miniconda_prefix": 11, "home": 11, "download": [11, 12], "wget": 11, "q": 11, "anaconda": 11, "miniconda3": 11, "latest": 11, "sh": 11, "o": [11, 12], "p": 11, "load": [11, 14, 22], "shortcut": 11, "bashrc": 11, "command": [11, 12, 20, 21], "against": [11, 13], "env": [11, 12], "name": [11, 12, 19, 20, 22], "python_vers": 11, "3": [11, 14, 15, 16, 19, 22], "12": [11, 14, 16], "upgrad": 11, "pyopenssl": 11, "22": [11, 14], "requir": [11, 12, 13, 14, 16, 21, 22], "recent": [11, 12], "nvcc": 11, "capabl": [11, 13], "5": [11, 14, 16], "done": [11, 12], "bare": 11, "metal": 11, "neither": [11, 19], "nor": [11, 19], "nvidia": 11, "present": [11, 22], "sinc": [11, 14], "setup": [11, 12], "pull": [11, 12, 21], "linux": [11, 12], "distribut": [11, 19], "ubuntu": 11, "04": 11, "11": [11, 12, 14], "entrypoint": 11, "devel": 11, "ubuntu22": 11, "rest": [11, 12], "mai": [11, 12, 14, 19], "construct": [11, 12, 14], "mechan": 11, "full": [11, 12, 23], "nvml": 11, "org": [11, 12, 22], "cuda_vers": 11, "label": 11, "verifi": [11, 12, 20, 22], "cuda_runtim": 11, "h": [11, 15, 20], "libnvidia": [11, 12], "ml": [11, 12], "printenv": 11, "extract": 11, "given": [11, 14, 15], "url": [11, 12], "builder": 11, "blob": 11, "main": [11, 18], "common": [11, 12, 14, 22], "install_cuda": 11, "cudnn_url": 11, "redist": 11, "x86_64": 11, "2": [11, 12, 14, 15, 16, 20, 22, 23], "26_cuda12": 11, "archiv": 11, "tar": 11, "xz": 11, "unpack": 11, "xvf": 11, "amd": [11, 12], "minim": 11, "6": [11, 12, 14], "termin": 11, "while": [11, 21], "come": 11, "reason": [11, 12, 21], "oper": [11, 12, 24], "guid": [11, 22], "disabl": 11, "apt": 11, "prompt": 11, "debian_frontend": 11, "noninteract": 11, "db": 11, "radeon": 11, "amdgpu": 11, "focal": 11, "install_5": 11, "50601": 11, "1_all": 11, "deb": 11, "usecas": 11, "hiplibsdk": 11, "dkm": 11, "hipifi": 11, "hip": 11, "dev": 11, "20": 11, "sysroot": 11, "avoid": 11, "glibcxx": 11, "fbgemm_cpu": 11, "10": [11, 12, 14], "keep": 11, "older": [11, 12], "gcc_version": 11, "15": 11, "7": [11, 12, 14, 15, 16], "forg": [11, 21], "gxx_linux": 11, "64": [11, 14], "sysroot_linux": 11, "17": 11, "binari": [11, 19], "cento": 11, "stream": 11, "becaus": [11, 14], "librari": [11, 21, 24], "refer": [11, 14, 21, 22], "libstdc": 11, "what": [11, 21], "libcxx_path": 11, "print": [11, 12, 16, 22], "objdump": 11, "tc": 11, "grep": 11, "glibc_": 11, "sed": 11, "vu": 11, "cat": 11, "glibcxx_": 11, "It": [11, 12, 14], "possibl": [11, 14, 18, 19], "just": 11, "do": [11, 12, 18], "llvm_version": 11, "libcxx": 11, "outdat": 11, "aarch64": [11, 12], "cannot": 11, "explicitli": 11, "clangxx": 11, "rt": 11, "lib": [11, 12], "ld_library_path": [11, 12], "config": 11, "var": 11, "nvcc_prepend_flag": 11, "correctli": [11, 12, 13, 20, 21], "xcompil": 11, "ccbin": 11, "clangxx_path": 11, "unsupport": 11, "even": [11, 19], "though": [11, 12], "libstd": 11, "being": [11, 21], "mean": [11, 14, 16], "regardless": 11, "scenario": 11, "first": [11, 20, 22, 23], "binpath": 11, "overrid": 11, "exist": [11, 20, 22], "ln": 11, "sf": 11, "path_to_either_gcc_or_clang": 11, "cc": 11, "These": 11, "later": 11, "configur": [11, 20], "stage": [11, 14], "cmake": 11, "click": 11, "hypothesi": [11, 12], "jinja2": 11, "ncurs": 11, "numpi": [11, 12], "scikit": [11, 12], "offici": 11, "homepag": 11, "authorit": [11, 12, 21], "how": [11, 12, 13, 22], "nightli": [11, 12], "rc": 11, "without": [11, 19], "alwai": 11, "reliabl": 11, "arriv": 11, "hour": 11, "than": [11, 14], "window": 11, "silent": 11, "both": [11, 17, 19, 21], "place": [11, 16], "artifact": 11, "select": 11, "dure": [11, 14, 16, 22], "thu": [11, 16], "import": [11, 12, 16, 22, 23], "much": [11, 20], "determinist": 11, "torch": [11, 12, 15, 16, 21, 22], "whl": [11, 12], "cu121": [11, 12], "rocm5": [11, 12], "ensur": [11, 12, 18], "properli": 11, "__version__": 11, "minimum": [11, 20, 21, 22], "cuda_cmake_macro": 11, "txt": [11, 13, 21, 23], "tag": [11, 20, 23], "fbgemm_vers": 11, "v0": 11, "fbgemm_": 11, "addit": [11, 13, 14, 15], "flow": 11, "state": 11, "becom": 11, "stale": 11, "problem": 11, "re": [11, 12], "attempt": 11, "failur": [11, 12], "clear": [11, 18], "py": [11, 12, 13, 21, 22], "clean": [11, 21], "must": [11, 12, 13, 14, 16, 19, 23], "package_nam": 11, "fbgemm_gpu_": 11, "convent": 11, "major": 11, "minor": 11, "py312": 11, "python_tag": 11, "determin": [11, 14], "processor": 11, "arch": 11, "python_plat_nam": 11, "manylinux2014_": 11, "maco": 11, "macosx_10_9_": 11, "arm64": 11, "macosx_11_0_": 11, "win_": 11, "cpu_onli": 11, "flag": [11, 21], "bdist_wheel": 11, "package_vari": 11, "plat": 11, "instead": [11, 21], "cxxprefix": 11, "presum": 11, "made": [11, 21], "presenc": 11, "similar": [11, 14, 16], "enabl": [11, 13], "been": [11, 20], "unabl": 11, "cudacxx": 11, "cuda_bin_path": 11, "cub": 11, "applic": [11, 16, 20, 22], "cub_dir": 11, "header": [11, 20, 23], "cudnn_include_dir": 11, "cudnn_librari": 11, "nvml_lib_path": 11, "sm70": [11, 12], "80": 11, "v100": [11, 12], "a100": [11, 12], "current": [11, 12, 14, 16], "cuda_arch_list": 11, "unset": 11, "torch_cuda_arch_list": 11, "preced": 11, "dtorch_cuda_arch_list": 11, "rocm_path": 11, "pytorch_rocm_arch": 11, "gfx906": 11, "gfx908": 11, "gfx90a": 11, "wiki": 11, "gentoo": 11, "list": [11, 14, 15, 16, 19, 20, 22], "rocminfo": 11, "gfx": 11, "dhip_root_dir": 11, "dtorch_use_hip_dsa": 11, "complet": [11, 18, 21], "actual": 11, "correct": 11, "lot": 11, "jinja": 11, "instanti": 11, "sure": [11, 18, 20, 22], "accident": 11, "cours": 11, "fbgemm_gpu_lib_path": 11, "fbgemm_gpu_pi": [11, 12], "defin": [11, 14, 20], "nm": 11, "gdcu": 11, "referenc": 11, "certain": 11, "gdc": 11, "merge_pooled_embed": [11, 12], "isol": [12, 21], "build": [12, 13, 20, 22, 24], "sm80": 12, "respect": 12, "other": [12, 14, 19, 20, 21, 22], "scratch": 12, "guarante": 12, "especi": 12, "displai": [12, 23], "smi": 12, "515": 12, "76": 12, "persist": 12, "bu": [12, 23], "id": 12, "disp": 12, "volatil": 12, "uncorr": 12, "ecc": 12, "fan": 12, "temp": 12, "perf": 12, "pwr": 12, "usag": [12, 21, 22], "cap": 12, "memori": [12, 16, 24], "util": [12, 24], "mig": 12, "a10g": 12, "00000000": 12, "00": 12, "1e": 12, "31c": 12, "p0": 12, "59w": 12, "300w": 12, "0mib": 12, "23028mib": 12, "gi": 12, "ci": 12, "pid": 12, "No": 12, "expos": 12, "onc": [12, 18], "imag": 12, "launch": 12, "alreadi": [12, 18, 20, 22], "toolkit": 12, "interfac": 12, "concis": 12, "info": [12, 20, 22], "dieedg": 12, "avgpwr": 12, "sclk": 12, "mclk": 12, "pwrcap": 12, "vram": 12, "33": 12, "0c": 12, "37": 12, "0w": 12, "300mhz": 12, "1200mhz": 12, "auto": [12, 21], "290": 12, "32": 12, "39": 12, "log": 12, "difficult": 12, "relev": [12, 20], "link": [12, 21], "encount": 12, "signatur": [12, 21], "traceback": 12, "last": 12, "root": [12, 18], "miniconda": 12, "mycondaenv": 12, "site": 12, "_op": [12, 21], "line": [12, 22, 23], "565": 12, "__getattr__": 12, "overload_nam": 12, "_c": 12, "_jit_get_oper": 12, "qualified_op_nam": 12, "runtimeerror": 12, "except": [12, 20, 22], "wa": 12, "string": [12, 23], "post47": 12, "py3": 12, "egg": 12, "__init__": [12, 22], "21": 12, "_fbgemm_gpu_doc": 12, "noqa": 12, "f401": 12, "e402": 12, "18": 12, "569": 12, "rais": [12, 22], "attributeerror": [12, 22], "_opnamespac": 12, "object": [12, 14], "attribut": [12, 22], "cli": 12, "main_run": 12, "execut": [12, 13], "47": 12, "_zn6fbgemm48floatorhalftofusednbitrowwisequantizedsbhalfavx2itli2eeevpkt_miph": 12, "appear": 12, "libtorch": 12, "visibl": 12, "incorrectli": [12, 21], "declar": [12, 20], "were": [12, 15], "pr": [12, 20, 21, 22], "1618": 12, "former": 12, "resolv": 12, "manual": [12, 20], "latter": 12, "seriou": 12, "tha": 12, "develop": [12, 21], "bench": 13, "good": [13, 19], "instal": [13, 21, 24], "pip": [13, 21], "pytest": 13, "rsx": 13, "w": 13, "ignor": [13, 16, 21], "pytestcollectionwarn": 13, "split_table_batched_embeddings_test": 13, "quantize_ops_test": 13, "sparse_ops_test": 13, "split_embedding_inference_converter_test": 13, "mode": [13, 16], "cuda_visible_devic": 13, "debug": 13, "cuda_launch_block": 13, "fbgemm_test_with_rocm": 13, "hip_launch_block": 13, "split_table_batched_embeddings_benchmark": 13, "purpos": [14, 15, 16, 19], "handl": 14, "consecut": 14, "nestedtensor": 14, "raggedtensor": 14, "tensorflow": 14, "notabl": 14, "token": 14, "sentenc": 14, "repres": 14, "maxlength": 14, "2d": [14, 15, 16, 22], "numel": 14, "greatest": 14, "divisor": 14, "smallest": 14, "sub": 14, "exclud": 14, "partit": 14, "impli": [14, 19], "denot": [14, 20, 22], "offest": 14, "outer": 14, "would": 14, "begin": 14, "maximum": [14, 15, 22], "between": [14, 20, 21, 23], "normal": 14, "densor": 14, "form": [14, 19], "figur": 14, "below": 14, "show": [14, 21], "accomod": 14, "logic": [14, 20], "At": [14, 20, 21, 22], "wise": [14, 16], "multipl": [14, 15, 16, 22, 24], "hadamard": 14, "product": [14, 19], "involv": 14, "bmatrix": 14, "rightarrow": 14, "16": 14, "25": 14, "36": 14, "49": 14, "81": 14, "50": 14, "operand": 14, "word": 14, "ax": 14, "properti": 14, "hold": 14, "elementwis": [14, 15], "equival": 14, "d": [14, 15, 23], "start": [14, 15, 22, 23], "dim": 14, "onto": 14, "part": 14, "everi": 14, "those": [14, 15, 18, 22], "converson": 14, "could": 14, "lead": 14, "read": [14, 16], "relat": 14, "smaller": 14, "expect": 14, "happen": 14, "give": 14, "situat": 14, "like": 14, "dense_tensor": 14, "jagged_tensor": 14, "break": 14, "exact": 14, "usual": 14, "1d": [15, 16, 22], "area": 15, "outsid": 15, "coverag": 15, "total": [15, 16], "identit": 15, "add": [15, 18, 20, 21, 22], "structur": 15, "jagged_dense_dense_elementwise_add_jagged_output": 15, "y_0": 15, "y_1": 15, "multipli": [15, 16], "max_n": 15, "matmul": 15, "stacked_jagged_1d_to_dens": 15, "arg": [15, 22], "kwarg": 15, "stacked_jagged_2d_to_dens": 15, "split_table_batched_embeddings_op": 16, "splittablebatchedembeddingbagscodegen": 16, "embedding_spec": 16, "feature_table_map": 16, "none": 16, "cache_algorithm": 16, "cachealgorithm": 16, "cache_load_factor": 16, "cache_reserved_memori": 16, "cache_precis": 16, "weights_precis": 16, "enforce_hbm": 16, "optimtyp": 16, "exact_sgd": 16, "record_cache_metr": 16, "gradient_clip": 16, "max_gradi": 16, "learning_r": 16, "01": 16, "ep": 16, "0e": 16, "momentum": 16, "weight_decai": 16, "weight_decay_mod": 16, "weightdecaymod": 16, "eta": 16, "001": 16, "beta1": 16, "beta2": 16, "999": 16, "poolingmod": 16, "boundscheckmod": 16, "sourc": [16, 18, 19, 20, 21, 22], "backward": 16, "embeddingloc": 16, "computedevic": 16, "spec": 16, "placement": 16, "lxu": 16, "algorithm": 16, "capac": 16, "amount": 16, "reserv": [16, 19], "hbm": 16, "adam": 16, "exact_adagrad": 16, "exact_rowwise_adagrad": 16, "lamb": 16, "lars_sgd": 16, "partial_rowwise_adam": 16, "partial_rowwise_lamb": 16, "sgd": 16, "recordcachemetr": 16, "record": 16, "hit": 16, "request": [16, 17, 21], "record_cache_miss_count": 16, "metric": 16, "record_tablewise_cache_miss": 16, "stochast": 16, "round": 16, "gradient": 16, "clip": 16, "learn": 16, "rate": 16, "epsilon": 16, "adagrad": 16, "lar": 16, "decai": 16, "l2": 16, "decoupl": 16, "pool": [16, 24], "boundari": 16, "fatal": 16, "conatin": 16, "column": 16, "feature_requires_grad": 16, "split_table_batched_embeddings_ops_common": 16, "split_table_batched_embeddings_ops_train": 16, "init_embedding_weights_uniform": 16, "split_embedding_weight": 16, "9426": 16, "7046": 16, "4214": 16, "0419": 16, "1331": 16, "7856": 16, "8124": 16, "2021": 16, "5771": 16, "5911": 16, "7792": 16, "1068": 16, "6203": 16, "4813": 16, "1677": 16, "4790": 16, "5587": 16, "0941": 16, "5754": 16, "3475": 16, "8952": 16, "1964": 16, "0810": 16, "4174": 16, "2513": 16, "4039": 16, "3775": 16, "3273": 16, "5399": 16, "0229": 16, "1455": 16, "8770": 16, "9520": 16, "4593": 16, "7169": 16, "6307": 16, "1765": 16, "8757": 16, "8614": 16, "2051": 16, "0603": 16, "9980": 16, "7958": 16, "5826": 16, "long": 16, "13": 16, "5197": 16, "2957": 16, "3578": 16, "1487": 16, "4873": 16, "3044": 16, "9801": 16, "2769": 16, "7164": 16, "8528": 16, "7159": 16, "6719": 16, "0784": 16, "2016": 16, "2176": 16, "1988": 16, "3825": 16, "5008": 16, "8991": 16, "1405": 16, "2637": 16, "9427": 16, "8902": 16, "3754": 16, "5013": 16, "6105": 16, "9968": 16, "3057": 16, "7621": 16, "9821": 16, "7314": 16, "6195": 16, "grad_fn": 16, "cppnode": 16, "splitlookupfunction_sgd_op": 16, "question": 17, "concern": 17, "discuss": 17, "kick": 17, "regard": 17, "feel": 17, "free": 17, "reach": 17, "easi": 18, "transpar": 18, "describ": 18, "activ": 18, "welcom": [18, 24], "your": [18, 21, 22], "repositori": 18, "branch": 18, "ve": 18, "chang": [18, 20, 22], "api": [18, 20, 21, 22], "suit": 18, "lint": 18, "haven": 18, "submit": [18, 20, 22], "facebook": [18, 19, 24], "open": 18, "track": 18, "public": [18, 21], "bug": 18, "descript": [18, 20, 21, 22, 23], "instruct": [18, 20, 21, 22, 24], "abl": 18, "bounti": 18, "safe": 18, "disclosur": 18, "secur": 18, "go": 18, "outlin": 18, "By": 18, "agre": 18, "tree": 18, "claus": 19, "bsd": 19, "softwar": 19, "copyright": 19, "inc": 19, "affili": 19, "right": [19, 23], "redistribut": 19, "modif": 19, "permit": 19, "condit": 19, "met": 19, "retain": 19, "notic": 19, "disclaim": 19, "materi": 19, "contributor": 19, "endors": 19, "promot": 19, "written": 19, "permiss": 19, "BY": 19, "THE": 19, "holder": 19, "AND": 19, "AS": 19, "express": [19, 23], "OR": 19, "warranti": 19, "NOT": 19, "limit": [19, 21], "TO": 19, "OF": 19, "merchant": 19, "FOR": 19, "particular": 19, "IN": 19, "NO": 19, "event": 19, "shall": 19, "BE": 19, "liabl": 19, "indirect": 19, "incident": 19, "special": 19, "exemplari": 19, "consequenti": 19, "damag": 19, "procur": 19, "substitut": 19, "servic": 19, "profit": 19, "busi": 19, "interrupt": 19, "theori": 19, "liabil": 19, "contract": 19, "strict": 19, "tort": 19, "neglig": 19, "aris": 19, "IF": 19, "advis": 19, "SUCH": 19, "javadoc": 20, "style": [20, 22], "comment": [20, 21, 23], "sphinx": [20, 21, 22], "breath": 20, "kept": 20, "cpp": [20, 22, 23], "cu": 20, "cuh": 20, "everyth": 20, "ifndef": 20, "doxygen_this_will_be_skip": 20, "endif": 20, "hidden": 20, "html": [20, 21, 22], "descriptionss": 20, "publish": [20, 22], "docstr": [20, 21, 22], "method": [20, 21, 22], "organ": 20, "yet": 20, "top": [20, 24], "defgroup": 20, "directli": [20, 22], "behavior": [20, 22], "tparam": 20, "param": [20, 22], "thrown": [20, 22], "ingroup": 20, "brief": 20, "short": 20, "example_method": [20, 22], "def": [20, 22], "foo": [20, 22], "lst": [20, 22], "And": [20, 22], "verbatim": [20, 22], "text": [20, 22, 23], "diagram": [20, 22], "unpars": 20, "second": [20, 22], "prev": [20, 22], "usabl": [20, 22], "space": [20, 21, 22], "endcod": 20, "align": [20, 22], "param1": [20, 22], "param2": 20, "bad_alloc": 20, "logic_error": 20, "href": 20, "www": [20, 22], "nl": 20, "cmdlink": 20, "On": [20, 22], "doxygengroup": 20, "rst": [20, 22, 23], "content": [20, 23, 24], "toctre": [20, 22], "ini": 20, "taken": 20, "care": 20, "doc": [20, 21, 22, 23], "local": [20, 22], "netlifi": [20, 21, 22], "preview": [20, 22], "serv": 21, "accompani": 21, "put": 21, "yourself": 21, "shoe": 21, "who": 21, "understand": 21, "live": 21, "easier": 21, "leav": 21, "separ": 21, "task": 21, "pointer": 21, "tool": 21, "graphviz": [21, 23], "assembl": 21, "view": 21, "prepend": 21, "sphinx_lint": 21, "technic": 21, "why": 21, "invok": 21, "occasion": 21, "unresolv": 21, "might": 21, "opt": 21, "pycapsul": 21, "class": [21, 22], "neg": 21, "silenc": 21, "nitpick": 21, "conf": 21, "domain": 21, "deploi": 21, "app": 21, "googl": 22, "c_size_t": 22, "about": 22, "ret": 22, "emplace_back": 22, "item": 22, "valueerror": 22, "14": 22, "restructuredtext": 22, "en": 22, "master": 22, "__": 22, "pep": 22, "0287": 22, "42": 22, "autofunct": 22, "c_ulong": 22, "mani": 22, "attach": 22, "fact": 22, "helper": 22, "codebas": 22, "add_doc": 22, "jag": [22, 24], "forc": 22, "hoc": 22, "the_new_doc_modul": 22, "remain": 22, "render": [22, 23], "anchor": 23, "_doc": 23, "underscor": 23, "_": 23, "There": 23, "elsewher": 23, "ref": 23, "anoth": 23, "literalinclud": 23, "rel": 23, "enclos": 23, "bracket": 23, "skiplin": 23, "suppli": 23, "math": 23, "inlin": 23, "k_": 23, "k_n": 23, "expressino": 23, "int_a": 23, "frac": 23, "2v": 23, "dx": 23, "left": 23, "dv": 23, "_a": 23, "du": 23, "digraph": 23, "altern": 23, "extern": 23, "dot": 23, "examplegraph": 23, "low": 24, "precis": 24, "high": 24, "convolut": 24, "server": 24, "infer": 24, "backend": 24, "caffe2": 24, "quantiz": 24, "collect": 24, "transform": 24, "contribut": 24, "contact": 24, "licens": 24, "combin": 24, "tbe": 24}, "objects": {"": [[8, 0, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref"], [8, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ebits"], [8, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::exponent_bias"], [8, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::input"], [8, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ncols"], [8, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::nrows"], [8, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::output"], [8, 0, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu"], [8, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::forward"], [8, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::input"], [8, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::output_dtype"], [0, 0, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::len"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::m"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::max"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::min"], [0, 0, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf"], [0, 2, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::InputType"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::bit_rate"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_columns"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_rows"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::output"], [8, 0, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref"], [8, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ebits"], [8, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::exponent_bias"], [8, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::input"], [8, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::max_pos"], [8, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ncols"], [8, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::nrows"], [8, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::output"], [0, 0, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize"], [0, 2, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::T"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::dst"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::len"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::noise_ratio"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::num_threads"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::qparams"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::src"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::thread_id"], [0, 0, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::C"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::G"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::K"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::LAYOUT"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::T"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::X"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::dst"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::scales"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::src"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::zero_points"], [0, 0, 1, "_CPPv46Xor128v", "Xor128"], [8, 0, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu"], [8, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::forward"], [8, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::input"], [8, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::output_dtype"], [8, 0, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu"], [8, 1, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu::input"], [8, 0, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu"], [8, 1, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::forward"], [8, 1, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::input"], [8, 0, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu"], [8, 1, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu::input"], [8, 0, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out"], [8, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::input"], [8, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::output"], [8, 0, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu"], [8, 1, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu::input"], [8, 0, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu"], [8, 1, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::bit_rate"], [8, 1, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::input"], [8, 0, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu"], [8, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::ebits"], [8, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::exponent_bias"], [8, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::input"], [8, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::max_pos"], [8, 0, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu"], [8, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bias"], [8, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bounding_box_size"], [8, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::ebits"], [8, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::input"], [8, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::max_pos"], [8, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::mbits"], [8, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::min_pos"], [8, 0, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu"], [8, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::forward"], [8, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::input"], [8, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::row_dim"], [8, 0, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out"], [8, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::input"], [8, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::output"], [8, 0, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu"], [8, 1, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu::input"], [8, 0, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu"], [8, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::D_offsets"], [8, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::input"], [8, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::output_dtype"], [8, 0, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu"], [8, 1, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu::input"], [8, 0, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu"], [8, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::input"], [8, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::output_dtype"], [8, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::quant_padding_float_type"], [8, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::scale_bias_last"], [8, 0, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu"], [8, 1, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::bit_rate"], [8, 1, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::input"], [8, 0, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu"], [8, 1, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::bit_rate"], [8, 1, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::input"], [8, 0, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu"], [8, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::bit_rate"], [8, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::input"], [8, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::output_dtype"], [8, 0, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu"], [8, 1, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu::input"], [8, 0, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu"], [8, 1, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::bit_rate"], [8, 1, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::input"], [8, 0, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu"], [8, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::ebits"], [8, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::exponent_bias"], [8, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::input"], [8, 0, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu"], [8, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::bias"], [8, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::ebits"], [8, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::input"], [8, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::mbits"], [8, 0, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu"], [8, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::forward"], [8, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::input"], [8, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_dtype"], [8, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_last_dim"], [8, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::row_dim"], [8, 0, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu"], [8, 1, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu::input"], [8, 0, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu"], [8, 1, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::bit_rate"], [8, 1, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::input"], [7, 0, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device"], [7, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::inputTensors"], [7, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::target_device"], [4, 0, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul"], [4, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_offsets"], [4, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_values"], [4, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::v"], [2, 0, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::B_ofsets"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::bounds_check_mode"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::indices"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::max_B"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::offsets"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::rows_per_table"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::warning"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::weights"], [4, 0, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged"], [4, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::dense"], [4, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::offsets"], [4, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::total_L"], [10, 0, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::D_offsets"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::cache_index_table_map"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::gather_cache_stats"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::hash_size_cumsum"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::linear_cache_indices"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lru_state"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_miss_timestamp"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_weights"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::row_alignment"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::time_stamp"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::total_cache_hash_size"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::uvm_cache_stats"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_offsets"], [10, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_tys"], [10, 0, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda"], [10, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::gather_cache_stats"], [10, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::invalid_index"], [10, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::linear_cache_indices"], [10, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::uvm_cache_stats"], [20, 0, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method"], [20, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::Alignment"], [20, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::T"], [20, 1, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param1"], [20, 1, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param2"], [9, 0, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda"], [9, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::input_offsets"], [9, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_offsets"], [9, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_size"], [9, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::permute"], [8, 0, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu"], [8, 1, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu::input"], [8, 0, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu"], [8, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::forward"], [8, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::input"], [8, 0, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu"], [8, 1, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu::input"], [8, 0, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu"], [8, 1, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu::input"], [8, 0, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu"], [8, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::input"], [8, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::output_dtype"], [8, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::quant_padding_float_type"], [8, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::scale_bias_last"], [8, 0, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu"], [8, 1, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu::input"], [8, 0, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu"], [8, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::bit_rate"], [8, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::input"], [8, 0, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu"], [8, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::bit_rate"], [8, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::input"], [8, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::output_dtype"], [8, 0, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu"], [8, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::bit_rate"], [8, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::input"], [9, 0, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_boundaries"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_in_use_after"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_weight_value"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_examples"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_positives"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::logit"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::num_segments"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::positive_weight"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_lengths"], [9, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_value"], [10, 0, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda"], [10, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::compute_count"], [10, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::linear_indices"], [10, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::max_indices"], [8, 0, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu"], [8, 1, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu::input"], [9, 0, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_in_use_after"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_weight_value"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_examples"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_positives"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::logit"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::lower_bound"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::positive_weight"], [9, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::upper_bound"], [10, 0, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot"], [10, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::C"], [10, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::h_in"], [2, 0, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::D_offsets"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::dev_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bias"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bits"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indice_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indices"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_locations"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float16_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float32_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float8_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int2_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int4_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int8_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::offsets"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::output_dtype"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::pooling_mode"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::row_alignment"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::total_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::uvm_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_offsets"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_placements"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_tys"], [2, 0, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::D_offsets"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::dev_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bias"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bits"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indice_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indices"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_locations"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float16_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float32_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float8_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int2_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int4_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int8_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::offsets"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::output_dtype"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::pooling_mode"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::row_alignment"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::total_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::uvm_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_offsets"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_placements"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_tys"], [2, 0, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::D_offsets"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_hash_size_cumsum"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_index_table_map"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::dev_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bias"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bits"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indice_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indices"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_locations"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_state"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_state"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float16_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float32_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float8_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int2_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int4_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int8_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::offsets"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::output_dtype"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::pooling_mode"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::row_alignment"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_cache_hash_size"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::uvm_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_offsets"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_placements"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_tys"], [2, 0, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::D_offsets"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_hash_size_cumsum"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_index_table_map"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::dev_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bias"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bits"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indice_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indices"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_locations"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_state"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_state"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float16_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float32_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float8_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int2_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int4_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int8_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::offsets"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::output_dtype"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::pooling_mode"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::row_alignment"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_cache_hash_size"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::uvm_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_offsets"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_placements"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_tys"], [6, 0, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor"], [6, 1, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor::self"], [4, 0, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense"], [4, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::max_L"], [4, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::offsets"], [4, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::padding_value"], [4, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::values"], [4, 0, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense"], [4, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::max_sequence_length"], [4, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::offsets"], [4, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::values"], [4, 0, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add"], [4, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_offsets"], [4, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_values"], [4, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::y"], [4, 0, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output"], [4, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_offsets"], [4, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_values"], [4, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::y"], [4, 0, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda"], [4, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_offsets"], [4, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_values"], [4, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::y"], [4, 0, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul"], [4, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_offsets"], [4, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_values"], [4, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::y"], [4, 0, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense"], [4, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::max_lengths"], [4, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::offsets"], [4, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::padding_value"], [4, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::values"], [4, 0, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward"], [4, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::max_lengths"], [4, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::offsets"], [4, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::padding_value"], [4, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::values"], [10, 0, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::D_offsets"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_hash_size_cumsum"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_index_table_map"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lfu_state"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::linear_cache_indices"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_weights"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::row_alignment"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::total_cache_hash_size"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_offsets"], [10, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_tys"], [10, 0, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::D_offsets"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_hash_size_cumsum"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_index_table_map"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lfu_state"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::linear_cache_indices"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_weights"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::stochastic_rounding"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::total_cache_hash_size"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights"], [10, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights_offsets"], [10, 0, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda"], [10, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::B_offsets"], [10, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::cache_hash_size_cumsum"], [10, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::indices"], [10, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::max_B"], [10, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::offsets"], [10, 0, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda"], [10, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::cache_hash_size_cumsum"], [10, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_row_indices"], [10, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_table_indices"], [10, 0, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::gather_cache_stats"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lock_cache_line"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lru_state"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lxu_cache_locking_counter"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::max_indices"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::time_stamp"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::unique_indices"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::unique_indices_length"], [10, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::uvm_cache_stats"], [10, 0, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::D_offsets"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::cache_index_table_map"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::gather_cache_stats"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::hash_size_cumsum"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::linear_cache_indices"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lru_state"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_weights"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::row_alignment"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::time_stamp"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::total_cache_hash_size"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::uvm_cache_stats"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_offsets"], [10, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_tys"], [10, 0, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::D_offsets"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::cache_index_table_map"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::gather_cache_stats"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::hash_size_cumsum"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::linear_cache_indices"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lock_cache_line"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lru_state"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_locking_counter"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_weights"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::stochastic_rounding"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::time_stamp"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::total_cache_hash_size"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::uvm_cache_stats"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights"], [10, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights_offsets"], [10, 0, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::D_offsets"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_hash_size_cumsum"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_index_table_map"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_weights"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::stochastic_rounding"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::total_D"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::uvm_weights"], [10, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::weights_offsets"], [10, 0, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda"], [10, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations"], [10, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations_new"], [10, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::num_uniq_cache_indices"], [10, 0, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda"], [10, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locations"], [10, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locking_counter"], [10, 0, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda"], [10, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::gather_cache_stats"], [10, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::invalid_index"], [10, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::linear_cache_indices"], [10, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_locations_output"], [10, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::num_uniq_cache_indices"], [10, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::uvm_cache_stats"], [6, 0, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor"], [6, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::self"], [6, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::sizes"], [6, 0, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor"], [6, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::self"], [6, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::sizes"], [6, 0, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta"], [6, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::self"], [6, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::sizes"], [6, 0, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor"], [6, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::is_host_mapped"], [6, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::self"], [6, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::sizes"], [6, 0, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor"], [6, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::self"], [6, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::sizes"], [3, 0, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu"], [3, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::batch_size"], [3, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::include_last_offsets"], [3, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::indices_list"], [3, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::offsets_list"], [3, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::per_sample_weights"], [7, 0, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad"], [7, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_offset_dim_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_permute_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::offset_dim_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::permute_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::pooled_embs"], [7, 0, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_offset_dim_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_permute_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::offset_dim_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::permute_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::pooled_embs"], [7, 0, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_offset_dim_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_permute_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::offset_dim_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::permute_list"], [7, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::pooled_embs"], [7, 0, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_offset_dim_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_permute_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::offset_dim_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::permute_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::pooled_embs"], [7, 0, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_offset_dim_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_permute_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::offset_dim_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::permute_list"], [7, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::pooled_embs"], [7, 0, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl"], [7, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::allow_duplicates"], [7, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_offset_dim_list"], [7, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_permute_list"], [7, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::offset_dim_list"], [7, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::permute_list"], [7, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::pooled_embs"], [7, 0, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_offset_dim_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_permute_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::offset_dim_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::permute_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::pooled_embs"], [7, 0, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_offset_dim_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_permute_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::offset_dim_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::permute_list"], [7, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::pooled_embs"], [2, 0, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings_offsets"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::indices"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::offsets"], [2, 0, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings_offsets"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::indices"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::offsets"], [2, 0, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::dense_indices"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table_offsets"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::indices"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::offsets"], [2, 0, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table_offsets"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::indices"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::offsets"], [2, 0, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table_offsets"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::indices"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::offsets"], [5, 0, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda"], [5, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::grad_output"], [5, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::num_features_per_rank"], [5, 0, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda"], [5, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::cumsum_dim_sum_per_rank"], [5, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::dim_sum_per_rank"], [5, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::grad_output"], [5, 0, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu"], [5, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::dim_sum_per_rank"], [5, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::grad_output"], [5, 0, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda"], [5, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::dim_sum_per_rank"], [5, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::grad_output"], [0, 0, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::DIRECT"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::Q_GRAN"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::block"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::inp"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_in"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::r"], [0, 0, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::C_PER_G"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::Q_GRAN"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::block"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::inp"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_in"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::r"], [10, 0, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::D_offsets"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::buffer_ids"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::cache_hash_size_cumsum"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::dev_weights"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::logical_table_ids"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_state"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_weights"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_dev"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_offsets"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_placements"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_uvm"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices_offsets"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::total_cache_hash_size"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::uvm_weights"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_offsets"], [10, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_placements"], [3, 0, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu"], [3, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::include_last_offsets"], [3, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::indices_list"], [3, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::offsets_list"], [3, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::per_sample_weights"], [6, 0, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise"], [6, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::cuda_memory_advise"], [6, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::self"], [6, 0, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async"], [6, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::device_t"], [6, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::self"], [6, 0, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork"], [6, 1, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork::self"], [6, 0, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage"], [6, 1, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage::self"], [6, 0, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu"], [6, 1, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu::self"], [6, 0, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone"], [6, 1, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone::self"], [6, 0, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device"], [6, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::prototype"], [6, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::self"], [16, 3, 0, "-", "fbgemm_gpu"]], "fbgemm_gpu.docs.examples": [[22, 4, 1, "", "example_method"]], "fbgemm_gpu.split_table_batched_embeddings_ops": [[16, 4, 1, "", "SplitTableBatchedEmbeddingBagsCodegen"]], "torch.ops.fbgemm": [[15, 4, 1, "", "batched_dense_vec_jagged_2d_mul"], [15, 4, 1, "", "dense_to_jagged"], [15, 4, 1, "", "jagged_1d_to_dense"], [15, 4, 1, "", "jagged_2d_to_dense"], [15, 4, 1, "", "jagged_dense_dense_elementwise_add_jagged_output"], [15, 4, 1, "", "jagged_dense_elementwise_add"], [15, 4, 1, "", "jagged_dense_elementwise_add_jagged_output"], [15, 4, 1, "", "jagged_dense_elementwise_mul"], [15, 4, 1, "", "jagged_to_padded_dense"], [15, 4, 1, "", "stacked_jagged_1d_to_dense"], [15, 4, 1, "", "stacked_jagged_2d_to_dense"]]}, "objtypes": {"0": "cpp:function", "1": "cpp:functionParam", "2": "cpp:templateParam", "3": "py:module", "4": "py:function"}, "objnames": {"0": ["cpp", "function", "C++ function"], "1": ["cpp", "functionParam", "C++ function parameter"], "2": ["cpp", "templateParam", "C++ template parameter"], "3": ["py", "module", "Python module"], "4": ["py", "function", "Python function"]}, "titleterms": {"quantiz": [0, 8], "util": 0, "refer": [0, 23], "implement": 0, "method": 0, "avx": 0, "2": 0, "512": 0, "build": [1, 11, 21], "instruct": [1, 11, 12, 13], "fbgemm": [1, 24], "requir": 1, "hardwar": 1, "softwar": 1, "depend": 1, "asmjit": 1, "cpuinfo": 1, "googletest": 1, "set": [1, 11, 12, 21], "up": [1, 11, 12, 21], "an": [1, 11], "isol": [1, 11], "environ": [1, 11, 12, 13, 21], "instal": [1, 11, 12], "tool": [1, 11], "c": [1, 11, 20, 24], "compil": [1, 11], "other": [1, 11, 23], "librari": [1, 12], "prepar": [1, 11], "linux": 1, "maco": 1, "cmake": 1, "gcc": [1, 11], "issu": [1, 18], "12": 1, "clang": [1, 11], "bazel": 1, "window": 1, "embed": [2, 7, 10, 16], "oper": [2, 3, 4, 5, 6, 7, 8, 9, 10, 14, 15, 16], "cuda": [2, 4, 5, 6, 8, 9, 11, 12, 13], "cpu": [2, 4, 5, 8, 9, 11, 12], "combin": [3, 14], "input": 3, "jag": [4, 14, 15], "tensor": [4, 14, 15], "layout": 5, "transform": 5, "memori": 6, "pool": 7, "merg": 7, "permut": 7, "spars": 9, "data": 9, "tabl": [10, 16], "batch": [10, 16], "miniconda": 11, "conda": [11, 12], "onli": [11, 12], "docker": [11, 12], "imag": 11, "cudnn": 11, "rocm": [11, 12, 13], "miopen": 11, "symlink": 11, "pytorch": [11, 12], "through": [11, 12], "pip": [11, 12], "post": [11, 12], "check": [11, 12], "fbgemm_gpu": [11, 12, 13, 21, 24], "packag": [11, 12], "The": 11, "process": 11, "wheel": 11, "variabl": 11, "For": 11, "develop": [11, 24], "undefin": [11, 12], "symbol": [11, 12], "glibc": 11, "version": 11, "compat": 11, "nvidia": 12, "driver": 12, "contain": 12, "runtim": 12, "amdgpu": 12, "python": [12, 22, 24], "public": 12, "pypi": 12, "test": 13, "setup": 13, "run": 13, "variant": 13, "benchmark": 13, "high": 14, "level": 14, "overview": [14, 24], "format": 14, "valu": 14, "offset": 14, "max": 14, "length": 14, "exampl": 14, "arithmet": 14, "convers": 14, "dens": 14, "tbe": 16, "contact": 17, "u": 17, "github": 17, "slack": 17, "contribut": 18, "code": [18, 20, 22, 23], "conduct": 18, "pull": 18, "request": 18, "contributor": 18, "licens": [18, 19], "agreement": 18, "cla": 18, "ad": [20, 22, 23], "document": [20, 21, 22, 23, 24], "gener": [21, 22, 24], "guidelin": 21, "specif": 21, "guid": 21, "toolchain": 21, "lint": 21, "deploy": 21, "preview": 21, "todo": 22, "auto": 22, "sphinx": 23, "pointer": 23, "section": 23, "referenc": 23, "sourc": 23, "latex": 23, "graph": 23, "homepag": 24, "info": 24, "api": 24}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.intersphinx": 1, "sphinx.ext.todo": 2, "sphinx.ext.viewcode": 1, "sphinx": 57}, "alltitles": {"Installation Instructions": [[12, "installation-instructions"]], "Set Up CPU-Only Environment": [[12, "set-up-cpu-only-environment"]], "Set Up CUDA Environment": [[12, "set-up-cuda-environment"]], "Install NVIDIA Drivers": [[12, "install-nvidia-drivers"]], "Set Up the CUDA Docker Container and Conda Environment": [[12, "set-up-the-cuda-docker-container-and-conda-environment"]], "Install the CUDA Runtime": [[12, "install-the-cuda-runtime"]], "Set Up ROCm Environment": [[12, "set-up-rocm-environment"]], "Install AMDGPU Drivers": [[12, "install-amdgpu-drivers"]], "Set Up the ROCm Docker Container and Conda Environment": [[12, "set-up-the-rocm-docker-container-and-conda-environment"]], "Install Python Libraries": [[12, "install-python-libraries"]], "Install PyTorch": [[12, "install-pytorch"], [11, "install-pytorch"]], "Install the FBGEMM_GPU Package": [[12, "install-the-fbgemm-gpu-package"]], "Install through PyTorch PIP": [[12, "install-through-pytorch-pip"]], "Install through Public PyPI": [[12, "install-through-public-pypi"]], "Post-Installation Checks": [[12, "post-installation-checks"]], "Undefined Symbols": [[12, "undefined-symbols"]], "Test Instructions": [[13, "test-instructions"]], "Setup the FBGEMM_GPU Test Environment": [[13, "setup-the-fbgemm-gpu-test-environment"]], "Running FBGEMM_GPU Tests": [[13, "running-fbgemm-gpu-tests"]], "Testing with the CUDA Variant": [[13, "testing-with-the-cuda-variant"]], "Testing with the ROCm Variant": [[13, "testing-with-the-rocm-variant"]], "Running FBGEMM_GPU Benchmarks": [[13, "running-fbgemm-gpu-benchmarks"]], "Jagged Tensor Operators": [[14, "jagged-tensor-operators"], [15, "jagged-tensor-operators"], [4, "jagged-tensor-operators"]], "High Level Overview": [[14, "high-level-overview"]], "Jagged Tensor Format": [[14, "jagged-tensor-format"]], "Values": [[14, "values"]], "Offsets": [[14, "offsets"]], "Max Lengths": [[14, "max-lengths"]], "Jagged Tensor Example": [[14, "jagged-tensor-example"]], "Jagged Tensor Operations": [[14, "jagged-tensor-operations"]], "Arithmetic Operations": [[14, "arithmetic-operations"]], "Conversion Operations": [[14, "conversion-operations"]], "Jagged to Dense": [[14, "jagged-to-dense"]], "Dense to Jagged": [[14, "dense-to-jagged"]], "Combined Arithmetic + Conversion Operations": [[14, "combined-arithmetic-conversion-operations"]], "Sphinx Documentation Pointers": [[23, "sphinx-documentation-pointers"]], "References Other Sections of the Documentation": [[23, "references-other-sections-of-the-documentation"]], "Referencing the Source Code": [[23, "referencing-the-source-code"]], "Adding LaTeX": [[23, "adding-latex"]], "Adding Graphs": [[23, "adding-graphs"]], "Adding Documentation to Python Code": [[22, "adding-documentation-to-python-code"]], "Todo": [[22, "id1"]], "Adding Documentation to Auto-Generated Python Code": [[22, "adding-documentation-to-auto-generated-python-code"]], "Documentation": [[21, "documentation"]], "General Documentation Guidelines": [[21, "general-documentation-guidelines"]], "Specific Documentation Guides": [[21, "specific-documentation-guides"]], "Building the Documentation": [[21, "building-the-documentation"]], "Set Up Build Environment": [[21, "set-up-build-environment"]], "Build FBGEMM_GPU": [[21, "build-fbgemm-gpu"]], "Set Up the Documentation Toolchain": [[21, "set-up-the-documentation-toolchain"]], "Build the Documentation": [[21, "build-the-documentation"]], "Linting the Documentation": [[21, "linting-the-documentation"]], "Deployment Preview": [[21, "deployment-preview"]], "Table Batched Embedding (TBE) Operators": [[16, "module-fbgemm_gpu"]], "Contact Us": [[17, "contact-us"]], "GitHub": [[17, "github"]], "Slack": [[17, "slack"]], "FBGEMM and FBGEMM_GPU Documentation Homepage": [[24, "fbgemm-and-fbgemm-gpu-documentation-homepage"]], "General Info": [[24, null]], "FBGEMM Development": [[24, null]], "FBGEMM_GPU Development": [[24, null]], "FBGEMM_GPU Overview": [[24, null]], "FBGEMM C++ API": [[24, null]], "FBGEMM_GPU C++ API": [[24, null]], "FBGEMM_GPU Python API": [[24, null]], "Layout Transformation Operators": [[5, "layout-transformation-operators"]], "CUDA Operators": [[5, "cuda-operators"], [4, "cuda-operators"], [9, "cuda-operators"], [8, "cuda-operators"], [2, "cuda-operators"]], "CPU Operators": [[5, "cpu-operators"], [4, "cpu-operators"], [9, "cpu-operators"], [8, "cpu-operators"], [2, "cpu-operators"]], "Combine Input Operators": [[3, "combine-input-operators"]], "Sparse Data Operators": [[9, "sparse-data-operators"]], "Table Batched Embedding Operators": [[10, "table-batched-embedding-operators"]], "Build Instructions": [[11, "build-instructions"], [1, "build-instructions"]], "Set Up an Isolated Build Environment": [[11, "set-up-an-isolated-build-environment"], [1, "set-up-an-isolated-build-environment"]], "Install Miniconda": [[11, "install-miniconda"]], "Set Up the Conda Environment": [[11, "set-up-the-conda-environment"]], "Set Up for CPU-Only Build": [[11, "set-up-for-cpu-only-build"]], "Set Up for CUDA Build": [[11, "set-up-for-cuda-build"]], "CUDA Docker Image": [[11, "cuda-docker-image"]], "Install CUDA": [[11, "install-cuda"]], "Install cuDNN": [[11, "install-cudnn"]], "Set Up for ROCm Build": [[11, "set-up-for-rocm-build"]], "ROCm Docker Image": [[11, "rocm-docker-image"]], "Install ROCm": [[11, "install-rocm"]], "Install MIOpen": [[11, "install-miopen"]], "Install the Build Tools": [[11, "install-the-build-tools"], [1, "install-the-build-tools"]], "C/C++ Compiler (GCC)": [[11, "c-c-compiler-gcc"]], "C/C++ Compiler (Clang)": [[11, "c-c-compiler-clang"]], "Compiler Symlinks": [[11, "compiler-symlinks"]], "Other Build Tools": [[11, "other-build-tools"], [1, "other-build-tools"]], "Installation Through Conda": [[11, "installation-through-conda"]], "Installation Through PyTorch PIP": [[11, "installation-through-pytorch-pip"]], "Post-Install Checks": [[11, "post-install-checks"]], "Build the FBGEMM_GPU Package": [[11, "build-the-fbgemm-gpu-package"]], "Preparing the Build": [[11, "preparing-the-build"], [1, "preparing-the-build"]], "The Build Process": [[11, "the-build-process"]], "Set Wheel Build Variables": [[11, "set-wheel-build-variables"]], "CPU-Only Build": [[11, "cpu-only-build"]], "CUDA Build": [[11, "cuda-build"]], "ROCm Build": [[11, "rocm-build"]], "Post-Build Checks (For Developers)": [[11, "post-build-checks-for-developers"]], "Undefined Symbols Check": [[11, "undefined-symbols-check"]], "GLIBC Version Compatibility Check": [[11, "glibc-version-compatibility-check"]], "Quantization Operators": [[8, "quantization-operators"]], "CUDA Memory Operators": [[6, "cuda-memory-operators"]], "Pooled Embeddings Operators": [[7, "pooled-embeddings-operators"]], "Merge Operators": [[7, "merge-operators"]], "Permutation Operators": [[7, "permutation-operators"]], "Adding Documentation to C++ Code": [[20, "adding-documentation-to-c-code"]], "License": [[19, "license"], [18, "license"]], "Contributing": [[18, "contributing"]], "Code of Conduct": [[18, "code-of-conduct"]], "Pull Requests": [[18, "pull-requests"]], "Contributor License Agreement (\u201cCLA\u201d)": [[18, "contributor-license-agreement-cla"]], "Issues": [[18, "issues"]], "FBGEMM Requirements": [[1, "fbgemm-requirements"]], "Hardware Requirements": [[1, "hardware-requirements"]], "Software Dependencies": [[1, "software-dependencies"]], "asmjit": [[1, "asmjit"]], "cpuinfo": [[1, "cpuinfo"]], "GoogleTest": [[1, "googletest"]], "C/C++ Compiler": [[1, "c-c-compiler"]], "Build the FBGEMM Library": [[1, "build-the-fbgemm-library"]], "Building on Linux and macOS (CMake + GCC)": [[1, "building-on-linux-and-macos-cmake-gcc"]], "Build Issues with GCC 12+": [[1, "build-issues-with-gcc-12"]], "Building on Linux and macOS (CMake + Clang)": [[1, "building-on-linux-and-macos-cmake-clang"]], "Building on Linux (Bazel)": [[1, "building-on-linux-bazel"]], "Building on Windows": [[1, "building-on-windows"]], "Embedding Operators": [[2, "embedding-operators"]], "Quantization Utilities": [[0, "quantization-utilities"]], "Reference Implementation Methods": [[0, "reference-implementation-methods"]], "AVX-2 Implementation Methods": [[0, "avx-2-implementation-methods"]], "AVX-512 Implementation Methods": [[0, "avx-512-implementation-methods"]]}, "indexentries": {"findminmax (c++ function)": [[0, "_CPPv410FindMinMaxPKfPfPf7int64_t"]], "floatorhalftofusednbitrowwisequantizedsbhalf (c++ function)": [[0, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE"]], "fusedquantizedequantize (c++ function)": [[0, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif"]], "quantizegroupwise (c++ function)": [[0, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T"]], "xor128 (c++ function)": [[0, "_CPPv46Xor128v"]], "requantizeoutputprocessingavx2 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "requantizeoutputprocessinggconvavx512 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "bounds_check_indices_cuda (c++ function)": [[2, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"]], "int_nbit_split_embedding_codegen_lookup_function (c++ function)": [[2, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"]], "int_nbit_split_embedding_codegen_lookup_function_cpu (c++ function)": [[2, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function (c++ function)": [[2, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu (c++ function)": [[2, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"]], "pruned_array_lookup_cpu (c++ function)": [[2, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"]], "pruned_array_lookup_cuda (c++ function)": [[2, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_insert_unweighted_cpu (c++ function)": [[2, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_cuda (c++ function)": [[2, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_unweighted_cpu (c++ function)": [[2, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"]], "padding_fused_tbe_input_combine_cpu (c++ function)": [[3, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"]], "tbe_input_combine_cpu (c++ function)": [[3, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"]], "batched_dense_vec_jagged_2d_mul (c++ function)": [[4, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"]], "dense_to_jagged (c++ function)": [[4, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"]], "jagged_1d_to_dense (c++ function)": [[4, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"]], "jagged_2d_to_dense (c++ function)": [[4, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"]], "jagged_dense_elementwise_add (c++ function)": [[4, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output (c++ function)": [[4, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output_cuda (c++ function)": [[4, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_mul (c++ function)": [[4, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_to_padded_dense (c++ function)": [[4, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"]], "jagged_to_padded_dense_forward (c++ function)": [[4, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"]], "recat_embedding_grad_output_cuda (c++ function)": [[5, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_batch_cuda (c++ function)": [[5, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"]], "recat_embedding_grad_output_mixed_d_cpu (c++ function)": [[5, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_cuda (c++ function)": [[5, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"]], "is_uvm_tensor (c++ function)": [[6, "_CPPv413is_uvm_tensorRK6Tensor"]], "new_host_mapped_tensor (c++ function)": [[6, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor (c++ function)": [[6, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor_meta (c++ function)": [[6, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_unified_tensor (c++ function)": [[6, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb"]], "new_vanilla_managed_tensor (c++ function)": [[6, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "uvm_cuda_mem_advise (c++ function)": [[6, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t"]], "uvm_cuda_mem_prefetch_async (c++ function)": [[6, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE"]], "uvm_mem_advice_dont_fork (c++ function)": [[6, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor"]], "uvm_storage (c++ function)": [[6, "_CPPv411uvm_storageRK6Tensor"]], "uvm_to_cpu (c++ function)": [[6, "_CPPv410uvm_to_cpuRK6Tensor"]], "uvm_to_cpu_clone (c++ function)": [[6, "_CPPv416uvm_to_cpu_cloneRK6Tensor"]], "uvm_to_device (c++ function)": [[6, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor"]], "all_to_one_device (c++ function)": [[7, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"]], "permute_pooled_embs_auto_grad (c++ function)": [[7, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_cpu (c++ function)": [[7, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_gpu (c++ function)": [[7, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_split_cpu (c++ function)": [[7, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_auto_grad_split_gpu (c++ function)": [[7, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_cpu_impl (c++ function)": [[7, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb"]], "permute_pooled_embs_split_cpu (c++ function)": [[7, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_split_gpu (c++ function)": [[7, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "fp8quantizedtofloat_ref (c++ function)": [[8, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"]], "fp8rowwise_to_float_cpu (c++ function)": [[8, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"]], "floattofp8quantized_ref (c++ function)": [[8, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"]], "_fp8rowwise_to_float_gpu (c++ function)": [[8, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t"]], "_bfloat16_to_float_gpu (c++ function)": [[8, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE"]], "_float_to_fp8rowwise_gpu (c++ function)": [[8, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb"]], "_float_to_bfloat16_gpu (c++ function)": [[8, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE"]], "_float_to_fused8bitrowwise_cpu_out (c++ function)": [[8, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"]], "_float_to_fused8bitrowwise_gpu (c++ function)": [[8, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor"]], "_float_to_fusednbitrowwise_gpu (c++ function)": [[8, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "_float_to_hfp8_gpu (c++ function)": [[8, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd"]], "_float_to_msfp_gpu (c++ function)": [[8, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd"]], "_float_to_paddedfp8rowwise_gpu (c++ function)": [[8, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t"]], "_fused8bitrowwise_to_float_cpu_out (c++ function)": [[8, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"]], "_fused8bitrowwise_to_float_gpu (c++ function)": [[8, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_float_mixed_dim_gpu (c++ function)": [[8, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t"]], "_fused8bitrowwise_to_half_gpu (c++ function)": [[8, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_single_or_half_precision_gpu (c++ function)": [[8, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb"]], "_fusednbitrowwise_to_float_gpu (c++ function)": [[8, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_half_gpu (c++ function)": [[8, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_single_or_half_precision_gpu (c++ function)": [[8, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_half_to_fused8bitrowwise_gpu (c++ function)": [[8, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor"]], "_half_to_fusednbitrowwise_gpu (c++ function)": [[8, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t"]], "_hfp8_to_float_gpu (c++ function)": [[8, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_msfp_to_float_gpu (c++ function)": [[8, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t"]], "_paddedfp8rowwise_to_float_gpu (c++ function)": [[8, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t"]], "_single_or_half_precision_to_fused8bitrowwise_gpu (c++ function)": [[8, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor"]], "_single_or_half_precision_to_fusednbitrowwise_gpu (c++ function)": [[8, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "float_or_half_to_fused8bitrowwise_cpu (c++ function)": [[8, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor"]], "float_to_fp8rowwise_cpu (c++ function)": [[8, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"]], "float_to_fused8bitrowwise_cpu (c++ function)": [[8, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor"]], "fused8bitrowwise_to_float_cpu (c++ function)": [[8, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor"]], "fused8bitrowwise_to_float_or_half_cpu (c++ function)": [[8, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb"]], "fused8bitrowwise_to_half_cpu (c++ function)": [[8, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor"]], "fusednbitrowwise_to_float_cpu (c++ function)": [[8, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"]], "fusednbitrowwise_to_float_or_half_cpu (c++ function)": [[8, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"]], "fusednbitrowwise_to_half_cpu (c++ function)": [[8, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"]], "half_to_fused8bitrowwise_cpu (c++ function)": [[8, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor"]], "expand_into_jagged_permute_cuda (c++ function)": [[9, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"]], "generic_histogram_binning_calibration_by_feature_cpu (c++ function)": [[9, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"]], "histogram_binning_calibration_cpu (c++ function)": [[9, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"]], "direct_mapped_lru_cache_populate_byte_cuda (c++ function)": [[10, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "direct_mapped_lxu_cache_lookup_cuda (c++ function)": [[10, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "get_unique_indices_cuda (c++ function)": [[10, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb"]], "host_lxu_cache_slot (c++ function)": [[10, "_CPPv419host_lxu_cache_slot7int64_t7int64_t"]], "lfu_cache_populate_byte_cuda (c++ function)": [[10, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "lfu_cache_populate_cuda (c++ function)": [[10, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"]], "linearize_cache_indices_cuda (c++ function)": [[10, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t"]], "linearize_cache_indices_from_row_idx_cuda (c++ function)": [[10, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"]], "lru_cache_find_uncached_cuda (c++ function)": [[10, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"]], "lru_cache_populate_byte_cuda (c++ function)": [[10, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "lru_cache_populate_cuda (c++ function)": [[10, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"]], "lxu_cache_flush_cuda (c++ function)": [[10, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"]], "lxu_cache_locations_update_cuda (c++ function)": [[10, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"]], "lxu_cache_locking_counter_decrement_cuda (c++ function)": [[10, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"]], "lxu_cache_lookup_cuda (c++ function)": [[10, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"]], "reset_weight_momentum_cuda (c++ function)": [[10, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "batched_dense_vec_jagged_2d_mul() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul"]], "dense_to_jagged() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.dense_to_jagged"]], "jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.jagged_1d_to_dense"]], "jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.jagged_2d_to_dense"]], "jagged_dense_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_add() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.jagged_dense_elementwise_add"]], "jagged_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_mul() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.jagged_dense_elementwise_mul"]], "jagged_to_padded_dense() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.jagged_to_padded_dense"]], "stacked_jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.stacked_jagged_1d_to_dense"]], "stacked_jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[15, "torch.ops.fbgemm.stacked_jagged_2d_to_dense"]], "splittablebatchedembeddingbagscodegen() (in module fbgemm_gpu.split_table_batched_embeddings_ops)": [[16, "fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen"]], "fbgemm_gpu": [[16, "module-fbgemm_gpu"]], "module": [[16, "module-fbgemm_gpu"]], "example_method (c++ function)": [[20, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf"]], "example_method() (in module fbgemm_gpu.docs.examples)": [[22, "fbgemm_gpu.docs.examples.example_method"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["fbgemm-cpp-api/QuantUtils", "fbgemm-development/BuildInstructions", "fbgemm_gpu-cpp-api/embedding_ops", "fbgemm_gpu-cpp-api/experimental_ops", "fbgemm_gpu-cpp-api/input_combine", "fbgemm_gpu-cpp-api/jagged_tensor_ops", "fbgemm_gpu-cpp-api/layout_transform_ops", "fbgemm_gpu-cpp-api/memory_utils", "fbgemm_gpu-cpp-api/merge_pooled_embeddings", "fbgemm_gpu-cpp-api/quantize_ops", "fbgemm_gpu-cpp-api/sparse_ops", "fbgemm_gpu-cpp-api/split_table_batched_embeddings", "fbgemm_gpu-development/BuildInstructions", "fbgemm_gpu-development/InstallationInstructions", "fbgemm_gpu-development/TestInstructions", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps", "fbgemm_gpu-python-api/jagged_tensor_ops", "fbgemm_gpu-python-api/table_batched_embedding_ops", "general/ContactUs", "general/Contributing", "general/License", "general/documentation/Cpp", "general/documentation/Overview", "general/documentation/Python", "general/documentation/Sphinx", "index"], "filenames": ["fbgemm-cpp-api/QuantUtils.rst", "fbgemm-development/BuildInstructions.rst", "fbgemm_gpu-cpp-api/embedding_ops.rst", "fbgemm_gpu-cpp-api/experimental_ops.rst", "fbgemm_gpu-cpp-api/input_combine.rst", "fbgemm_gpu-cpp-api/jagged_tensor_ops.rst", "fbgemm_gpu-cpp-api/layout_transform_ops.rst", "fbgemm_gpu-cpp-api/memory_utils.rst", "fbgemm_gpu-cpp-api/merge_pooled_embeddings.rst", "fbgemm_gpu-cpp-api/quantize_ops.rst", "fbgemm_gpu-cpp-api/sparse_ops.rst", "fbgemm_gpu-cpp-api/split_table_batched_embeddings.rst", "fbgemm_gpu-development/BuildInstructions.rst", "fbgemm_gpu-development/InstallationInstructions.rst", "fbgemm_gpu-development/TestInstructions.rst", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "fbgemm_gpu-python-api/jagged_tensor_ops.rst", "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "general/ContactUs.rst", "general/Contributing.rst", "general/License.rst", "general/documentation/Cpp.rst", "general/documentation/Overview.rst", "general/documentation/Python.rst", "general/documentation/Sphinx.rst", "index.rst"], "titles": ["Quantization Utilities", "Build Instructions", "Embedding Operators", "Experimental Operators", "Combine Input Operators", "Jagged Tensor Operators", "Layout Transformation Operators", "CUDA Memory Operators", "Pooled Embeddings Operators", "Quantization Operators", "Sparse Data Operators", "Table Batched Embedding Operators", "Build Instructions", "Installation Instructions", "Test Instructions", "Jagged Tensor Operators", "Jagged Tensor Operators", "Table Batched Embedding (TBE) Operators", "Contact Us", "Contributing", "License", "Adding Documentation to C++ Code", "Documentation", "Adding Documentation to Python Code", "Sphinx Documentation Pointers", "FBGEMM and FBGEMM_GPU Documentation Homepage"], "terms": {"templat": [0, 12, 21], "typenam": [0, 21], "t": [0, 1, 3, 7, 10, 12, 17, 19, 21, 22], "layout_t": 0, "layout": [0, 25], "kcx": 0, "void": [0, 2, 7, 9, 11], "quantizegroupwis": 0, "const": [0, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 23], "float": [0, 9, 16, 17, 21, 23], "src": 0, "int": [0, 9, 16, 17, 21, 23], "k": [0, 3], "c": [0, 11, 13, 15, 20, 22, 23, 24], "x": [0, 5, 15, 21, 23], "g": [0, 1, 10, 12, 21, 23], "scale": [0, 3], "std": [0, 3, 4, 5, 6, 7, 8, 10, 11, 12, 21, 23], "int32_t": [0, 21, 23], "zero_point": 0, "dst": 0, "point": [0, 9, 16, 21, 23], "data": [0, 7, 15, 17, 20, 25], "type": [0, 1, 9, 13, 15, 16, 17, 21], "paramet": [0, 3, 7, 9, 10, 16, 17, 21, 22, 23], "output": [0, 3, 5, 9, 10, 16, 17, 21, 23], "int8_t": 0, "uint8_t": [0, 9, 11], "ar": [0, 1, 5, 11, 12, 13, 15, 16, 17, 20, 21, 22, 23], "support": [0, 1, 3, 12, 13, 15, 23, 25], "input": [0, 3, 5, 7, 9, 10, 15, 16, 17, 21, 25], "tensor": [0, 2, 3, 4, 6, 7, 8, 9, 10, 11, 17, 22, 23, 25], "kxc": 0, "correspond": [0, 10, 11, 15, 21, 23], "kcr": 0, "kctr": 0, "weight": [0, 2, 10, 11, 17], "time": [0, 1, 12, 13, 15], "dimens": [0, 3, 5, 7, 10, 15, 16, 17, 23], "krsc": 0, "ktrsc": 0, "channel": [0, 12, 13, 18], "number": [0, 1, 3, 10, 12, 15, 16, 17, 22], "r": [0, 14, 22], "": [0, 1, 7, 12, 14, 15, 19, 21, 22, 23], "group": [0, 3, 15, 21], "function": [0, 1, 12, 21, 23], "perform": [0, 1, 9, 10, 15, 25], "channelwis": 0, "1": [0, 1, 3, 10, 11, 12, 13, 14, 15, 16, 17, 22, 23, 24], "groupwis": 0, "per": [0, 15], "size": [0, 1, 3, 7, 9, 10, 15, 16, 17], "should": [0, 10, 11, 12, 13, 15, 19, 21, 22, 23], "equal": [0, 15, 23], "zero": [0, 16, 23], "reprsent": 0, "fusedquantizedequant": 0, "int64_t": [0, 2, 3, 4, 5, 6, 7, 9, 10, 11], "len": [0, 15], "tensorquantizationparam": 0, "qparam": 0, "thread_id": 0, "0": [0, 1, 9, 10, 11, 12, 13, 15, 16, 17, 23], "num_thread": 0, "noise_ratio": 0, "0f": 0, "fuse": [0, 9, 17], "integ": [0, 7, 9, 15], "dequant": 0, "kernel": [0, 1, 7, 14, 25], "acceler": 0, "awar": 0, "train": [0, 17, 25], "fp32": [0, 9, 17], "valu": [0, 5, 7, 9, 10, 11, 16, 17, 21, 22, 23], "u": [0, 12, 24, 25], "int8": [0, 17], "us": [0, 1, 3, 7, 10, 12, 14, 15, 17, 18, 19, 20, 21, 22, 23, 24, 25], "provid": [0, 1, 12, 13, 14, 20, 21, 22, 23, 25], "back": [0, 7, 11, 12, 13], "inputtyp": 0, "floatorhalftofusednbitrowwisequantizedsbhalf": 0, "bit_rat": [0, 9], "size_t": [0, 9, 21], "input_row": 0, "input_column": 0, "convert": [0, 7, 9, 15, 16, 23], "fp16": [0, 9, 17], "rowwis": [0, 9, 17], "bitrat": 0, "specifi": [0, 1, 9, 10, 12, 16, 17], "bit": [0, 9], "bia": [0, 3, 9], "each": [0, 3, 10, 12, 15, 16, 17, 23], "row": [0, 5, 11, 15, 16, 17, 23], "store": [0, 10, 11], "itself": [0, 15, 22], "end": [0, 13, 15, 24], "can": [0, 1, 9, 10, 12, 13, 15, 21, 22, 23, 24], "4": [0, 12, 13, 15, 16, 17, 23], "8": [0, 9, 12, 15, 17], "uint32_t": 0, "xor128": 0, "random": 0, "gener": [0, 1, 10, 12, 13, 21, 24], "9": [0, 12, 15, 17], "base": [0, 1, 10, 11, 12, 15], "thi": [0, 1, 5, 7, 8, 10, 12, 13, 15, 18, 19, 20, 21, 23, 24, 25], "paper": 0, "findminmax": 0, "m": [0, 12, 13, 14], "min": 0, "max": [0, 3, 17], "find": [0, 11, 12], "matrix": [0, 1, 16, 25], "bool": [0, 7, 8, 9, 11, 17], "a_symmetr": 0, "b_symmetr": 0, "quantizationgranular": 0, "q_gran": 0, "has_bia": 0, "fuse_relu": 0, "bias_typ": 0, "direct": [0, 11, 13, 20, 21, 23, 24], "fals": [0, 7, 17, 22], "requantizeoutputprocessingavx2": 0, "out": [0, 12, 18, 20, 22], "inp": 0, "block_type_t": 0, "block": [0, 21, 23, 24], "ld_out": 0, "ld_in": 0, "requantizationparams_t": 0, "requant": 0, "avx2": [0, 1], "i": [0, 1, 3, 5, 7, 9, 10, 11, 12, 13, 14, 15, 16, 17, 19, 20, 21, 22, 23, 24, 25], "c_per_g": 0, "requantizeoutputprocessinggconvavx512": 0, "avx512": 0, "note": [1, 11, 12, 13, 21, 22, 23, 24], "The": [1, 3, 7, 9, 10, 13, 14, 15, 16, 17, 19, 21, 22, 23, 24], "most": [1, 12, 13, 15, 22], "date": [1, 12, 13, 22], "embed": [1, 12, 13, 22, 25], "script": [1, 12, 13, 22], "bundl": [1, 12, 13, 22], "repo": [1, 12, 13, 22, 23], "under": [1, 12, 13, 19, 20, 22, 23], "setup_env": [1, 12, 13, 22], "bash": [1, 12, 13, 22], "step": [1, 12, 13, 15, 22, 23], "fbgemm_gpu": [1, 7, 15, 17, 18, 19, 20, 21, 23], "follow": [1, 10, 12, 13, 15, 20, 21, 22, 23], "toolchain": [1, 12, 13], "run": [1, 12, 13, 22], "cpu": [1, 7, 8, 14, 22], "higher": 1, "In": [1, 10, 12, 13, 15, 19, 21, 23], "doe": [1, 2, 13, 21, 22, 23], "have": [1, 10, 11, 12, 15, 22], "ani": [1, 10, 12, 16, 19, 20, 22, 23], "intel": 1, "mkl": 1, "howev": [1, 12, 15, 20], "comparison": 1, "some": [1, 12, 15, 22], "benchmark": 1, "If": [1, 12, 13, 17, 19, 21, 22, 23], "found": [1, 12, 13, 22], "path": [1, 12, 21, 24], "through": [1, 19, 21, 23], "intel_mkl_dir": 1, "variabl": 1, "built": [1, 12, 13, 22, 25], "report": [1, 13], "otherwis": [1, 7, 13, 20], "subset": 1, "all": [1, 10, 11, 12, 13, 15, 17, 20, 22], "three": [1, 15], "git": [1, 12], "submodul": [1, 12], "custom": [1, 24], "version": [1, 13], "desir": [1, 12, 15, 16, 21], "thei": [1, 12, 22, 24], "asmjit_src_dir": 1, "cpuinfo_src_dir": 1, "googletest_source_dir": 1, "With": 1, "inner": [1, 15], "take": [1, 12], "one": [1, 3, 9, 10, 11, 16, 17, 21, 23], "doesn": 1, "fit": [1, 20], "approach": 1, "so": [1, 10, 12, 13, 15], "implement": [1, 3, 12, 15], "dynam": 1, "effici": [1, 25], "shape": [1, 3, 15, 17], "specif": [1, 10, 12, 17, 20], "vector": [1, 4, 5, 6, 7, 8, 16, 23], "code": [1, 12, 20, 22], "third": 1, "parti": 1, "call": [1, 7, 13], "detect": [1, 14], "runtim": [1, 12], "pytorch": [1, 15, 18, 22, 23, 25], "project": [1, 19], "dispatch": [1, 7], "optim": [1, 9, 17], "test": [1, 12, 13, 19, 25], "you": [1, 19, 21, 23], "don": [1, 10, 12, 22], "want": [1, 19], "togeth": [1, 21, 22], "default": [1, 10, 12, 13, 17], "turn": [1, 22], "off": [1, 13, 18], "simpli": [1, 12], "fbgemm_build_test": 1, "conda": [1, 14, 22], "For": [1, 14, 15, 18, 20, 21, 22, 23, 24], "platform": [1, 12, 20], "machin": [1, 12, 13, 14, 25], "microsoft": [1, 9], "visual": 1, "studio": 1, "2019": 1, "newer": [1, 12], "recommend": [1, 5, 12, 13, 15], "here": [1, 7, 12, 19, 21, 22, 23, 24], "necessari": [1, 12], "ninja": [1, 12], "etc": [1, 12, 17], "n": [1, 9, 12, 13, 24], "env_nam": [1, 12, 13], "y": [1, 5, 12, 13, 16, 22], "doxygen": [1, 21, 22], "make": [1, 11, 12, 19, 21, 22, 23], "openbla": 1, "packag": [1, 14, 22], "onli": [1, 3, 10, 11, 14, 15, 19, 21, 22, 24], "clone": [1, 12], "along": [1, 12, 13], "its": [1, 7, 10, 12, 17, 20, 22, 24], "insid": [1, 12, 13, 14, 22, 24], "recurs": [1, 12], "http": [1, 12, 13, 19, 21, 22, 23], "github": [1, 12, 19], "com": [1, 12, 19], "cd": [1, 12, 14, 22], "assum": [1, 10], "process": [1, 5, 13, 15, 19, 23], "straightforward": 1, "creat": [1, 7, 12, 15, 19, 21, 23, 24], "directori": [1, 12, 14, 19, 21, 22], "mkdir": 1, "argument": [1, 10, 21, 22, 23], "build_arg": 1, "duse_sanit": 1, "address": [1, 12], "dfbgemm_library_typ": 1, "share": [1, 7], "dpython_execut": 1, "which": [1, 10, 12, 13, 15, 17, 22], "python3": [1, 13], "option": [1, 2, 5, 7, 11, 12, 16, 17], "document": [1, 7, 19, 20], "dfbgemm_build_doc": 1, "ON": [1, 20], "j": [1, 15], "verbos": 1, "As": [1, 10, 12, 13, 15], "write": [1, 12, 13, 22, 23], "fail": [1, 13, 14, 21], "due": [1, 12], "known": [1, 12, 17], "regress": 1, "To": [1, 12, 14, 24], "work": [1, 12, 13, 15, 19], "around": 1, "append": [1, 12, 21, 23], "export": [1, 12, 14], "prior": [1, 12, 13, 20], "cflag": 1, "wno": 1, "error": [1, 9, 13, 21, 22, 23], "mayb": 1, "uniniti": 1, "restrict": 1, "cxxflag": 1, "pleas": [1, 19, 21, 23], "see": [1, 7, 12, 13, 15, 21, 23, 24], "77939": 1, "1094": 1, "1666": 1, "more": [1, 7, 12, 17, 21, 23, 24], "detail": [1, 13], "exactli": 1, "same": [1, 3, 7, 10, 12, 15, 16, 21, 22, 23], "extra": 1, "need": [1, 12, 13, 14, 15, 19, 21, 23, 24], "ad": [1, 19, 22], "invoc": [1, 12, 22], "llvm": [1, 12], "standard": [1, 12], "libc": 1, "openmp": [1, 12], "libomp": 1, "locat": [1, 7, 11, 12, 15], "cc_path": 1, "cxx_path": 1, "dcmake_c_compil": 1, "dcmake_cxx_compil": 1, "dcmake_c_flag": [1, 12], "fopenmp": 1, "stdlib": [1, 12], "conda_prefix": [1, 12], "includ": [1, 8, 12, 20, 21, 23], "dcmake_cxx_flag": [1, 12], "likewis": 1, "also": [1, 12, 17, 24], "veri": [1, 12, 21, 22, 23], "target": [1, 7, 9, 10, 12, 15, 21, 22, 23, 24], "architectur": [1, 12, 13], "bc": [1, 12], "x64": 1, "program": [1, 19], "file": [1, 12, 13, 18, 19, 21, 22, 23, 24], "x86": [1, 25], "enterpris": 1, "vc": 1, "auxiliari": 1, "vcvarsal": 1, "bat": 1, "build_dir": 1, "dfbgemm_build_benchmark": 1, "dcmake_build_typ": 1, "releas": [1, 13], "cl": 1, "ex": 1, "v": [1, 3, 5, 14, 16], "int_nbit_split_embedding_codegen_lookup_funct": 2, "dev_weight": [2, 11], "uvm_weight": [2, 11], "weights_plac": [2, 11], "weights_offset": [2, 11], "weights_ti": [2, 11], "d_offset": [2, 9, 11], "total_d": [2, 11, 17], "max_int2_d": 2, "max_int4_d": 2, "max_int8_d": 2, "max_float16_d": 2, "max_float32_d": 2, "indic": [2, 11, 15, 17], "offset": [2, 5, 10, 11, 16, 17], "pooling_mod": [2, 17], "c10": [2, 5, 7, 9, 11], "indice_weight": 2, "output_dtyp": [2, 9, 17], "lxu_cache_weight": [2, 11], "lxu_cache_loc": [2, 11], "row_align": [2, 11], "max_float8_d": 2, "fp8_exponent_bit": 2, "fp8_exponent_bia": 2, "int_nbit_split_embedding_uvm_caching_codegen_lookup_funct": 2, "cache_hash_size_cumsum": [2, 11], "total_cache_hash_s": [2, 11], "cache_index_table_map": [2, 11], "lxu_cache_st": [2, 11], "lxu_stat": 2, "simlar": 2, "uvm_cach": 2, "lookup": [2, 11], "pruned_hashmap_lookup_cuda": 2, "hash_tabl": 2, "hash_table_offset": 2, "pruned_array_lookup_cuda": 2, "index_remap": 2, "index_remappings_offset": 2, "bounds_check_indices_cuda": 2, "rows_per_t": 2, "bounds_check_mod": [2, 17], "warn": [2, 17, 21], "b_ofset": 2, "max_b": [2, 11], "int_nbit_split_embedding_codegen_lookup_function_cpu": 2, "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu": 2, "pruned_hashmap_insert_unweighted_cpu": 2, "dense_indic": 2, "pruned_hashmap_lookup_unweighted_cpu": 2, "pruned_array_lookup_cpu": 2, "tupl": [3, 4, 5, 10, 11, 17], "gqa_attn_splitk_cuda": 3, "xq": 3, "cache_k": 3, "cache_v": 3, "seq_posit": 3, "doubl": [3, 5, 9, 10], "qk_scale": 3, "num_split_k": 3, "num_int4_kv_group": 3, "decod": 3, "queri": 3, "split": 3, "w": [3, 14], "bf16": [3, 9], "int4": 3, "kv": 3, "cuda": [3, 8, 17, 25], "gqa": 3, "cach": [3, 11, 12, 17], "It": [3, 12, 13, 15], "current": [3, 12, 13, 15, 17], "context": 3, "length": [3, 5, 10, 16, 17, 23], "16384": 3, "fix": [3, 10, 12], "head": 3, "128": 3, "an": [3, 7, 10, 13, 14, 15, 17, 21, 22, 23, 24], "arbitrari": 3, "b": [3, 10, 12, 15, 16, 17, 21, 22, 23, 24], "h_q": 3, "d": [3, 15, 16, 24], "where": [3, 5, 7, 10, 15, 16, 17], "batch": [3, 5, 10, 15, 16, 25], "num": 3, "max_t": 3, "h_kv": 3, "sequenc": 3, "posit": [3, 10, 17], "contain": [3, 7, 12, 15, 16, 17, 23], "actual": [3, 12], "token": [3, 15], "appli": [3, 10, 12, 15, 17], "after": [3, 10, 12, 13, 14, 15, 17, 22, 23, 24], "qk": 3, "control": 3, "amount": [3, 17], "parallel": 3, "wise": [3, 15, 17], "quantiz": [3, 25], "return": [3, 7, 9, 10, 16, 17, 21, 22, 23], "A": [3, 7, 9, 13, 15, 16, 17, 20, 21, 22, 23], "combin": [3, 25], "non": [3, 7, 17], "metadata": 3, "softmax": 3, "sum": [3, 10, 16, 17], "tbe_input_combine_cpu": 4, "indices_list": 4, "offsets_list": 4, "per_sample_weight": [4, 17], "include_last_offset": 4, "padding_fused_tbe_input_combine_cpu": 4, "batch_siz": 4, "solv": 5, "issu": [5, 7, 12, 13, 18], "when": [5, 10, 12, 14, 15, 17, 21, 22, 24], "differ": [5, 10, 15], "often": 5, "occur": [5, 21], "spars": [5, 15, 25], "featur": [5, 10, 15, 17, 18], "system": [5, 12, 13, 15], "well": [5, 10, 12, 21], "natur": [5, 15], "languag": [5, 15, 24], "jagged_to_padded_dense_forward": 5, "symintarrayref": 5, "max_length": [5, 16], "padding_valu": [5, 16], "jagged_dense_elementwise_add_jagged_output_cuda": 5, "x_valu": [5, 16], "x_offset": [5, 16, 23], "dens": [5, 16, 23], "jagged_to_padded_dens": [5, 16], "jagged_dense_elementwise_add": [5, 16], "jagged_dense_elementwise_mul": [5, 16], "batched_dense_vec_jagged_2d_mul": [5, 16], "a_valu": [5, 16], "a_offset": [5, 16], "dense_to_jag": [5, 16], "symint": 5, "total_l": [5, 16], "jagged_dense_elementwise_add_jagged_output": [5, 16], "jagged_1d_to_dens": [5, 16], "max_l": 5, "jagged_2d_to_dens": [5, 12, 13, 16, 22, 23], "max_sequence_length": [5, 16, 23], "recat_embedding_grad_output_cuda": 6, "grad_output": 6, "num_features_per_rank": 6, "recat_embedding_grad_output_mixed_d_cuda": 6, "dim_sum_per_rank": 6, "recat_embedding_grad_output_mixed_d_batch_cuda": 6, "cumsum_dim_sum_per_rank": 6, "recat_embedding_grad_output_mixed_d_cpu": 6, "new_managed_tensor": 7, "self": 7, "alloc": [7, 21], "unifi": 7, "manag": [7, 12, 13, 17], "uvm": [7, 14], "Then": 7, "set": [7, 11, 14, 15, 16, 17], "prefer": [7, 13], "storag": [7, 9, 11], "host": [7, 12], "establish": 7, "map": [7, 10, 11, 15, 17], "devic": [7, 8, 12, 14, 17], "new": [7, 9, 11, 21, 22, 23], "new_managed_tensor_meta": 7, "placehold": 7, "meta": [7, 20], "kei": 7, "empti": [7, 15, 16, 24], "new_host_mapped_tensor": 7, "new_unified_tensor": 7, "is_host_map": 7, "either": [7, 9, 10, 12, 13], "whether": [7, 12, 20], "depend": [7, 9, 12, 13, 15], "new_vanilla_managed_tensor": 7, "allow": [7, 12], "automat": [7, 10, 14, 22], "uvm_storag": 7, "check": [7, 17], "gpu": [7, 12, 13, 14, 25], "true": [7, 17], "is_uvm_tensor": 7, "BUT": [7, 20], "uvm_to_cpu": 7, "effect": [7, 15], "move": 7, "from": [7, 9, 10, 11, 12, 13, 14, 15, 17, 19, 20, 21, 22, 23, 24], "uvm_to_devic": 7, "prototyp": 7, "whose": 7, "uvm_cuda_mem_advis": 7, "cuda_memory_advis": 7, "cudamemadvis": 7, "cudamemoryadvis": 7, "enum": [7, 9], "avail": [7, 12, 14, 22], "python": [7, 12, 14, 21, 22, 24], "side": [7, 21, 23, 25], "namespac": 7, "over": [7, 12], "valid": 7, "inform": [7, 15, 23, 24], "uvm_cuda_mem_prefetch_async": 7, "device_t": 7, "cudamemprefetchasync": 7, "prefetch": 7, "destin": 7, "uvm_mem_advice_dont_fork": 7, "madvis": 7, "madv_dontfork": 7, "workaround": 7, "driver": [7, 12], "un": 7, "page": [7, 19, 24, 25], "tabl": [7, 10, 15, 25], "fork": [7, 19], "caus": [7, 12, 13, 20, 22], "slowdown": 7, "next": [7, 15, 21, 23], "access": [7, 17], "uvm_to_cpu_clon": 7, "copi": 7, "contigu": [7, 10], "singl": [7, 9], "thread": 7, "memcpi": 7, "section": [8, 12, 23], "variou": 8, "all_to_one_devic": 8, "inputtensor": 8, "target_devic": 8, "permute_pooled_embs_split_gpu": 8, "pooled_emb": 8, "offset_dim_list": 8, "permute_list": 8, "inv_offset_dim_list": 8, "inv_permute_list": 8, "permute_pooled_embs_auto_grad_split_gpu": 8, "permute_pooled_embs_auto_grad_gpu": 8, "permute_pooled_embs_cpu_impl": 8, "allow_dupl": 8, "permute_pooled_embs_split_cpu": 8, "permute_pooled_embs_auto_grad_split_cpu": 8, "permute_pooled_embs_auto_grad": 8, "permute_pooled_embs_auto_grad_cpu": 8, "model": [9, 10], "techniqu": 9, "reduc": 9, "larg": [9, 12], "order": [9, 15, 19], "achiev": [9, 13], "better": [9, 21], "small": 9, "loss": [9, 20], "accuraci": 9, "_float_to_bfloat16_gpu": 9, "brain": 9, "bfloat16": 9, "_bfloat16_to_float_gpu": 9, "_float_to_fp8rowwise_gpu": 9, "forward": 9, "fp8": 9, "dtype": [9, 17], "sparsetyp": [9, 17], "throw": [9, 21], "_fp8rowwise_to_float_gpu": 9, "represent": [9, 15], "_float_to_fused8bitrowwise_gpu": 9, "_half_to_fused8bitrowwise_gpu": 9, "half": 9, "_single_or_half_precision_to_fused8bitrowwise_gpu": 9, "_fused8bitrowwise_to_float_gpu": 9, "_fused8bitrowwise_to_half_gpu": 9, "_fused8bitrowwise_to_single_or_half_precision_gpu": 9, "scale_bias_last": 9, "quant_padding_float_typ": 9, "_fused8bitrowwise_to_float_mixed_dim_gpu": 9, "kfloat": 9, "khalf": 9, "_float_to_fusednbitrowwise_gpu": 9, "_half_to_fusednbitrowwise_gpu": 9, "_single_or_half_precision_to_fusednbitrowwise_gpu": 9, "_fusednbitrowwise_to_float_gpu": 9, "_fusednbitrowwise_to_half_gpu": 9, "_fusednbitrowwise_to_single_or_half_precision_gpu": 9, "_float_to_hfp8_gpu": 9, "ebit": 9, "exponent_bia": 9, "max_po": 9, "hybrid": 9, "hfp8": 9, "_hfp8_to_float_gpu": 9, "_float_to_msfp_gpu": 9, "bounding_box_s": 9, "mbit": 9, "min_po": 9, "msfp": 9, "_msfp_to_float_gpu": 9, "_float_to_paddedfp8rowwise_gpu": 9, "row_dim": 9, "pad": [9, 15, 16, 23], "_paddedfp8rowwise_to_float_gpu": 9, "output_last_dim": 9, "_fused8bitrowwise_to_float_cpu_out": 9, "_float_to_fused8bitrowwise_cpu_out": 9, "float_to_fused8bitrowwise_cpu": 9, "half_to_fused8bitrowwise_cpu": 9, "float_or_half_to_fused8bitrowwise_cpu": 9, "fused8bitrowwise_to_float_cpu": 9, "fused8bitrowwise_to_half_cpu": 9, "fused8bitrowwise_to_float_or_half_cpu": 9, "float_to_fp8rowwise_cpu": 9, "fp8rowwise_to_float_cpu": 9, "fusednbitrowwise_to_float_cpu": 9, "fusednbitrowwise_to_half_cpu": 9, "fusednbitrowwise_to_float_or_half_cpu": 9, "floattofp8quantized_ref": 9, "nrow": 9, "ncol": 9, "fp8quantizedtofloat_ref": 9, "expand_into_jagged_permute_cuda": 10, "permut": 10, "input_offset": 10, "output_offset": 10, "output_s": 10, "expand_into_jagged_permut": 10, "expand": 10, "index": [10, 11, 12, 13, 15, 21, 23], "case": [10, 12, 13, 15, 19], "ha": [10, 13, 15, 19, 21, 22], "across": [10, 12], "rank": [10, 15], "level": 10, "exclus": 10, "op": [10, 13, 16, 23], "bag": [10, 17, 25], "sit": 10, "we": [10, 12, 15, 19], "deriv": [10, 15, 20], "arrai": [10, 16, 23], "comput": [10, 12, 13, 17], "formula": 10, "output_permut": 10, "table_offset": 10, "bag_offset": 10, "histogram_binning_calibration_cpu": 10, "logit": 10, "bin_num_exampl": 10, "bin_num_posit": 10, "positive_weight": 10, "lower_bound": 10, "upper_bound": 10, "bin_ctr_in_use_aft": 10, "bin_ctr_weight_valu": 10, "divid": [10, 15], "predict": 10, "rang": [10, 15], "e": [10, 12, 15, 21, 23, 24], "bin": [10, 12], "two": [10, 15, 16, 17, 22], "exampl": [10, 12, 13, 14, 16, 17, 21, 22, 23, 24], "fall": [10, 12, 13], "bucket": [10, 12], "basic": [10, 23], "histogram": 10, "result": [10, 12, 16], "statist": 10, "real": 10, "ctr": 10, "num_po": 10, "num_exampl": 10, "final": 10, "calibr": 10, "pre": [10, 12, 13], "cali": 10, "wai": [10, 20], "within": 10, "suffici": [10, 19, 22], "That": 10, "fine": 10, "grain": 10, "modul": [10, 13, 17, 23], "theoret": 10, "layer": 10, "uncalibr": 10, "befor": [10, 12, 17, 24], "sigmoid": 10, "calibart": 10, "pass": [10, 17, 19, 22], "lower": 10, "bound": [10, 15], "calibration_target": 10, "observ": 10, "statisct": 10, "final_calibrated_predict": 10, "bin_ctr_weight": 10, "bin_ctr": 10, "calibrated_predict": 10, "bin_id": 10, "generic_histogram_binning_calibration_by_feature_cpu": 10, "segment_valu": 10, "segment_length": 10, "num_seg": 10, "bin_boundari": 10, "extens": [10, 21, 22], "ectr": 10, "abov": [10, 13, 15, 20, 21, 23, 24], "accept": [10, 19], "sort": [10, 11, 12], "keyjaggedtensor": 10, "num_bin": 10, "longer": [10, 18, 21], "still": [10, 12], "parambin_ctr_weight_valu": 10, "get_unique_indices_cuda": 11, "linear_indic": 11, "max_indic": 11, "compute_count": 11, "dedupl": 11, "pair": [11, 24], "lru_cache_find_uncached_cuda": 11, "unique_indic": 11, "unique_indices_length": 11, "time_stamp": 11, "lru_stat": 11, "gather_cache_stat": 11, "uvm_cache_stat": 11, "lock_cache_lin": 11, "lxu_cache_locking_count": 11, "lru": [11, 17], "uncach": 11, "them": 11, "host_lxu_cache_slot": 11, "h_in": 11, "cache_set": [11, 17], "linearize_cache_indices_cuda": 11, "b_offset": 11, "linear": 11, "uniqu": [11, 24], "linearize_cache_indices_from_row_idx_cuda": 11, "update_table_indic": 11, "update_row_indic": 11, "format": [11, 22, 23], "inplac": 11, "updat": [11, 12, 13, 17, 19], "lru_cache_populate_cuda": 11, "hash_size_cumsum": 11, "linear_cache_indic": 11, "stochastic_round": [11, 17], "fetch": 11, "insert": [11, 24], "timestep": 11, "lru_cache_populate_byte_cuda": 11, "byte": 11, "element": [11, 15], "direct_mapped_lru_cache_populate_byte_cuda": 11, "lxu_cache_miss_timestamp": 11, "assoc": 11, "variant": [11, 12, 13, 22], "lfu_cache_populate_cuda": 11, "lfu_stat": 11, "lfu": [11, 17], "lfu_cache_populate_byte_cuda": 11, "lxu_cache_lookup_cuda": 11, "invalid_index": 11, "num_uniq_cache_indic": 11, "lxu_cache_locations_output": 11, "look": [11, 17], "up": [11, 17], "slot": 11, "sentinel": 11, "miss": [11, 12], "direct_mapped_lxu_cache_lookup_cuda": 11, "lxu_cache_flush_cuda": 11, "flush": 11, "reset_weight_momentum_cuda": 11, "momentum1_dev": 11, "momentum1_uvm": 11, "momentum1_plac": 11, "momentum1_offset": 11, "pruned_indic": 11, "pruned_indices_offset": 11, "logical_table_id": 11, "buffer_id": 11, "lxu_cache_locking_counter_decrement_cuda": 11, "decrement": 11, "counter": 11, "lxu_cache_locations_update_cuda": 11, "lxu_cache_locations_new": 11, "fbgemm": [12, 13, 16, 18, 19, 20, 22, 23], "reproduc": [12, 13, 19, 20], "platform_nam": 12, "unam": 12, "prefix": [12, 24], "miniconda_prefix": 12, "home": 12, "download": [12, 13], "wget": 12, "q": 12, "anaconda": 12, "miniconda3": 12, "latest": 12, "sh": 12, "o": [12, 13], "p": 12, "load": [12, 15, 23], "shortcut": 12, "bashrc": 12, "command": [12, 13, 21, 22], "against": [12, 14], "env": [12, 13], "name": [12, 13, 20, 21, 23], "python_vers": 12, "3": [12, 15, 16, 17, 20, 23], "12": [12, 15, 17], "upgrad": 12, "pyopenssl": 12, "22": [12, 15], "requir": [12, 13, 14, 15, 17, 22, 23], "recent": [12, 13], "nvcc": 12, "capabl": [12, 14], "5": [12, 15, 17], "done": [12, 13], "bare": 12, "metal": 12, "neither": [12, 20], "nor": [12, 20], "nvidia": 12, "present": [12, 23], "sinc": [12, 15], "setup": [12, 13], "pull": [12, 13, 22], "linux": [12, 13], "distribut": [12, 20], "ubuntu": 12, "04": 12, "11": [12, 13, 15], "entrypoint": 12, "devel": 12, "ubuntu22": 12, "rest": [12, 13], "mai": [12, 13, 15, 20], "construct": [12, 13, 15], "mechan": 12, "full": [12, 13, 24], "nvml": 12, "org": [12, 13, 23], "cuda_vers": 12, "label": 12, "verifi": [12, 13, 21, 23], "cuda_runtim": 12, "h": [12, 16, 21], "libnvidia": [12, 13], "ml": [12, 13], "printenv": 12, "extract": 12, "given": [12, 15, 16], "url": [12, 13], "builder": 12, "blob": 12, "main": [12, 19], "common": [12, 13, 15, 23], "install_cuda": 12, "cudnn_url": 12, "redist": 12, "x86_64": 12, "2": [12, 13, 15, 16, 17, 21, 23, 24], "26_cuda12": 12, "archiv": 12, "tar": 12, "xz": 12, "unpack": 12, "xvf": 12, "amd": [12, 13], "minim": 12, "6": [12, 13, 15], "termin": 12, "while": [12, 22], "come": 12, "reason": [12, 13, 22], "oper": [12, 13, 25], "guid": [12, 23], "disabl": 12, "apt": 12, "prompt": 12, "debian_frontend": 12, "noninteract": 12, "db": 12, "radeon": 12, "amdgpu": 12, "focal": 12, "install_5": 12, "50601": 12, "1_all": 12, "deb": 12, "usecas": 12, "hiplibsdk": 12, "dkm": 12, "hipifi": 12, "hip": 12, "dev": 12, "20": 12, "sysroot": 12, "avoid": 12, "glibcxx": 12, "fbgemm_cpu": 12, "10": [12, 13, 15], "keep": 12, "older": [12, 13], "gcc_version": 12, "15": 12, "7": [12, 13, 15, 16, 17], "forg": [12, 22], "gxx_linux": 12, "64": [12, 15], "sysroot_linux": 12, "17": 12, "binari": [12, 20], "cento": 12, "stream": 12, "becaus": [12, 15], "librari": [12, 22, 25], "refer": [12, 15, 22, 23], "libstdc": 12, "what": [12, 22], "libcxx_path": 12, "print": [12, 13, 17, 23], "objdump": 12, "tc": 12, "grep": 12, "glibc_": 12, "sed": 12, "vu": 12, "cat": 12, "glibcxx_": 12, "possibl": [12, 15, 19, 20], "just": 12, "do": [12, 13, 19], "llvm_version": 12, "libcxx": 12, "outdat": 12, "aarch64": [12, 13], "cannot": 12, "explicitli": 12, "clangxx": 12, "rt": 12, "lib": [12, 13], "ld_library_path": [12, 13], "config": 12, "var": 12, "nvcc_prepend_flag": 12, "correctli": [12, 13, 14, 21, 22], "xcompil": 12, "ccbin": 12, "clangxx_path": 12, "unsupport": 12, "even": [12, 20], "though": [12, 13], "libstd": 12, "being": [12, 22], "mean": [12, 15, 17], "regardless": 12, "scenario": 12, "first": [12, 21, 23, 24], "binpath": 12, "overrid": 12, "exist": [12, 21, 23], "ln": 12, "sf": 12, "path_to_either_gcc_or_clang": 12, "cc": 12, "These": 12, "later": 12, "configur": [12, 21], "stage": [12, 15], "cmake": 12, "click": 12, "hypothesi": [12, 13], "jinja2": 12, "ncurs": 12, "numpi": [12, 13], "scikit": [12, 13], "offici": 12, "homepag": 12, "authorit": [12, 13, 22], "how": [12, 13, 14, 23], "nightli": [12, 13], "rc": 12, "without": [12, 20], "alwai": 12, "reliabl": 12, "arriv": 12, "hour": 12, "than": [12, 15], "window": 12, "silent": 12, "both": [12, 18, 20, 22], "place": [12, 17], "artifact": 12, "select": 12, "dure": [12, 15, 17, 23], "thu": [12, 17], "import": [12, 13, 17, 23, 24], "much": [12, 21], "determinist": 12, "torch": [12, 13, 16, 17, 22, 23], "whl": [12, 13], "cu121": [12, 13], "rocm5": [12, 13], "ensur": [12, 13, 19], "properli": 12, "__version__": 12, "minimum": [12, 21, 22, 23], "cuda_cmake_macro": 12, "txt": [12, 14, 22, 24], "tag": [12, 21, 24], "fbgemm_vers": 12, "v0": 12, "fbgemm_": 12, "addit": [12, 14, 15, 16], "flow": 12, "state": 12, "becom": 12, "stale": 12, "problem": 12, "re": [12, 13], "attempt": 12, "failur": [12, 13], "clear": [12, 19], "py": [12, 13, 14, 22, 23], "clean": [12, 22], "must": [12, 13, 14, 15, 17, 20, 24], "package_nam": 12, "fbgemm_gpu_": 12, "convent": 12, "major": 12, "minor": 12, "py312": 12, "python_tag": 12, "determin": [12, 15], "processor": 12, "arch": 12, "python_plat_nam": 12, "manylinux2014_": 12, "maco": 12, "macosx_10_9_": 12, "arm64": 12, "macosx_11_0_": 12, "win_": 12, "cpu_onli": 12, "flag": [12, 22], "bdist_wheel": 12, "package_vari": 12, "plat": 12, "instead": [12, 22], "cxxprefix": 12, "presum": 12, "made": [12, 22], "presenc": 12, "similar": [12, 15, 17], "enabl": [12, 14], "been": [12, 21], "unabl": 12, "cudacxx": 12, "cuda_bin_path": 12, "cub": 12, "applic": [12, 17, 21, 23], "cub_dir": 12, "header": [12, 21, 24], "cudnn_include_dir": 12, "cudnn_librari": 12, "nvml_lib_path": 12, "sm70": [12, 13], "80": 12, "v100": [12, 13], "a100": [12, 13], "cuda_arch_list": 12, "unset": 12, "torch_cuda_arch_list": 12, "preced": 12, "dtorch_cuda_arch_list": 12, "rocm_path": 12, "pytorch_rocm_arch": 12, "gfx906": 12, "gfx908": 12, "gfx90a": 12, "wiki": 12, "gentoo": 12, "list": [12, 15, 16, 17, 20, 21, 23], "rocminfo": 12, "gfx": 12, "dhip_root_dir": 12, "dtorch_use_hip_dsa": 12, "complet": [12, 19, 22], "correct": 12, "lot": 12, "jinja": 12, "instanti": 12, "sure": [12, 19, 21, 23], "accident": 12, "cours": 12, "fbgemm_gpu_lib_path": 12, "fbgemm_gpu_pi": [12, 13], "defin": [12, 15, 21], "nm": 12, "gdcu": 12, "referenc": 12, "certain": 12, "gdc": 12, "merge_pooled_embed": [12, 13], "isol": [13, 22], "build": [13, 14, 21, 23, 25], "sm80": 13, "respect": 13, "other": [13, 15, 20, 21, 22, 23], "scratch": 13, "guarante": 13, "especi": 13, "displai": [13, 24], "smi": 13, "515": 13, "76": 13, "persist": 13, "bu": [13, 24], "id": 13, "disp": 13, "volatil": 13, "uncorr": 13, "ecc": 13, "fan": 13, "temp": 13, "perf": 13, "pwr": 13, "usag": [13, 22, 23], "cap": 13, "memori": [13, 17, 25], "util": [13, 25], "mig": 13, "a10g": 13, "00000000": 13, "00": 13, "1e": 13, "31c": 13, "p0": 13, "59w": 13, "300w": 13, "0mib": 13, "23028mib": 13, "gi": 13, "ci": 13, "pid": 13, "No": 13, "expos": 13, "onc": [13, 19], "imag": 13, "launch": 13, "alreadi": [13, 19, 21, 23], "toolkit": 13, "interfac": 13, "concis": 13, "info": [13, 21, 23], "dieedg": 13, "avgpwr": 13, "sclk": 13, "mclk": 13, "pwrcap": 13, "vram": 13, "33": 13, "0c": 13, "37": 13, "0w": 13, "300mhz": 13, "1200mhz": 13, "auto": [13, 22], "290": 13, "32": 13, "39": 13, "log": 13, "difficult": 13, "relev": [13, 21], "link": [13, 22], "encount": 13, "signatur": [13, 22], "traceback": 13, "last": 13, "root": [13, 19], "miniconda": 13, "mycondaenv": 13, "site": 13, "_op": [13, 22], "line": [13, 23, 24], "565": 13, "__getattr__": 13, "overload_nam": 13, "_c": 13, "_jit_get_oper": 13, "qualified_op_nam": 13, "runtimeerror": 13, "except": [13, 21, 23], "wa": 13, "string": [13, 24], "post47": 13, "py3": 13, "egg": 13, "__init__": [13, 23], "21": 13, "_fbgemm_gpu_doc": 13, "noqa": 13, "f401": 13, "e402": 13, "18": 13, "569": 13, "rais": [13, 23], "attributeerror": [13, 23], "_opnamespac": 13, "object": [13, 15], "attribut": [13, 23], "cli": 13, "main_run": 13, "execut": [13, 14], "47": 13, "_zn6fbgemm48floatorhalftofusednbitrowwisequantizedsbhalfavx2itli2eeevpkt_miph": 13, "appear": 13, "libtorch": 13, "visibl": 13, "incorrectli": [13, 22], "declar": [13, 21], "were": [13, 16], "pr": [13, 21, 22, 23], "1618": 13, "former": 13, "resolv": 13, "manual": [13, 21], "latter": 13, "seriou": 13, "tha": 13, "develop": [13, 22], "bench": 14, "good": [14, 20], "instal": [14, 22, 25], "pip": [14, 22], "pytest": 14, "rsx": 14, "ignor": [14, 17, 22], "pytestcollectionwarn": 14, "split_table_batched_embeddings_test": 14, "quantize_ops_test": 14, "sparse_ops_test": 14, "split_embedding_inference_converter_test": 14, "mode": [14, 17], "cuda_visible_devic": 14, "debug": 14, "cuda_launch_block": 14, "fbgemm_test_with_rocm": 14, "hip_launch_block": 14, "split_table_batched_embeddings_benchmark": 14, "purpos": [15, 16, 17, 20], "handl": 15, "consecut": 15, "nestedtensor": 15, "raggedtensor": 15, "tensorflow": 15, "notabl": 15, "sentenc": 15, "repres": 15, "maxlength": 15, "2d": [15, 16, 17, 23], "numel": 15, "greatest": 15, "divisor": 15, "smallest": 15, "sub": 15, "exclud": 15, "partit": 15, "impli": [15, 20], "denot": [15, 21, 23], "offest": 15, "outer": 15, "would": 15, "begin": 15, "maximum": [15, 16, 23], "between": [15, 21, 22, 24], "normal": 15, "densor": 15, "form": [15, 20], "figur": 15, "below": 15, "show": [15, 22], "accomod": 15, "logic": [15, 21], "At": [15, 21, 22, 23], "multipl": [15, 16, 17, 23, 25], "hadamard": 15, "product": [15, 20], "involv": 15, "bmatrix": 15, "rightarrow": 15, "16": 15, "25": 15, "36": 15, "49": 15, "81": 15, "50": 15, "operand": 15, "word": 15, "ax": 15, "properti": 15, "hold": 15, "elementwis": [15, 16], "equival": 15, "start": [15, 16, 23, 24], "dim": 15, "onto": 15, "part": 15, "everi": 15, "those": [15, 16, 19, 23], "converson": 15, "could": 15, "lead": 15, "read": [15, 17], "relat": 15, "smaller": 15, "expect": 15, "happen": 15, "give": 15, "situat": 15, "like": 15, "dense_tensor": 15, "jagged_tensor": 15, "break": 15, "exact": 15, "usual": 15, "1d": [16, 17, 23], "area": 16, "outsid": 16, "coverag": 16, "total": [16, 17], "identit": 16, "add": [16, 19, 21, 22, 23], "structur": 16, "jagged_dense_dense_elementwise_add_jagged_output": 16, "y_0": 16, "y_1": 16, "multipli": [16, 17], "max_n": 16, "matmul": 16, "stacked_jagged_1d_to_dens": 16, "arg": [16, 23], "kwarg": 16, "stacked_jagged_2d_to_dens": 16, "split_table_batched_embeddings_op": 17, "splittablebatchedembeddingbagscodegen": 17, "embedding_spec": 17, "feature_table_map": 17, "none": 17, "cache_algorithm": 17, "cachealgorithm": 17, "cache_load_factor": 17, "cache_reserved_memori": 17, "cache_precis": 17, "weights_precis": 17, "enforce_hbm": 17, "optimtyp": 17, "exact_sgd": 17, "record_cache_metr": 17, "gradient_clip": 17, "max_gradi": 17, "learning_r": 17, "01": 17, "ep": 17, "0e": 17, "momentum": 17, "weight_decai": 17, "weight_decay_mod": 17, "weightdecaymod": 17, "eta": 17, "001": 17, "beta1": 17, "beta2": 17, "999": 17, "poolingmod": 17, "boundscheckmod": 17, "sourc": [17, 19, 20, 21, 22, 23], "backward": 17, "embeddingloc": 17, "computedevic": 17, "spec": 17, "placement": 17, "lxu": 17, "algorithm": 17, "capac": 17, "reserv": [17, 20], "hbm": 17, "adam": 17, "exact_adagrad": 17, "exact_rowwise_adagrad": 17, "lamb": 17, "lars_sgd": 17, "partial_rowwise_adam": 17, "partial_rowwise_lamb": 17, "sgd": 17, "recordcachemetr": 17, "record": 17, "hit": 17, "request": [17, 18, 22], "record_cache_miss_count": 17, "metric": 17, "record_tablewise_cache_miss": 17, "stochast": 17, "round": 17, "gradient": 17, "clip": 17, "learn": 17, "rate": 17, "epsilon": 17, "adagrad": 17, "lar": 17, "decai": 17, "l2": 17, "decoupl": 17, "pool": [17, 25], "boundari": 17, "fatal": 17, "conatin": 17, "column": 17, "feature_requires_grad": 17, "split_table_batched_embeddings_ops_common": 17, "split_table_batched_embeddings_ops_train": 17, "init_embedding_weights_uniform": 17, "split_embedding_weight": 17, "9426": 17, "7046": 17, "4214": 17, "0419": 17, "1331": 17, "7856": 17, "8124": 17, "2021": 17, "5771": 17, "5911": 17, "7792": 17, "1068": 17, "6203": 17, "4813": 17, "1677": 17, "4790": 17, "5587": 17, "0941": 17, "5754": 17, "3475": 17, "8952": 17, "1964": 17, "0810": 17, "4174": 17, "2513": 17, "4039": 17, "3775": 17, "3273": 17, "5399": 17, "0229": 17, "1455": 17, "8770": 17, "9520": 17, "4593": 17, "7169": 17, "6307": 17, "1765": 17, "8757": 17, "8614": 17, "2051": 17, "0603": 17, "9980": 17, "7958": 17, "5826": 17, "long": 17, "13": 17, "5197": 17, "2957": 17, "3578": 17, "1487": 17, "4873": 17, "3044": 17, "9801": 17, "2769": 17, "7164": 17, "8528": 17, "7159": 17, "6719": 17, "0784": 17, "2016": 17, "2176": 17, "1988": 17, "3825": 17, "5008": 17, "8991": 17, "1405": 17, "2637": 17, "9427": 17, "8902": 17, "3754": 17, "5013": 17, "6105": 17, "9968": 17, "3057": 17, "7621": 17, "9821": 17, "7314": 17, "6195": 17, "grad_fn": 17, "cppnode": 17, "splitlookupfunction_sgd_op": 17, "question": 18, "concern": 18, "discuss": 18, "kick": 18, "regard": 18, "feel": 18, "free": 18, "reach": 18, "easi": 19, "transpar": 19, "describ": 19, "activ": 19, "welcom": [19, 25], "your": [19, 22, 23], "repositori": 19, "branch": 19, "ve": 19, "chang": [19, 21, 23], "api": [19, 21, 22, 23], "suit": 19, "lint": 19, "haven": 19, "submit": [19, 21, 23], "facebook": [19, 20, 25], "open": 19, "track": 19, "public": [19, 22], "bug": 19, "descript": [19, 21, 22, 23, 24], "instruct": [19, 21, 22, 23, 25], "abl": 19, "bounti": 19, "safe": 19, "disclosur": 19, "secur": 19, "go": 19, "outlin": 19, "By": 19, "agre": 19, "tree": 19, "claus": 20, "bsd": 20, "softwar": 20, "copyright": 20, "inc": 20, "affili": 20, "right": [20, 24], "redistribut": 20, "modif": 20, "permit": 20, "condit": 20, "met": 20, "retain": 20, "notic": 20, "disclaim": 20, "materi": 20, "contributor": 20, "endors": 20, "promot": 20, "written": 20, "permiss": 20, "BY": 20, "THE": 20, "holder": 20, "AND": 20, "AS": 20, "express": [20, 24], "OR": 20, "warranti": 20, "NOT": 20, "limit": [20, 22], "TO": 20, "OF": 20, "merchant": 20, "FOR": 20, "particular": 20, "IN": 20, "NO": 20, "event": 20, "shall": 20, "BE": 20, "liabl": 20, "indirect": 20, "incident": 20, "special": 20, "exemplari": 20, "consequenti": 20, "damag": 20, "procur": 20, "substitut": 20, "servic": 20, "profit": 20, "busi": 20, "interrupt": 20, "theori": 20, "liabil": 20, "contract": 20, "strict": 20, "tort": 20, "neglig": 20, "aris": 20, "IF": 20, "advis": 20, "SUCH": 20, "javadoc": 21, "style": [21, 23], "comment": [21, 22, 24], "sphinx": [21, 22, 23], "breath": 21, "kept": 21, "cpp": [21, 23, 24], "cu": 21, "cuh": 21, "everyth": 21, "ifndef": 21, "doxygen_this_will_be_skip": 21, "endif": 21, "hidden": 21, "html": [21, 22, 23], "descriptionss": 21, "publish": [21, 23], "docstr": [21, 22, 23], "method": [21, 22, 23], "organ": 21, "yet": 21, "top": [21, 25], "defgroup": 21, "directli": [21, 23], "behavior": [21, 23], "tparam": 21, "param": [21, 23], "thrown": [21, 23], "ingroup": 21, "brief": 21, "short": 21, "example_method": [21, 23], "def": [21, 23], "foo": [21, 23], "lst": [21, 23], "And": [21, 23], "verbatim": [21, 23], "text": [21, 23, 24], "diagram": [21, 23], "unpars": 21, "second": [21, 23], "prev": [21, 23], "usabl": [21, 23], "space": [21, 22, 23], "endcod": 21, "align": [21, 23], "param1": [21, 23], "param2": 21, "bad_alloc": 21, "logic_error": 21, "href": 21, "www": [21, 23], "nl": 21, "cmdlink": 21, "On": [21, 23], "doxygengroup": 21, "rst": [21, 23, 24], "content": [21, 24, 25], "toctre": [21, 23], "ini": 21, "taken": 21, "care": 21, "doc": [21, 22, 23, 24], "local": [21, 23], "netlifi": [21, 22, 23], "preview": [21, 23], "serv": 22, "accompani": 22, "put": 22, "yourself": 22, "shoe": 22, "who": 22, "understand": 22, "live": 22, "easier": 22, "leav": 22, "separ": 22, "task": 22, "pointer": 22, "tool": 22, "graphviz": [22, 24], "assembl": 22, "view": 22, "prepend": 22, "sphinx_lint": 22, "technic": 22, "why": 22, "invok": 22, "occasion": 22, "unresolv": 22, "might": 22, "opt": 22, "pycapsul": 22, "class": [22, 23], "neg": 22, "silenc": 22, "nitpick": 22, "conf": 22, "domain": 22, "deploi": 22, "app": 22, "googl": 23, "c_size_t": 23, "about": 23, "ret": 23, "emplace_back": 23, "item": 23, "valueerror": 23, "14": 23, "restructuredtext": 23, "en": 23, "master": 23, "__": 23, "pep": 23, "0287": 23, "42": 23, "autofunct": 23, "c_ulong": 23, "mani": 23, "attach": 23, "fact": 23, "helper": 23, "codebas": 23, "add_doc": 23, "jag": [23, 25], "forc": 23, "hoc": 23, "the_new_doc_modul": 23, "remain": 23, "render": [23, 24], "anchor": 24, "_doc": 24, "underscor": 24, "_": 24, "There": 24, "elsewher": 24, "ref": 24, "anoth": 24, "literalinclud": 24, "rel": 24, "enclos": 24, "bracket": 24, "skiplin": 24, "suppli": 24, "math": 24, "inlin": 24, "k_": 24, "k_n": 24, "expressino": 24, "int_a": 24, "frac": 24, "2v": 24, "dx": 24, "left": 24, "dv": 24, "_a": 24, "du": 24, "digraph": 24, "altern": 24, "extern": 24, "dot": 24, "examplegraph": 24, "low": 25, "precis": 25, "high": 25, "convolut": 25, "server": 25, "infer": 25, "backend": 25, "caffe2": 25, "collect": 25, "transform": 25, "contribut": 25, "contact": 25, "licens": 25, "experiment": 25, "tbe": 25}, "objects": {"": [[9, 0, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref"], [9, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ebits"], [9, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::exponent_bias"], [9, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::input"], [9, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ncols"], [9, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::nrows"], [9, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::output"], [9, 0, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu"], [9, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::forward"], [9, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::input"], [9, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::output_dtype"], [0, 0, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::len"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::m"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::max"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::min"], [0, 0, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf"], [0, 2, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::InputType"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::bit_rate"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_columns"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_rows"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::output"], [9, 0, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref"], [9, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ebits"], [9, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::exponent_bias"], [9, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::input"], [9, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::max_pos"], [9, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ncols"], [9, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::nrows"], [9, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::output"], [0, 0, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize"], [0, 2, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::T"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::dst"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::len"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::noise_ratio"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::num_threads"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::qparams"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::src"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::thread_id"], [0, 0, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::C"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::G"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::K"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::LAYOUT"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::T"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::X"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::dst"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::scales"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::src"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::zero_points"], [0, 0, 1, "_CPPv46Xor128v", "Xor128"], [9, 0, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu"], [9, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::forward"], [9, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::input"], [9, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::output_dtype"], [9, 0, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu"], [9, 1, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu::input"], [9, 0, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu"], [9, 1, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::forward"], [9, 1, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::input"], [9, 0, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu"], [9, 1, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu::input"], [9, 0, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out"], [9, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::input"], [9, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::output"], [9, 0, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu"], [9, 1, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu::input"], [9, 0, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu"], [9, 1, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::bit_rate"], [9, 1, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::input"], [9, 0, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu"], [9, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::ebits"], [9, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::exponent_bias"], [9, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::input"], [9, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::max_pos"], [9, 0, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu"], [9, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bias"], [9, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bounding_box_size"], [9, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::ebits"], [9, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::input"], [9, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::max_pos"], [9, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::mbits"], [9, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::min_pos"], [9, 0, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu"], [9, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::forward"], [9, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::input"], [9, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::row_dim"], [9, 0, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out"], [9, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::input"], [9, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::output"], [9, 0, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu"], [9, 1, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu::input"], [9, 0, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu"], [9, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::D_offsets"], [9, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::input"], [9, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::output_dtype"], [9, 0, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu"], [9, 1, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu::input"], [9, 0, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu"], [9, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::input"], [9, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::output_dtype"], [9, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::quant_padding_float_type"], [9, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::scale_bias_last"], [9, 0, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu"], [9, 1, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::bit_rate"], [9, 1, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::input"], [9, 0, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu"], [9, 1, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::bit_rate"], [9, 1, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::input"], [9, 0, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu"], [9, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::bit_rate"], [9, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::input"], [9, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::output_dtype"], [9, 0, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu"], [9, 1, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu::input"], [9, 0, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu"], [9, 1, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::bit_rate"], [9, 1, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::input"], [9, 0, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu"], [9, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::ebits"], [9, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::exponent_bias"], [9, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::input"], [9, 0, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu"], [9, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::bias"], [9, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::ebits"], [9, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::input"], [9, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::mbits"], [9, 0, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu"], [9, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::forward"], [9, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::input"], [9, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_dtype"], [9, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_last_dim"], [9, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::row_dim"], [9, 0, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu"], [9, 1, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu::input"], [9, 0, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu"], [9, 1, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::bit_rate"], [9, 1, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::input"], [8, 0, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device"], [8, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::inputTensors"], [8, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::target_device"], [5, 0, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul"], [5, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_offsets"], [5, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_values"], [5, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::v"], [2, 0, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::B_ofsets"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::bounds_check_mode"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::indices"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::max_B"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::offsets"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::rows_per_table"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::warning"], [2, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::weights"], [5, 0, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged"], [5, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::dense"], [5, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::offsets"], [5, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::total_L"], [11, 0, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::D_offsets"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::cache_index_table_map"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::gather_cache_stats"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::hash_size_cumsum"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::linear_cache_indices"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lru_state"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_miss_timestamp"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_weights"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::row_alignment"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::time_stamp"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::total_cache_hash_size"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::uvm_cache_stats"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_offsets"], [11, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_tys"], [11, 0, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda"], [11, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::gather_cache_stats"], [11, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::invalid_index"], [11, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::linear_cache_indices"], [11, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::uvm_cache_stats"], [21, 0, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method"], [21, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::Alignment"], [21, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::T"], [21, 1, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param1"], [21, 1, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param2"], [10, 0, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda"], [10, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::input_offsets"], [10, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_offsets"], [10, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_size"], [10, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::permute"], [9, 0, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu"], [9, 1, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu::input"], [9, 0, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu"], [9, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::forward"], [9, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::input"], [9, 0, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu"], [9, 1, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu::input"], [9, 0, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu"], [9, 1, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu::input"], [9, 0, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu"], [9, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::input"], [9, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::output_dtype"], [9, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::quant_padding_float_type"], [9, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::scale_bias_last"], [9, 0, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu"], [9, 1, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu::input"], [9, 0, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu"], [9, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::bit_rate"], [9, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::input"], [9, 0, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu"], [9, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::bit_rate"], [9, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::input"], [9, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::output_dtype"], [9, 0, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu"], [9, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::bit_rate"], [9, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::input"], [10, 0, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_boundaries"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_in_use_after"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_weight_value"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_examples"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_positives"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::logit"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::num_segments"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::positive_weight"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_lengths"], [10, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_value"], [11, 0, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda"], [11, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::compute_count"], [11, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::linear_indices"], [11, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::max_indices"], [3, 0, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda"], [3, 1, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda::XQ"], [3, 1, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda::cache_K"], [3, 1, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda::cache_V"], [3, 1, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda::num_int4_kv_groups"], [3, 1, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda::num_split_ks"], [3, 1, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda::qk_scale"], [3, 1, 1, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t", "gqa_attn_splitk_cuda::seq_positions"], [9, 0, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu"], [9, 1, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu::input"], [10, 0, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_in_use_after"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_weight_value"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_examples"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_positives"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::logit"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::lower_bound"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::positive_weight"], [10, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::upper_bound"], [11, 0, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot"], [11, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::C"], [11, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::h_in"], [2, 0, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::D_offsets"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::dev_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bias"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bits"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indice_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indices"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_locations"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float16_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float32_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float8_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int2_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int4_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int8_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::offsets"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::output_dtype"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::pooling_mode"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::row_alignment"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::total_D"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::uvm_weights"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_offsets"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_placements"], [2, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_tys"], [2, 0, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::D_offsets"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::dev_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bias"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bits"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indice_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indices"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_locations"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float16_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float32_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float8_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int2_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int4_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int8_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::offsets"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::output_dtype"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::pooling_mode"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::row_alignment"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::total_D"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::uvm_weights"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_offsets"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_placements"], [2, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_tys"], [2, 0, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::D_offsets"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_hash_size_cumsum"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_index_table_map"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::dev_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bias"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bits"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indice_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indices"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_locations"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_state"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_state"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float16_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float32_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float8_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int2_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int4_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int8_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::offsets"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::output_dtype"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::pooling_mode"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::row_alignment"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_D"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_cache_hash_size"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::uvm_weights"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_offsets"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_placements"], [2, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_tys"], [2, 0, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::D_offsets"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_hash_size_cumsum"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_index_table_map"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::dev_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bias"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bits"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indice_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indices"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_locations"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_state"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_state"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float16_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float32_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float8_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int2_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int4_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int8_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::offsets"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::output_dtype"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::pooling_mode"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::row_alignment"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_D"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_cache_hash_size"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::uvm_weights"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_offsets"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_placements"], [2, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_tys"], [7, 0, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor"], [7, 1, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor::self"], [5, 0, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense"], [5, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::max_L"], [5, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::offsets"], [5, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::padding_value"], [5, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::values"], [5, 0, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense"], [5, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::max_sequence_length"], [5, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::offsets"], [5, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::values"], [5, 0, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add"], [5, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_offsets"], [5, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_values"], [5, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::y"], [5, 0, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output"], [5, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_offsets"], [5, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_values"], [5, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::y"], [5, 0, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda"], [5, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_offsets"], [5, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_values"], [5, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::y"], [5, 0, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul"], [5, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_offsets"], [5, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_values"], [5, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::y"], [5, 0, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense"], [5, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::max_lengths"], [5, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::offsets"], [5, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::padding_value"], [5, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::values"], [5, 0, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward"], [5, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::max_lengths"], [5, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::offsets"], [5, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::padding_value"], [5, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::values"], [11, 0, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::D_offsets"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_hash_size_cumsum"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_index_table_map"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lfu_state"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::linear_cache_indices"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_weights"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::row_alignment"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::total_cache_hash_size"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_offsets"], [11, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_tys"], [11, 0, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::D_offsets"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_hash_size_cumsum"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_index_table_map"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lfu_state"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::linear_cache_indices"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_weights"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::stochastic_rounding"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::total_cache_hash_size"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights"], [11, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights_offsets"], [11, 0, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda"], [11, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::B_offsets"], [11, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::cache_hash_size_cumsum"], [11, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::indices"], [11, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::max_B"], [11, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t", "linearize_cache_indices_cuda::offsets"], [11, 0, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda"], [11, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::cache_hash_size_cumsum"], [11, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_row_indices"], [11, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_table_indices"], [11, 0, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::gather_cache_stats"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lock_cache_line"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lru_state"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lxu_cache_locking_counter"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::max_indices"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::time_stamp"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::unique_indices"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::unique_indices_length"], [11, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::uvm_cache_stats"], [11, 0, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::D_offsets"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::cache_index_table_map"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::gather_cache_stats"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::hash_size_cumsum"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::linear_cache_indices"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lru_state"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_weights"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::row_alignment"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::time_stamp"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::total_cache_hash_size"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::uvm_cache_stats"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_offsets"], [11, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_tys"], [11, 0, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::D_offsets"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::cache_index_table_map"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::gather_cache_stats"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::hash_size_cumsum"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::linear_cache_indices"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lock_cache_line"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lru_state"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_locking_counter"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_weights"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::stochastic_rounding"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::time_stamp"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::total_cache_hash_size"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::uvm_cache_stats"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights"], [11, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights_offsets"], [11, 0, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::D_offsets"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_hash_size_cumsum"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_index_table_map"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_weights"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::stochastic_rounding"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::total_D"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::uvm_weights"], [11, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::weights_offsets"], [11, 0, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda"], [11, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations"], [11, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations_new"], [11, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::num_uniq_cache_indices"], [11, 0, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda"], [11, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locations"], [11, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locking_counter"], [11, 0, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda"], [11, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::gather_cache_stats"], [11, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::invalid_index"], [11, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::linear_cache_indices"], [11, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_locations_output"], [11, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::num_uniq_cache_indices"], [11, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::uvm_cache_stats"], [7, 0, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor"], [7, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::self"], [7, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::sizes"], [7, 0, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor"], [7, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::self"], [7, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::sizes"], [7, 0, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta"], [7, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::self"], [7, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::sizes"], [7, 0, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor"], [7, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::is_host_mapped"], [7, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::self"], [7, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::sizes"], [7, 0, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor"], [7, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::self"], [7, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::sizes"], [4, 0, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu"], [4, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::batch_size"], [4, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::include_last_offsets"], [4, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::indices_list"], [4, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::offsets_list"], [4, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::per_sample_weights"], [8, 0, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad"], [8, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_offset_dim_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_permute_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::offset_dim_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::permute_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::pooled_embs"], [8, 0, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_offset_dim_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_permute_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::offset_dim_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::permute_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::pooled_embs"], [8, 0, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_offset_dim_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_permute_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::offset_dim_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::permute_list"], [8, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::pooled_embs"], [8, 0, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_offset_dim_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_permute_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::offset_dim_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::permute_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::pooled_embs"], [8, 0, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_offset_dim_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_permute_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::offset_dim_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::permute_list"], [8, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::pooled_embs"], [8, 0, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl"], [8, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::allow_duplicates"], [8, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_offset_dim_list"], [8, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_permute_list"], [8, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::offset_dim_list"], [8, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::permute_list"], [8, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::pooled_embs"], [8, 0, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_offset_dim_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_permute_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::offset_dim_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::permute_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::pooled_embs"], [8, 0, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_offset_dim_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_permute_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::offset_dim_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::permute_list"], [8, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::pooled_embs"], [2, 0, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings_offsets"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::indices"], [2, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::offsets"], [2, 0, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings_offsets"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::indices"], [2, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::offsets"], [2, 0, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::dense_indices"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table_offsets"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::indices"], [2, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::offsets"], [2, 0, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table_offsets"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::indices"], [2, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::offsets"], [2, 0, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table_offsets"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::indices"], [2, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::offsets"], [6, 0, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda"], [6, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::grad_output"], [6, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::num_features_per_rank"], [6, 0, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda"], [6, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::cumsum_dim_sum_per_rank"], [6, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::dim_sum_per_rank"], [6, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::grad_output"], [6, 0, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu"], [6, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::dim_sum_per_rank"], [6, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::grad_output"], [6, 0, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda"], [6, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::dim_sum_per_rank"], [6, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::grad_output"], [0, 0, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::DIRECT"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::Q_GRAN"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::block"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::inp"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_in"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::r"], [0, 0, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::C_PER_G"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::Q_GRAN"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::block"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::inp"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_in"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::out"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::r"], [11, 0, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::D_offsets"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::buffer_ids"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::cache_hash_size_cumsum"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::dev_weights"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::logical_table_ids"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_state"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_weights"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_dev"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_offsets"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_placements"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_uvm"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices_offsets"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::total_cache_hash_size"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::uvm_weights"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_offsets"], [11, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_placements"], [4, 0, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu"], [4, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::include_last_offsets"], [4, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::indices_list"], [4, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::offsets_list"], [4, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::per_sample_weights"], [7, 0, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise"], [7, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::cuda_memory_advise"], [7, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::self"], [7, 0, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async"], [7, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::device_t"], [7, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::self"], [7, 0, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork"], [7, 1, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork::self"], [7, 0, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage"], [7, 1, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage::self"], [7, 0, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu"], [7, 1, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu::self"], [7, 0, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone"], [7, 1, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone::self"], [7, 0, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device"], [7, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::prototype"], [7, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::self"], [17, 3, 0, "-", "fbgemm_gpu"]], "fbgemm_gpu.docs.examples": [[23, 4, 1, "", "example_method"]], "fbgemm_gpu.split_table_batched_embeddings_ops": [[17, 4, 1, "", "SplitTableBatchedEmbeddingBagsCodegen"]], "torch.ops.fbgemm": [[16, 4, 1, "", "batched_dense_vec_jagged_2d_mul"], [16, 4, 1, "", "dense_to_jagged"], [16, 4, 1, "", "jagged_1d_to_dense"], [16, 4, 1, "", "jagged_2d_to_dense"], [16, 4, 1, "", "jagged_dense_dense_elementwise_add_jagged_output"], [16, 4, 1, "", "jagged_dense_elementwise_add"], [16, 4, 1, "", "jagged_dense_elementwise_add_jagged_output"], [16, 4, 1, "", "jagged_dense_elementwise_mul"], [16, 4, 1, "", "jagged_to_padded_dense"], [16, 4, 1, "", "stacked_jagged_1d_to_dense"], [16, 4, 1, "", "stacked_jagged_2d_to_dense"]]}, "objtypes": {"0": "cpp:function", "1": "cpp:functionParam", "2": "cpp:templateParam", "3": "py:module", "4": "py:function"}, "objnames": {"0": ["cpp", "function", "C++ function"], "1": ["cpp", "functionParam", "C++ function parameter"], "2": ["cpp", "templateParam", "C++ template parameter"], "3": ["py", "module", "Python module"], "4": ["py", "function", "Python function"]}, "titleterms": {"quantiz": [0, 9], "util": 0, "refer": [0, 24], "implement": 0, "method": 0, "avx": 0, "2": 0, "512": 0, "build": [1, 12, 22], "instruct": [1, 12, 13, 14], "fbgemm": [1, 25], "requir": 1, "hardwar": 1, "softwar": 1, "depend": 1, "asmjit": 1, "cpuinfo": 1, "googletest": 1, "set": [1, 12, 13, 22], "up": [1, 12, 13, 22], "an": [1, 12], "isol": [1, 12], "environ": [1, 12, 13, 14, 22], "instal": [1, 12, 13], "tool": [1, 12], "c": [1, 12, 21, 25], "compil": [1, 12], "other": [1, 12, 24], "librari": [1, 13], "prepar": [1, 12], "linux": 1, "maco": 1, "cmake": 1, "gcc": [1, 12], "issu": [1, 19], "12": 1, "clang": [1, 12], "bazel": 1, "window": 1, "embed": [2, 8, 11, 17], "oper": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 15, 16, 17], "cuda": [2, 5, 6, 7, 9, 10, 12, 13, 14], "cpu": [2, 5, 6, 9, 10, 12, 13], "experiment": 3, "attent": 3, "combin": [4, 15], "input": 4, "jag": [5, 15, 16], "tensor": [5, 15, 16], "layout": 6, "transform": 6, "memori": 7, "pool": 8, "merg": 8, "permut": 8, "spars": 10, "data": 10, "tabl": [11, 17], "batch": [11, 17], "miniconda": 12, "conda": [12, 13], "onli": [12, 13], "docker": [12, 13], "imag": 12, "cudnn": 12, "rocm": [12, 13, 14], "miopen": 12, "symlink": 12, "pytorch": [12, 13], "through": [12, 13], "pip": [12, 13], "post": [12, 13], "check": [12, 13], "fbgemm_gpu": [12, 13, 14, 22, 25], "packag": [12, 13], "The": 12, "process": 12, "wheel": 12, "variabl": 12, "For": 12, "develop": [12, 25], "undefin": [12, 13], "symbol": [12, 13], "glibc": 12, "version": 12, "compat": 12, "nvidia": 13, "driver": 13, "contain": 13, "runtim": 13, "amdgpu": 13, "python": [13, 23, 25], "public": 13, "pypi": 13, "test": 14, "setup": 14, "run": 14, "variant": 14, "benchmark": 14, "high": 15, "level": 15, "overview": [15, 25], "format": 15, "valu": 15, "offset": 15, "max": 15, "length": 15, "exampl": 15, "arithmet": 15, "convers": 15, "dens": 15, "tbe": 17, "contact": 18, "u": 18, "github": 18, "slack": 18, "contribut": 19, "code": [19, 21, 23, 24], "conduct": 19, "pull": 19, "request": 19, "contributor": 19, "licens": [19, 20], "agreement": 19, "cla": 19, "ad": [21, 23, 24], "document": [21, 22, 23, 24, 25], "gener": [22, 23, 25], "guidelin": 22, "specif": 22, "guid": 22, "toolchain": 22, "lint": 22, "deploy": 22, "preview": 22, "todo": 23, "auto": 23, "sphinx": 24, "pointer": 24, "section": 24, "referenc": 24, "sourc": 24, "latex": 24, "graph": 24, "homepag": 25, "info": 25, "api": 25}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.intersphinx": 1, "sphinx.ext.todo": 2, "sphinx.ext.viewcode": 1, "sphinx": 57}, "alltitles": {"Installation Instructions": [[13, "installation-instructions"]], "Set Up CPU-Only Environment": [[13, "set-up-cpu-only-environment"]], "Set Up CUDA Environment": [[13, "set-up-cuda-environment"]], "Install NVIDIA Drivers": [[13, "install-nvidia-drivers"]], "Set Up the CUDA Docker Container and Conda Environment": [[13, "set-up-the-cuda-docker-container-and-conda-environment"]], "Install the CUDA Runtime": [[13, "install-the-cuda-runtime"]], "Set Up ROCm Environment": [[13, "set-up-rocm-environment"]], "Install AMDGPU Drivers": [[13, "install-amdgpu-drivers"]], "Set Up the ROCm Docker Container and Conda Environment": [[13, "set-up-the-rocm-docker-container-and-conda-environment"]], "Install Python Libraries": [[13, "install-python-libraries"]], "Install PyTorch": [[13, "install-pytorch"], [12, "install-pytorch"]], "Install the FBGEMM_GPU Package": [[13, "install-the-fbgemm-gpu-package"]], "Install through PyTorch PIP": [[13, "install-through-pytorch-pip"]], "Install through Public PyPI": [[13, "install-through-public-pypi"]], "Post-Installation Checks": [[13, "post-installation-checks"]], "Undefined Symbols": [[13, "undefined-symbols"]], "Test Instructions": [[14, "test-instructions"]], "Setup the FBGEMM_GPU Test Environment": [[14, "setup-the-fbgemm-gpu-test-environment"]], "Running FBGEMM_GPU Tests": [[14, "running-fbgemm-gpu-tests"]], "Testing with the CUDA Variant": [[14, "testing-with-the-cuda-variant"]], "Testing with the ROCm Variant": [[14, "testing-with-the-rocm-variant"]], "Running FBGEMM_GPU Benchmarks": [[14, "running-fbgemm-gpu-benchmarks"]], "Build Instructions": [[12, "build-instructions"], [1, "build-instructions"]], "Set Up an Isolated Build Environment": [[12, "set-up-an-isolated-build-environment"], [1, "set-up-an-isolated-build-environment"]], "Install Miniconda": [[12, "install-miniconda"]], "Set Up the Conda Environment": [[12, "set-up-the-conda-environment"]], "Set Up for CPU-Only Build": [[12, "set-up-for-cpu-only-build"]], "Set Up for CUDA Build": [[12, "set-up-for-cuda-build"]], "CUDA Docker Image": [[12, "cuda-docker-image"]], "Install CUDA": [[12, "install-cuda"]], "Install cuDNN": [[12, "install-cudnn"]], "Set Up for ROCm Build": [[12, "set-up-for-rocm-build"]], "ROCm Docker Image": [[12, "rocm-docker-image"]], "Install ROCm": [[12, "install-rocm"]], "Install MIOpen": [[12, "install-miopen"]], "Install the Build Tools": [[12, "install-the-build-tools"], [1, "install-the-build-tools"]], "C/C++ Compiler (GCC)": [[12, "c-c-compiler-gcc"]], "C/C++ Compiler (Clang)": [[12, "c-c-compiler-clang"]], "Compiler Symlinks": [[12, "compiler-symlinks"]], "Other Build Tools": [[12, "other-build-tools"], [1, "other-build-tools"]], "Installation Through Conda": [[12, "installation-through-conda"]], "Installation Through PyTorch PIP": [[12, "installation-through-pytorch-pip"]], "Post-Install Checks": [[12, "post-install-checks"]], "Build the FBGEMM_GPU Package": [[12, "build-the-fbgemm-gpu-package"]], "Preparing the Build": [[12, "preparing-the-build"], [1, "preparing-the-build"]], "The Build Process": [[12, "the-build-process"]], "Set Wheel Build Variables": [[12, "set-wheel-build-variables"]], "CPU-Only Build": [[12, "cpu-only-build"]], "CUDA Build": [[12, "cuda-build"]], "ROCm Build": [[12, "rocm-build"]], "Post-Build Checks (For Developers)": [[12, "post-build-checks-for-developers"]], "Undefined Symbols Check": [[12, "undefined-symbols-check"]], "GLIBC Version Compatibility Check": [[12, "glibc-version-compatibility-check"]], "Contributing": [[19, "contributing"]], "Code of Conduct": [[19, "code-of-conduct"]], "Pull Requests": [[19, "pull-requests"]], "Contributor License Agreement (\u201cCLA\u201d)": [[19, "contributor-license-agreement-cla"]], "Issues": [[19, "issues"]], "License": [[19, "license"], [20, "license"]], "Contact Us": [[18, "contact-us"]], "GitHub": [[18, "github"]], "Slack": [[18, "slack"]], "Jagged Tensor Operators": [[15, "jagged-tensor-operators"], [16, "jagged-tensor-operators"], [5, "jagged-tensor-operators"]], "High Level Overview": [[15, "high-level-overview"]], "Jagged Tensor Format": [[15, "jagged-tensor-format"]], "Values": [[15, "values"]], "Offsets": [[15, "offsets"]], "Max Lengths": [[15, "max-lengths"]], "Jagged Tensor Example": [[15, "jagged-tensor-example"]], "Jagged Tensor Operations": [[15, "jagged-tensor-operations"]], "Arithmetic Operations": [[15, "arithmetic-operations"]], "Conversion Operations": [[15, "conversion-operations"]], "Jagged to Dense": [[15, "jagged-to-dense"]], "Dense to Jagged": [[15, "dense-to-jagged"]], "Combined Arithmetic + Conversion Operations": [[15, "combined-arithmetic-conversion-operations"]], "Table Batched Embedding (TBE) Operators": [[17, "module-fbgemm_gpu"]], "Sphinx Documentation Pointers": [[24, "sphinx-documentation-pointers"]], "References Other Sections of the Documentation": [[24, "references-other-sections-of-the-documentation"]], "Referencing the Source Code": [[24, "referencing-the-source-code"]], "Adding LaTeX": [[24, "adding-latex"]], "Adding Graphs": [[24, "adding-graphs"]], "FBGEMM and FBGEMM_GPU Documentation Homepage": [[25, "fbgemm-and-fbgemm-gpu-documentation-homepage"]], "General Info": [[25, null]], "FBGEMM Development": [[25, null]], "FBGEMM_GPU Development": [[25, null]], "FBGEMM_GPU Overview": [[25, null]], "FBGEMM C++ API": [[25, null]], "FBGEMM_GPU C++ API": [[25, null]], "FBGEMM_GPU Python API": [[25, null]], "Combine Input Operators": [[4, "combine-input-operators"]], "Experimental Operators": [[3, "experimental-operators"]], "Attention Operators": [[3, "attention-operators"]], "CUDA Operators": [[5, "cuda-operators"], [2, "cuda-operators"], [6, "cuda-operators"], [10, "cuda-operators"], [9, "cuda-operators"]], "CPU Operators": [[5, "cpu-operators"], [2, "cpu-operators"], [6, "cpu-operators"], [10, "cpu-operators"], [9, "cpu-operators"]], "Quantization Utilities": [[0, "quantization-utilities"]], "Reference Implementation Methods": [[0, "reference-implementation-methods"]], "AVX-2 Implementation Methods": [[0, "avx-2-implementation-methods"]], "AVX-512 Implementation Methods": [[0, "avx-512-implementation-methods"]], "Embedding Operators": [[2, "embedding-operators"]], "FBGEMM Requirements": [[1, "fbgemm-requirements"]], "Hardware Requirements": [[1, "hardware-requirements"]], "Software Dependencies": [[1, "software-dependencies"]], "asmjit": [[1, "asmjit"]], "cpuinfo": [[1, "cpuinfo"]], "GoogleTest": [[1, "googletest"]], "C/C++ Compiler": [[1, "c-c-compiler"]], "Build the FBGEMM Library": [[1, "build-the-fbgemm-library"]], "Building on Linux and macOS (CMake + GCC)": [[1, "building-on-linux-and-macos-cmake-gcc"]], "Build Issues with GCC 12+": [[1, "build-issues-with-gcc-12"]], "Building on Linux and macOS (CMake + Clang)": [[1, "building-on-linux-and-macos-cmake-clang"]], "Building on Linux (Bazel)": [[1, "building-on-linux-bazel"]], "Building on Windows": [[1, "building-on-windows"]], "Documentation": [[22, "documentation"]], "General Documentation Guidelines": [[22, "general-documentation-guidelines"]], "Specific Documentation Guides": [[22, "specific-documentation-guides"]], "Building the Documentation": [[22, "building-the-documentation"]], "Set Up Build Environment": [[22, "set-up-build-environment"]], "Build FBGEMM_GPU": [[22, "build-fbgemm-gpu"]], "Set Up the Documentation Toolchain": [[22, "set-up-the-documentation-toolchain"]], "Build the Documentation": [[22, "build-the-documentation"]], "Linting the Documentation": [[22, "linting-the-documentation"]], "Deployment Preview": [[22, "deployment-preview"]], "Adding Documentation to C++ Code": [[21, "adding-documentation-to-c-code"]], "Adding Documentation to Python Code": [[23, "adding-documentation-to-python-code"]], "Todo": [[23, "id1"]], "Adding Documentation to Auto-Generated Python Code": [[23, "adding-documentation-to-auto-generated-python-code"]], "Layout Transformation Operators": [[6, "layout-transformation-operators"]], "CUDA Memory Operators": [[7, "cuda-memory-operators"]], "Pooled Embeddings Operators": [[8, "pooled-embeddings-operators"]], "Merge Operators": [[8, "merge-operators"]], "Permutation Operators": [[8, "permutation-operators"]], "Sparse Data Operators": [[10, "sparse-data-operators"]], "Table Batched Embedding Operators": [[11, "table-batched-embedding-operators"]], "Quantization Operators": [[9, "quantization-operators"]]}, "indexentries": {"findminmax (c++ function)": [[0, "_CPPv410FindMinMaxPKfPfPf7int64_t"]], "floatorhalftofusednbitrowwisequantizedsbhalf (c++ function)": [[0, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE"]], "fusedquantizedequantize (c++ function)": [[0, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif"]], "quantizegroupwise (c++ function)": [[0, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T"]], "xor128 (c++ function)": [[0, "_CPPv46Xor128v"]], "requantizeoutputprocessingavx2 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "requantizeoutputprocessinggconvavx512 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "bounds_check_indices_cuda (c++ function)": [[2, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"]], "int_nbit_split_embedding_codegen_lookup_function (c++ function)": [[2, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"]], "int_nbit_split_embedding_codegen_lookup_function_cpu (c++ function)": [[2, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function (c++ function)": [[2, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu (c++ function)": [[2, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"]], "pruned_array_lookup_cpu (c++ function)": [[2, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"]], "pruned_array_lookup_cuda (c++ function)": [[2, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_insert_unweighted_cpu (c++ function)": [[2, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_cuda (c++ function)": [[2, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_unweighted_cpu (c++ function)": [[2, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"]], "gqa_attn_splitk_cuda (c++ function)": [[3, "_CPPv420gqa_attn_splitk_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_t"]], "padding_fused_tbe_input_combine_cpu (c++ function)": [[4, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"]], "tbe_input_combine_cpu (c++ function)": [[4, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"]], "batched_dense_vec_jagged_2d_mul (c++ function)": [[5, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"]], "dense_to_jagged (c++ function)": [[5, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"]], "jagged_1d_to_dense (c++ function)": [[5, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"]], "jagged_2d_to_dense (c++ function)": [[5, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"]], "jagged_dense_elementwise_add (c++ function)": [[5, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output (c++ function)": [[5, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output_cuda (c++ function)": [[5, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_mul (c++ function)": [[5, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_to_padded_dense (c++ function)": [[5, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"]], "jagged_to_padded_dense_forward (c++ function)": [[5, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"]], "recat_embedding_grad_output_cuda (c++ function)": [[6, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_batch_cuda (c++ function)": [[6, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"]], "recat_embedding_grad_output_mixed_d_cpu (c++ function)": [[6, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_cuda (c++ function)": [[6, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"]], "is_uvm_tensor (c++ function)": [[7, "_CPPv413is_uvm_tensorRK6Tensor"]], "new_host_mapped_tensor (c++ function)": [[7, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor (c++ function)": [[7, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor_meta (c++ function)": [[7, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_unified_tensor (c++ function)": [[7, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb"]], "new_vanilla_managed_tensor (c++ function)": [[7, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "uvm_cuda_mem_advise (c++ function)": [[7, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t"]], "uvm_cuda_mem_prefetch_async (c++ function)": [[7, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE"]], "uvm_mem_advice_dont_fork (c++ function)": [[7, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor"]], "uvm_storage (c++ function)": [[7, "_CPPv411uvm_storageRK6Tensor"]], "uvm_to_cpu (c++ function)": [[7, "_CPPv410uvm_to_cpuRK6Tensor"]], "uvm_to_cpu_clone (c++ function)": [[7, "_CPPv416uvm_to_cpu_cloneRK6Tensor"]], "uvm_to_device (c++ function)": [[7, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor"]], "all_to_one_device (c++ function)": [[8, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"]], "permute_pooled_embs_auto_grad (c++ function)": [[8, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_cpu (c++ function)": [[8, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_gpu (c++ function)": [[8, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_split_cpu (c++ function)": [[8, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_auto_grad_split_gpu (c++ function)": [[8, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_cpu_impl (c++ function)": [[8, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb"]], "permute_pooled_embs_split_cpu (c++ function)": [[8, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_split_gpu (c++ function)": [[8, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "fp8quantizedtofloat_ref (c++ function)": [[9, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"]], "fp8rowwise_to_float_cpu (c++ function)": [[9, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"]], "floattofp8quantized_ref (c++ function)": [[9, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"]], "_fp8rowwise_to_float_gpu (c++ function)": [[9, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t"]], "_bfloat16_to_float_gpu (c++ function)": [[9, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE"]], "_float_to_fp8rowwise_gpu (c++ function)": [[9, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb"]], "_float_to_bfloat16_gpu (c++ function)": [[9, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE"]], "_float_to_fused8bitrowwise_cpu_out (c++ function)": [[9, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"]], "_float_to_fused8bitrowwise_gpu (c++ function)": [[9, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor"]], "_float_to_fusednbitrowwise_gpu (c++ function)": [[9, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "_float_to_hfp8_gpu (c++ function)": [[9, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd"]], "_float_to_msfp_gpu (c++ function)": [[9, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd"]], "_float_to_paddedfp8rowwise_gpu (c++ function)": [[9, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t"]], "_fused8bitrowwise_to_float_cpu_out (c++ function)": [[9, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"]], "_fused8bitrowwise_to_float_gpu (c++ function)": [[9, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_float_mixed_dim_gpu (c++ function)": [[9, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t"]], "_fused8bitrowwise_to_half_gpu (c++ function)": [[9, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_single_or_half_precision_gpu (c++ function)": [[9, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb"]], "_fusednbitrowwise_to_float_gpu (c++ function)": [[9, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_half_gpu (c++ function)": [[9, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_single_or_half_precision_gpu (c++ function)": [[9, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_half_to_fused8bitrowwise_gpu (c++ function)": [[9, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor"]], "_half_to_fusednbitrowwise_gpu (c++ function)": [[9, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t"]], "_hfp8_to_float_gpu (c++ function)": [[9, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_msfp_to_float_gpu (c++ function)": [[9, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t"]], "_paddedfp8rowwise_to_float_gpu (c++ function)": [[9, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t"]], "_single_or_half_precision_to_fused8bitrowwise_gpu (c++ function)": [[9, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor"]], "_single_or_half_precision_to_fusednbitrowwise_gpu (c++ function)": [[9, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "float_or_half_to_fused8bitrowwise_cpu (c++ function)": [[9, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor"]], "float_to_fp8rowwise_cpu (c++ function)": [[9, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"]], "float_to_fused8bitrowwise_cpu (c++ function)": [[9, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor"]], "fused8bitrowwise_to_float_cpu (c++ function)": [[9, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor"]], "fused8bitrowwise_to_float_or_half_cpu (c++ function)": [[9, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb"]], "fused8bitrowwise_to_half_cpu (c++ function)": [[9, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor"]], "fusednbitrowwise_to_float_cpu (c++ function)": [[9, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"]], "fusednbitrowwise_to_float_or_half_cpu (c++ function)": [[9, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"]], "fusednbitrowwise_to_half_cpu (c++ function)": [[9, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"]], "half_to_fused8bitrowwise_cpu (c++ function)": [[9, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor"]], "expand_into_jagged_permute_cuda (c++ function)": [[10, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"]], "generic_histogram_binning_calibration_by_feature_cpu (c++ function)": [[10, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"]], "histogram_binning_calibration_cpu (c++ function)": [[10, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"]], "direct_mapped_lru_cache_populate_byte_cuda (c++ function)": [[11, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "direct_mapped_lxu_cache_lookup_cuda (c++ function)": [[11, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "get_unique_indices_cuda (c++ function)": [[11, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb"]], "host_lxu_cache_slot (c++ function)": [[11, "_CPPv419host_lxu_cache_slot7int64_t7int64_t"]], "lfu_cache_populate_byte_cuda (c++ function)": [[11, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "lfu_cache_populate_cuda (c++ function)": [[11, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"]], "linearize_cache_indices_cuda (c++ function)": [[11, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN3c108optionalIN2at6TensorEEEK7int64_t"]], "linearize_cache_indices_from_row_idx_cuda (c++ function)": [[11, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"]], "lru_cache_find_uncached_cuda (c++ function)": [[11, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"]], "lru_cache_populate_byte_cuda (c++ function)": [[11, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "lru_cache_populate_cuda (c++ function)": [[11, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"]], "lxu_cache_flush_cuda (c++ function)": [[11, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"]], "lxu_cache_locations_update_cuda (c++ function)": [[11, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"]], "lxu_cache_locking_counter_decrement_cuda (c++ function)": [[11, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"]], "lxu_cache_lookup_cuda (c++ function)": [[11, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"]], "reset_weight_momentum_cuda (c++ function)": [[11, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "batched_dense_vec_jagged_2d_mul() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul"]], "dense_to_jagged() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.dense_to_jagged"]], "jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.jagged_1d_to_dense"]], "jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.jagged_2d_to_dense"]], "jagged_dense_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_add() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.jagged_dense_elementwise_add"]], "jagged_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_mul() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.jagged_dense_elementwise_mul"]], "jagged_to_padded_dense() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.jagged_to_padded_dense"]], "stacked_jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.stacked_jagged_1d_to_dense"]], "stacked_jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[16, "torch.ops.fbgemm.stacked_jagged_2d_to_dense"]], "splittablebatchedembeddingbagscodegen() (in module fbgemm_gpu.split_table_batched_embeddings_ops)": [[17, "fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen"]], "fbgemm_gpu": [[17, "module-fbgemm_gpu"]], "module": [[17, "module-fbgemm_gpu"]], "example_method (c++ function)": [[21, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf"]], "example_method() (in module fbgemm_gpu.docs.examples)": [[23, "fbgemm_gpu.docs.examples.example_method"]]}})
\ No newline at end of file
diff --git a/structfbgemm_1_1_b_c_s_r_matrix-members.html b/structfbgemm_1_1_b_c_s_r_matrix-members.html
index e94f7b910..74e3a4289 100644
--- a/structfbgemm_1_1_b_c_s_r_matrix-members.html
+++ b/structfbgemm_1_1_b_c_s_r_matrix-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html">BCSRMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html">BCSRMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1_b_c_s_r_matrix.html b/structfbgemm_1_1_b_c_s_r_matrix.html
index b4dc019f8..b2796577b 100644
--- a/structfbgemm_1_1_b_c_s_r_matrix.html
+++ b/structfbgemm_1_1_b_c_s_r_matrix.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html">BCSRMatrix</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_b_c_s_r_matrix.html">BCSRMatrix</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1_blocking_factors-members.html b/structfbgemm_1_1_blocking_factors-members.html
index 454ab0188..bdddba653 100644
--- a/structfbgemm_1_1_blocking_factors-members.html
+++ b/structfbgemm_1_1_blocking_factors-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1_blocking_factors.html b/structfbgemm_1_1_blocking_factors.html
index 684ea9ff9..707cee4e5 100644
--- a/structfbgemm_1_1_blocking_factors.html
+++ b/structfbgemm_1_1_blocking_factors.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_blocking_factors.html">BlockingFactors</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1_packing_traits.html b/structfbgemm_1_1_packing_traits.html
index dd10abb86..c59cfa8a8 100644
--- a/structfbgemm_1_1_packing_traits.html
+++ b/structfbgemm_1_1_packing_traits.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_packing_traits.html">PackingTraits</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_packing_traits.html">PackingTraits</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -79,7 +79,7 @@
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
-<div class="textblock"><div class="compoundTemplParams">template&lt;typename T, typename accT, inst_set_t instSet, typename int8Type = void&gt;<br />
+<div class="textblock"><div class="compoundTemplParams">template&lt;typename T, typename accT, <a class="el" href="namespacefbgemm.html#a637f4382ad9fa1da0795e05672b74301">inst_set_t</a> instSet, typename int8Type = void&gt;<br />
 struct fbgemm::PackingTraits&lt; T, accT, instSet, int8Type &gt;</div><dl class="tparams"><dt>Template Parameters</dt><dd>
   <table class="tparams">
     <tr><td class="paramname">T</td><td>input type </td></tr>
diff --git a/structfbgemm_1_1_requantization_params-members.html b/structfbgemm_1_1_requantization_params-members.html
index b1df7f70c..094edeca0 100644
--- a/structfbgemm_1_1_requantization_params-members.html
+++ b/structfbgemm_1_1_requantization_params-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_requantization_params.html">RequantizationParams</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_requantization_params.html">RequantizationParams</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1_requantization_params.html b/structfbgemm_1_1_requantization_params.html
index df49c8090..2a84c2693 100644
--- a/structfbgemm_1_1_requantization_params.html
+++ b/structfbgemm_1_1_requantization_params.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_requantization_params.html">RequantizationParams</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_requantization_params.html">RequantizationParams</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1_tensor_quantization_params-members.html b/structfbgemm_1_1_tensor_quantization_params-members.html
index b291fa77c..9c1661b20 100644
--- a/structfbgemm_1_1_tensor_quantization_params-members.html
+++ b/structfbgemm_1_1_tensor_quantization_params-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1_tensor_quantization_params.html b/structfbgemm_1_1_tensor_quantization_params.html
index 5d442e263..b8fffd460 100644
--- a/structfbgemm_1_1_tensor_quantization_params.html
+++ b/structfbgemm_1_1_tensor_quantization_params.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1_tensor_quantization_params.html">TensorQuantizationParams</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1block__type__t-members.html b/structfbgemm_1_1block__type__t-members.html
index 642731189..ef3abb0c8 100644
--- a/structfbgemm_1_1block__type__t-members.html
+++ b/structfbgemm_1_1block__type__t-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1block__type__t.html b/structfbgemm_1_1block__type__t.html
index 0d349b6cd..165103a53 100644
--- a/structfbgemm_1_1block__type__t.html
+++ b/structfbgemm_1_1block__type__t.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1block__type__t.html">block_type_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1conv__param__t-members.html b/structfbgemm_1_1conv__param__t-members.html
index 16462957b..4f6922709 100644
--- a/structfbgemm_1_1conv__param__t-members.html
+++ b/structfbgemm_1_1conv__param__t-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1conv__param__t.html b/structfbgemm_1_1conv__param__t.html
index 5de7862e7..4eb99ed8f 100644
--- a/structfbgemm_1_1conv__param__t.html
+++ b/structfbgemm_1_1conv__param__t.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1conv__param__t.html">conv_param_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1is__8bit-members.html b/structfbgemm_1_1is__8bit-members.html
index 3c554ab49..492824906 100644
--- a/structfbgemm_1_1is__8bit-members.html
+++ b/structfbgemm_1_1is__8bit-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1is__8bit.html">is_8bit</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1is__8bit.html">is_8bit</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1is__8bit.html b/structfbgemm_1_1is__8bit.html
index 1528420cf..cc9ed8044 100644
--- a/structfbgemm_1_1is__8bit.html
+++ b/structfbgemm_1_1is__8bit.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1is__8bit.html">is_8bit</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1is__8bit.html">is_8bit</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1requantization_for_float_params__t-members.html b/structfbgemm_1_1requantization_for_float_params__t-members.html
index ffbcc9887..1a943ceb4 100644
--- a/structfbgemm_1_1requantization_for_float_params__t-members.html
+++ b/structfbgemm_1_1requantization_for_float_params__t-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_for_float_params__t.html">requantizationForFloatParams_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_for_float_params__t.html">requantizationForFloatParams_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1requantization_for_float_params__t.html b/structfbgemm_1_1requantization_for_float_params__t.html
index 0f925c5e2..8f4c2f6db 100644
--- a/structfbgemm_1_1requantization_for_float_params__t.html
+++ b/structfbgemm_1_1requantization_for_float_params__t.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_for_float_params__t.html">requantizationForFloatParams_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_for_float_params__t.html">requantizationForFloatParams_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1requantization_params__t-members.html b/structfbgemm_1_1requantization_params__t-members.html
index 1f1b28dd1..3f81214da 100644
--- a/structfbgemm_1_1requantization_params__t-members.html
+++ b/structfbgemm_1_1requantization_params__t-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1requantization_params__t.html b/structfbgemm_1_1requantization_params__t.html
index 2ce92ddf3..d9f33dc58 100644
--- a/structfbgemm_1_1requantization_params__t.html
+++ b/structfbgemm_1_1requantization_params__t.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1requantization_params__t.html">requantizationParams_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1simd__info.html b/structfbgemm_1_1simd__info.html
index 0d3c8ab17..dfc3d9086 100644
--- a/structfbgemm_1_1simd__info.html
+++ b/structfbgemm_1_1simd__info.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1simd__info.html">simd_info</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1thread__type__t-members.html b/structfbgemm_1_1thread__type__t-members.html
index 89f376656..3286142fc 100644
--- a/structfbgemm_1_1thread__type__t-members.html
+++ b/structfbgemm_1_1thread__type__t-members.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1thread__type__t.html">thread_type_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1thread__type__t.html">thread_type_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/structfbgemm_1_1thread__type__t.html b/structfbgemm_1_1thread__type__t.html
index acdef2d44..73c3d3d4e 100644
--- a/structfbgemm_1_1thread__type__t.html
+++ b/structfbgemm_1_1thread__type__t.html
@@ -71,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm</b></li><li class="navelem"><a class="el" href="structfbgemm_1_1thread__type__t.html">thread_type_t</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm.html">fbgemm</a></li><li class="navelem"><a class="el" href="structfbgemm_1_1thread__type__t.html">thread_type_t</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
diff --git a/topics.html b/topics.html
index 06a4f1885..4d0467513 100644
--- a/topics.html
+++ b/topics.html
@@ -86,16 +86,17 @@
 <tr id="row_7_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__table-batched-embed-cuda.html" target="_self">CUDA Operators</a></td><td class="desc"></td></tr>
 <tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__embedding-cuda.html" target="_self">Embedding CUDA Operators</a></td><td class="desc"></td></tr>
 <tr id="row_9_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__embedding-cpu.html" target="_self">Embedding CPU Operators</a></td><td class="desc"></td></tr>
-<tr id="row_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__example-method-group.html" target="_self">Example Method Group</a></td><td class="desc"></td></tr>
-<tr id="row_11_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cuda.html" target="_self">Jagged Tensor CUDA Operators</a></td><td class="desc"></td></tr>
-<tr id="row_12_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cpu.html" target="_self">Jagged Tensor Operators</a></td><td class="desc"></td></tr>
-<tr id="row_13_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cuda.html" target="_self">Layout Transformation CUDA Operators</a></td><td class="desc"></td></tr>
-<tr id="row_14_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cpu.html" target="_self">Layout Transformation CPU Operators</a></td><td class="desc"></td></tr>
-<tr id="row_15_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-ops-cuda.html" target="_self">Quantization Operators (CUDA)</a></td><td class="desc"></td></tr>
-<tr id="row_16_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-data-cpu.html" target="_self">Quantize Data CPU Operators</a></td><td class="desc"></td></tr>
-<tr id="row_17_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fbgemm-quant-utils-generic.html" target="_self">Quantization Utilities (Generic)</a></td><td class="desc"></td></tr>
-<tr id="row_18_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fbgemm-quant-utils-avx2.html" target="_self">Quantization Utilities (AVX2)</a></td><td class="desc"></td></tr>
-<tr id="row_19_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fbgemm-quant-utils-avx512.html" target="_self">Quantization Utilities (AVX512)</a></td><td class="desc"></td></tr>
+<tr id="row_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__experimental-gen-ai-attention.html" target="_self">Experimental-gen-ai-attention</a></td><td class="desc"></td></tr>
+<tr id="row_11_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__example-method-group.html" target="_self">Example Method Group</a></td><td class="desc"></td></tr>
+<tr id="row_12_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cuda.html" target="_self">Jagged Tensor CUDA Operators</a></td><td class="desc"></td></tr>
+<tr id="row_13_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cpu.html" target="_self">Jagged Tensor Operators</a></td><td class="desc"></td></tr>
+<tr id="row_14_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cuda.html" target="_self">Layout Transformation CUDA Operators</a></td><td class="desc"></td></tr>
+<tr id="row_15_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cpu.html" target="_self">Layout Transformation CPU Operators</a></td><td class="desc"></td></tr>
+<tr id="row_16_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-ops-cuda.html" target="_self">Quantization Operators (CUDA)</a></td><td class="desc"></td></tr>
+<tr id="row_17_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-data-cpu.html" target="_self">Quantize Data CPU Operators</a></td><td class="desc"></td></tr>
+<tr id="row_18_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fbgemm-quant-utils-generic.html" target="_self">Quantization Utilities (Generic)</a></td><td class="desc"></td></tr>
+<tr id="row_19_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fbgemm-quant-utils-avx2.html" target="_self">Quantization Utilities (AVX2)</a></td><td class="desc"></td></tr>
+<tr id="row_20_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fbgemm-quant-utils-avx512.html" target="_self">Quantization Utilities (AVX512)</a></td><td class="desc"></td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->

▼Nfbgemm
▼Nfbgemm
CBCSRMatrix
Cblock_type_t	A struct to represent a block of a matrix
CBlockingFactors	Helper struct to enable autotuning of FBGEMM packing and kernels
Public Member Functions
template<inst_set_t instSet>
template<inst_set_t instSet>
jit_micro_kernel_fp	getOrCreate (bool accum, int32_t mc, int32_t nc, int32_t kc)

void	genComputeBlock (x86::Emitter *a, x86::Gp buffer_A, x86::Gp buffer_B, x86::Gp B_pf, int rowRegs, int colRegs, int lda)
Public Member Functions
	PackAWithQuantRowOffset (matrix_op_t trans, std::int32_t nRow, std::int32_t nCol, const float smat, std::int32_t ld, inpType pmat=nullptr, float scale=1.0f, std::int32_t zero_pt=0, int groups=1, std::int32_t row_offset=nullptr, const BlockingFactors params=nullptr)
	PackAWithQuantRowOffset (matrix_op_t trans, std::int32_t nRow, std::int32_t nCol, const float smat, std::int32_t ld, inpType pmat=nullptr, float scale=1.0f, std::int32_t zero_pt=0, int groups=1, std::int32_t row_offset=nullptr, const BlockingFactors params=nullptr)

bool	isPrePacked () const

(	matrix_op_t	trans,	matrix_op_t	trans,
Public Member Functions
	PackAWithRowOffset (matrix_op_t trans, std::uint32_t nRow, std::uint32_t nCol, const T smat, std::uint32_t ld, inpType pmat=nullptr, int groups=1, std::int32_t row_offset=nullptr, const BlockingFactors params=nullptr)
	PackAWithRowOffset (matrix_op_t trans, std::uint32_t nRow, std::uint32_t nCol, const T smat, std::uint32_t ld, inpType pmat=nullptr, int groups=1, std::int32_t row_offset=nullptr, const BlockingFactors params=nullptr)

bool	isPrePacked () const

(	matrix_op_t	trans,	matrix_op_t	trans,
Public Member Functions
	PackBMatrix (matrix_op_t trans, std::int32_t nRow, std::int32_t nCol, const inpType smat, std::int32_t ld, inpType pmat=nullptr, int groups=1, const BlockingFactors *params=nullptr)
	PackBMatrix (matrix_op_t trans, std::int32_t nRow, std::int32_t nCol, const inpType smat, std::int32_t ld, inpType pmat=nullptr, int groups=1, const BlockingFactors *params=nullptr)

bool	isPrePacked () const

(	matrix_op_t	trans,	matrix_op_t	trans,
Public Member Functions
	PackWeightMatrixForGConv (matrix_op_t trans, const conv_param_t< SPATIAL_DIM > &conv_param, const inpType sdata, inpType pdata=nullptr)
	PackWeightMatrixForGConv (matrix_op_t trans, const conv_param_t< SPATIAL_DIM > &conv_param, const inpType sdata, inpType pdata=nullptr)

void	pack ()

(	matrix_op_t	trans,	matrix_op_t	trans,
+Functions
std::tuple< at::Tensor, at::Tensor, at::Tensor >	gqa_attn_splitk_cuda (const at::Tensor &XQ, const at::Tensor &cache_K, const at::Tensor &cache_V, const at::Tensor &seq_positions, const double qk_scale, const int64_t num_split_ks, const int64_t num_int4_kv_groups)
std::tuple< at::Tensor, at::Tensor, at::Tensor > gqa_attn_splitk_cuda	(	const at::Tensor &	XQ,
		const at::Tensor &	cache_K,
		const at::Tensor &	cache_V,
		const at::Tensor &	seq_positions,
		const double	qk_scale,
		const int64_t	num_split_ks,
		const int64_t	num_int4_kv_groups )
XQ	Input query; shape = (B, 1, H_Q, D), where B = batch size, H_Q = num query heads, D = head dimension (fixed to 128)
cache_K	K cache; shape = (B, MAX_T, H_KV, D), where MAX_T = max context length (fixed to 16384), and H_KV = num KV cache heads (fixed to 1)
cache_V	V cache; shape = (B, MAX_T, H_KV, D)
seq_positions	Sequence position (contains the actual length of each token); shape = (B)
qk_scale	The scale that is applied after QK^T
num_split_ks	The number of split Ks (controlling the amount of parallelism in the context length dimension (MAX_T))
num_int4_kv_groups	The number of groups for group-wise INT4 quantization for each KV token (each group uses the same scale and bias for quantization)
+Classes
struct	BCSRMatrix

struct	block_type_t

struct	BlockingFactors

class	CodeCache

class	CodeGenBase

class	CompressedSparseColumn

struct	conv_param_t

class	DoNothing

class	DoSConvOnInpBuffer

class	DoSpmdmOnInpBuffer

class	ExecuteKernel

class	ExecuteKernel< packingAMatrix, PackBMatrix< int8_t, typename packingAMatrix::accType >, cT, processOutputType >

struct	is_8bit

class	memCopy

class	PackAMatrix

class	PackAWithIm2Col

class	PackAWithQuantRowOffset

class	PackAWithRowOffset

class	PackBMatrix

class	PackedGemmMatrixB

struct	PackingTraits

class	PackMatrix

class	PackWeightMatrixForGConv

class	PackWeightsForConv

class	ReluOutput

struct	requantizationForFloatParams_t

struct	RequantizationParams

struct	requantizationParams_t

class	ReQuantizeForFloat

class	ReQuantizeOutput

class	ScaleOP

struct	simd_info

class	SparseAdaGradSignature

struct	TensorQuantizationParams

struct	thread_type_t