From dcafcb017cbee8741d93b3486198885b41caeb44 Mon Sep 17 00:00:00 2001
From: facebook-github-bot <facebook-github-bot@users.noreply.github.com>
Date: Thu, 26 Sep 2024 01:52:22 +0000
Subject: [PATCH] =?UTF-8?q?Deploying=20to=20gh-pages=20from=20@=20pytorch/?=
 =?UTF-8?q?FBGEMM@b1523395c85de0f7bf512d574eb2af5efb60ef33=20=F0=9F=9A=80?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 _modules/fbgemm_gpu/docs/examples.html        |   3 +-
 ...table_batched_embeddings_ops_training.html | 375 ++++++---
 _modules/index.html                           |   3 +-
 .../jagged_tensor_ops.rst.txt                 |   2 +
 .../pooled_embedding_ops.rst.txt              |   6 +
 .../table_batched_embedding_ops.rst.txt       |  11 +-
 _sources/index.rst.txt                        |   1 +
 fbgemm-cpp-api/QuantUtils.html                |   3 +-
 fbgemm-cpp-api/tbe_cpu_autovec.html           |   3 +-
 fbgemm-development/BuildInstructions.html     |   3 +-
 fbgemm_gpu-cpp-api/embedding_ops.html         |   3 +-
 fbgemm_gpu-cpp-api/experimental_ops.html      |   7 +-
 fbgemm_gpu-cpp-api/input_combine.html         |   3 +-
 fbgemm_gpu-cpp-api/jagged_tensor_ops.html     |   3 +-
 fbgemm_gpu-cpp-api/layout_transform_ops.html  |   3 +-
 fbgemm_gpu-cpp-api/memory_utils.html          |   3 +-
 .../merge_pooled_embeddings.html              |   3 +-
 fbgemm_gpu-cpp-api/quantize_ops.html          |   3 +-
 fbgemm_gpu-cpp-api/sparse_ops.html            |   3 +-
 .../split_table_batched_embeddings.html       |   3 +-
 fbgemm_gpu-cpp-api/ssd_embedding_ops.html     |   3 +-
 fbgemm_gpu-development/BuildInstructions.html |   3 +-
 .../InstallationInstructions.html             |   3 +-
 fbgemm_gpu-development/TestInstructions.html  |   3 +-
 .../jagged-tensor-ops/JaggedTensorOps.html    |   3 +-
 fbgemm_gpu-python-api/jagged_tensor_ops.html  | 275 ++++++-
 .../pooled_embedding_ops.html                 | 777 ++++++++++++++++++
 .../table_batched_embedding_ops.html          | 229 +++---
 general/ContactUs.html                        |   3 +-
 general/Contributing.html                     |   3 +-
 general/License.html                          |   3 +-
 general/documentation/Cpp.html                |   3 +-
 general/documentation/Overview.html           |   3 +-
 general/documentation/Python.html             |   3 +-
 general/documentation/Sphinx.html             |   3 +-
 genindex.html                                 |  73 +-
 index.html                                    |   6 +-
 objects.inv                                   | Bin 16438 -> 16575 bytes
 output.json                                   |  52 +-
 output.txt                                    |   2 +-
 py-modindex.html                              | 754 +++++++++++++++++
 search.html                                   |   3 +-
 searchindex.js                                |   2 +-
 43 files changed, 2334 insertions(+), 319 deletions(-)
 create mode 100644 _sources/fbgemm_gpu-python-api/pooled_embedding_ops.rst.txt
 create mode 100644 fbgemm_gpu-python-api/pooled_embedding_ops.html
 create mode 100644 py-modindex.html
diff --git a/_modules/fbgemm_gpu/docs/examples.html b/_modules/fbgemm_gpu/docs/examples.html
index 61bd07e83..0f3eb51dc 100644
--- a/_modules/fbgemm_gpu/docs/examples.html
+++ b/_modules/fbgemm_gpu/docs/examples.html
@@ -336,8 +336,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html b/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html
index d6fa0a93b..f429084a4 100644
--- a/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html
+++ b/_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html
@@ -336,8 +336,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
@@ -768,7 +769,7 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
 
 <span class="sd">            (5) `MTIA` = placing an embedding table in the MTIA memory</span>
 
-<span class="sd">            Available `ComputeDevice`options are</span>
+<span class="sd">            Available `ComputeDevice` options are</span>
 
 <span class="sd">            (1) `CPU` = performing table lookup on CPU</span>
 
@@ -962,86 +963,9 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
 <span class="sd">            A config for global weight decay</span>
 
 <span class="sd">        uvm_host_mapped (bool = False): If True, allocate every UVM tensor</span>
-<span class="sd">            using `malloc`+`cudaHostRegister`. Otherwise use</span>
+<span class="sd">            using `malloc` + `cudaHostRegister`. Otherwise use</span>
 <span class="sd">            `cudaMallocManaged`</span>
 
-
-<span class="sd">    Inputs:</span>
-<span class="sd">        indices (torch.Tensor): A 1D-tensor that contains indices to be accessed</span>
-<span class="sd">        in all embedding table</span>
-
-<span class="sd">        offsets (torch.Tensor): A 1D-tensor that conatins offsets of indices.</span>
-<span class="sd">        Shape `(B * T + 1)` where `B` = batch size and `T` = number of tables.</span>
-<span class="sd">        `offsets[t * B + b + 1] - offsets[t * B + b]` is the length of bag `b`</span>
-<span class="sd">        of table `t`</span>
-
-<span class="sd">        per_sample_weights (torch.Tensor): An optional 1D-tensor that contains</span>
-<span class="sd">        positional weights. Shape `(max(bag length))`.  Positional weight `i` is</span>
-<span class="sd">        multiplied to all columns of row `i` in each bag after its read from the</span>
-<span class="sd">        embedding table and before pooling (if pooling mode is not</span>
-<span class="sd">        PoolingMode.NONE).</span>
-
-<span class="sd">        feature_requires_grad (torch.Tensor): An optional tensor for checking if</span>
-<span class="sd">        `per_sample_weights` requires gradient</span>
-
-<span class="sd">    Returns:</span>
-<span class="sd">        A 2D-tensor containing looked up data. Shape `(B, total_D)` where `B` =</span>
-<span class="sd">        batch size and `total_D` = the sum of all embedding dimensions in the</span>
-<span class="sd">        table</span>
-
-<span class="sd">    Example:</span>
-<span class="sd">        &gt;&gt;&gt; import torch</span>
-<span class="sd">        &gt;&gt;&gt;</span>
-<span class="sd">        &gt;&gt;&gt; from fbgemm_gpu.split_table_batched_embeddings_ops_common import (</span>
-<span class="sd">        &gt;&gt;&gt;    EmbeddingLocation,</span>
-<span class="sd">        &gt;&gt;&gt; )</span>
-<span class="sd">        &gt;&gt;&gt; from fbgemm_gpu.split_table_batched_embeddings_ops_training import (</span>
-<span class="sd">        &gt;&gt;&gt;    SplitTableBatchedEmbeddingBagsCodegen,</span>
-<span class="sd">        &gt;&gt;&gt;    ComputeDevice,</span>
-<span class="sd">        &gt;&gt;&gt; )</span>
-<span class="sd">        &gt;&gt;&gt;</span>
-<span class="sd">        &gt;&gt;&gt; # Two tables</span>
-<span class="sd">        &gt;&gt;&gt; embedding_specs = [</span>
-<span class="sd">        &gt;&gt;&gt;     (3, 8, EmbeddingLocation.DEVICE, ComputeDevice.CUDA),</span>
-<span class="sd">        &gt;&gt;&gt;     (5, 4, EmbeddingLocation.MANAGED, ComputeDevice.CUDA)</span>
-<span class="sd">        &gt;&gt;&gt; ]</span>
-<span class="sd">        &gt;&gt;&gt;</span>
-<span class="sd">        &gt;&gt;&gt; tbe = SplitTableBatchedEmbeddingBagsCodegen(embedding_specs)</span>
-<span class="sd">        &gt;&gt;&gt; tbe.init_embedding_weights_uniform(-1, 1)</span>
-<span class="sd">        &gt;&gt;&gt;</span>
-<span class="sd">        &gt;&gt;&gt; print(tbe.split_embedding_weights())</span>
-<span class="sd">        [tensor([[-0.9426,  0.7046,  0.4214, -0.0419,  0.1331, -0.7856, -0.8124, -0.2021],</span>
-<span class="sd">                [-0.5771,  0.5911, -0.7792, -0.1068, -0.6203,  0.4813, -0.1677,  0.4790],</span>
-<span class="sd">                [-0.5587, -0.0941,  0.5754,  0.3475, -0.8952, -0.1964,  0.0810, -0.4174]],</span>
-<span class="sd">               device=&#39;cuda:0&#39;), tensor([[-0.2513, -0.4039, -0.3775,  0.3273],</span>
-<span class="sd">                [-0.5399, -0.0229, -0.1455, -0.8770],</span>
-<span class="sd">                [-0.9520,  0.4593, -0.7169,  0.6307],</span>
-<span class="sd">                [-0.1765,  0.8757,  0.8614,  0.2051],</span>
-<span class="sd">                [-0.0603, -0.9980, -0.7958, -0.5826]], device=&#39;cuda:0&#39;)]</span>
-
-
-<span class="sd">        &gt;&gt;&gt; # Batch size = 3</span>
-<span class="sd">        &gt;&gt;&gt; indices = torch.tensor([0, 1, 2, 0, 1, 2, 0, 3, 1, 4, 2, 0, 0],</span>
-<span class="sd">        &gt;&gt;&gt;                        device=&quot;cuda&quot;,</span>
-<span class="sd">        &gt;&gt;&gt;                        dtype=torch.long)</span>
-<span class="sd">        &gt;&gt;&gt; offsets = torch.tensor([0, 2, 5, 7, 9, 12, 13],</span>
-<span class="sd">        &gt;&gt;&gt;                        device=&quot;cuda&quot;,</span>
-<span class="sd">        &gt;&gt;&gt;                        dtype=torch.long)</span>
-<span class="sd">        &gt;&gt;&gt;</span>
-<span class="sd">        &gt;&gt;&gt; output = tbe(indices, offsets)</span>
-<span class="sd">        &gt;&gt;&gt;</span>
-<span class="sd">        &gt;&gt;&gt; # Batch size = 3, total embedding dimension = 12</span>
-<span class="sd">        &gt;&gt;&gt; print(output.shape)</span>
-<span class="sd">        torch.Size([3, 12])</span>
-
-<span class="sd">        &gt;&gt;&gt; print(output)</span>
-<span class="sd">        tensor([[-1.5197,  1.2957, -0.3578, -0.1487, -0.4873, -0.3044, -0.9801,  0.2769,</span>
-<span class="sd">                 -0.7164,  0.8528,  0.7159, -0.6719],</span>
-<span class="sd">                [-2.0784,  1.2016,  0.2176,  0.1988, -1.3825, -0.5008, -0.8991, -0.1405,</span>
-<span class="sd">                 -1.2637, -0.9427, -1.8902,  0.3754],</span>
-<span class="sd">                [-1.5013,  0.6105,  0.9968,  0.3057, -0.7621, -0.9821, -0.7314, -0.6195,</span>
-<span class="sd">                 -0.2513, -0.4039, -0.3775,  0.3273]], device=&#39;cuda:0&#39;,</span>
-<span class="sd">               grad_fn=&lt;CppNode&lt;SplitLookupFunction_sgd_Op&gt;&gt;)</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
     <span class="n">embedding_specs</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">EmbeddingLocation</span><span class="p">,</span> <span class="n">ComputeDevice</span><span class="p">]]</span>
@@ -1712,10 +1636,19 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
             <span class="bp">self</span><span class="o">.</span><span class="n">_debug_print_input_stats_factory</span><span class="p">()</span>
         <span class="p">)</span>
 
-<div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.log"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.log">[docs]</a>    <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">ignore</span>
+    <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">ignore</span>
     <span class="k">def</span> <span class="nf">log</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">msg</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Log with TBE id prefix to distinguish between multiple TBE instances per process.&quot;&quot;&quot;</span>
-        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;[TBE=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">uuid</span><span class="si">}</span><span class="s2">] </span><span class="si">{</span><span class="n">msg</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span></div>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Log with TBE id prefix to distinguish between multiple TBE instances</span>
+<span class="sd">        per process</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            msg (str): The message to print</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            None</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;[TBE=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">uuid</span><span class="si">}</span><span class="s2">] </span><span class="si">{</span><span class="n">msg</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">_register_nonpersistent_buffers</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prefix</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
         <span class="c1"># NOTE: make TorchScript work!</span>
@@ -1745,12 +1678,18 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
             <span class="n">persistent</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
         <span class="p">)</span>
 
-<div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging">[docs]</a>    <span class="nd">@staticmethod</span>
+    <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">get_table_name_for_logging</span><span class="p">(</span><span class="n">table_names</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Given list of all table names in the TBE, generate a string to represent</span>
-<span class="sd">        them in logging. If there&#39;s more than one table, this method will count</span>
-<span class="sd">        them than list them.</span>
+<span class="sd">        Given a list of all table names in the TBE, generate a string to</span>
+<span class="sd">        represent them in logging. If there is more than one table, this method</span>
+<span class="sd">        will count them than list them.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            table_names (Optional[List[str]]): A list of table anmes in TBE</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string that represents tables in logging</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="n">table_names</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="k">return</span> <span class="s2">&quot;&lt;Unknown&gt;&quot;</span>
@@ -1759,22 +1698,38 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
         <span class="n">table_name_set</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">table_names</span><span class="p">)</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">table_name_set</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
             <span class="k">return</span> <span class="nb">next</span><span class="p">(</span><span class="nb">iter</span><span class="p">(</span><span class="n">table_name_set</span><span class="p">))</span>
-        <span class="k">return</span> <span class="sa">f</span><span class="s2">&quot;&lt;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">table_name_set</span><span class="p">)</span><span class="si">}</span><span class="s2"> tables&gt;&quot;</span></div>
+        <span class="k">return</span> <span class="sa">f</span><span class="s2">&quot;&lt;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">table_name_set</span><span class="p">)</span><span class="si">}</span><span class="s2"> tables&gt;&quot;</span>
 
-<div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes">[docs]</a>    <span class="nd">@staticmethod</span>
+    <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">get_prefetch_passes</span><span class="p">(</span>
         <span class="n">multipass_prefetch_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">MultiPassPrefetchConfig</span><span class="p">],</span>
         <span class="n">input_tensor</span><span class="p">:</span> <span class="n">Tensor</span><span class="p">,</span>
         <span class="n">output_tensor</span><span class="p">:</span> <span class="n">Tensor</span><span class="p">,</span>
     <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">,</span> <span class="nb">int</span><span class="p">]]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Given input (the indices to forward), return the segmentation for each pass</span>
-<span class="sd">        in the format of (input[start_idx:end_idx], output[start_idx:end_idx], start_idx).</span>
+<span class="sd">        Given inputs (the indices to forward), partition the input and output</span>
+<span class="sd">        into smaller chunks and return them as a list of tuples</span>
+<span class="sd">        (input[start_idx:end_idx], output[start_idx:end_idx], start_idx).</span>
+
+<span class="sd">        The caller must guarantee that input and output have non-zero dimension</span>
+<span class="sd">        0. The returned segments are guaranteed to completely and</span>
+<span class="sd">        non-overlappingly cover the input tensor.</span>
+
+<span class="sd">        In non-multipass-prefetch mode, it returns the input/output tensor</span>
+<span class="sd">        itself.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            multipass_prefetch_config (Optional[MultiPassPrefetchConfig]):</span>
+<span class="sd">                A config for multi-pass cache prefetch. If None, multi-pass</span>
+<span class="sd">                prefetch is not used.</span>
+
+<span class="sd">            input_tensor (Tensor): The input tensor to be partitioned</span>
 
-<span class="sd">        Caller should guarantee input and output are having the size on dimension 0</span>
-<span class="sd">        The returned segments are guaranteed to completely and non-overlappingly cover the input tensor.</span>
+<span class="sd">            output_tensor (Tensor): The output tensor to be partitioned</span>
 
-<span class="sd">        In non-multipass-prefetch mode, it returns the input/output tensor itself.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of partitioned inputs and outputs (List[Tuple[Tensor,</span>
+<span class="sd">                Tensor, int]])</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="n">multipass_prefetch_config</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="k">return</span> <span class="p">[(</span><span class="n">input_tensor</span><span class="p">,</span> <span class="n">output_tensor</span><span class="p">,</span> <span class="mi">0</span><span class="p">)]</span>
@@ -1796,9 +1751,32 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
                 <span class="n">torch</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">output_tensor</span><span class="p">,</span> <span class="n">pass_size</span><span class="p">),</span>
                 <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">N</span><span class="p">,</span> <span class="n">pass_size</span><span class="p">),</span>
             <span class="p">)</span>
-        <span class="p">)</span></div>
+        <span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">get_states</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prefix</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get a state of a given tensor (`prefix`)</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            prefix (str): A prefix of the state to obtain</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of tensors corresponding to the obtained state containing</span>
+
+<span class="sd">            (1) A GPU state tensor</span>
+
+<span class="sd">            (2) A CPU state tensor</span>
+
+<span class="sd">            (3) A UVM state tensor</span>
+
+<span class="sd">            (4) A placement tensor - containing placements of embedding tables</span>
+<span class="sd">                (torch.int32_t tensor). (0 = DEVICE, 1 = MANAGED, 2 =</span>
+<span class="sd">                MANAGED_CACHING, 3 = HOST, 4 = MTIA)</span>
+
+<span class="sd">            (5) An offset tensor - containing the relative positions of</span>
+<span class="sd">                embedding tables in the corresponding state tensor (GPU, CPU,</span>
+<span class="sd">                or UVM state tensor)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_physical_placements&quot;</span><span class="p">):</span>
             <span class="k">raise</span> <span class="n">DoesNotHavePrefix</span><span class="p">()</span>
         <span class="n">dev_param</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_dev&quot;</span><span class="p">)</span>
@@ -1815,6 +1793,15 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
         <span class="p">)</span>
 
     <span class="k">def</span> <span class="nf">get_all_states</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">,</span> <span class="n">Tensor</span><span class="p">]]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get all states in the TBE (`weights`, `momentum1`, `momentum2`,</span>
+<span class="sd">        `prev_iter`, and `row_counter`)</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of states. Each state is a tuple of tensors (GPU state</span>
+<span class="sd">            tensor, CPU state tensor, UVM state tensor, placement tensor and</span>
+<span class="sd">            offset tensor)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">all_states</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="k">for</span> <span class="n">prefix</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;weights&quot;</span><span class="p">,</span> <span class="s2">&quot;momentum1&quot;</span><span class="p">,</span> <span class="s2">&quot;momentum2&quot;</span><span class="p">,</span> <span class="s2">&quot;prev_iter&quot;</span><span class="p">,</span> <span class="s2">&quot;row_counter&quot;</span><span class="p">]:</span>
             <span class="k">try</span><span class="p">:</span>
@@ -1825,16 +1812,29 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
 
     <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">export</span>
     <span class="k">def</span> <span class="nf">get_cache_miss_counter</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tensor</span><span class="p">:</span>
-        <span class="c1"># cache_miss_counter contains two items:</span>
-        <span class="c1"># The first one is cache_miss_forward_count which records the total number of forwards which has at least one cache miss</span>
-        <span class="c1"># The second one is the unique_cache_miss_count which records to total number of unique (dedup) cache misses</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get the cache miss counter. `cache_miss_counter` contains two items:</span>
 
+<span class="sd">        (1) `cache_miss_forward_count` which records the total number of</span>
+<span class="sd">            forwards which has at least one cache miss</span>
+
+<span class="sd">        (2) `unique_cache_miss_count` which records to total number of unique</span>
+<span class="sd">            (dedup) cache misses</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The cache miss counter</span>
+<span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">cache_miss_counter</span>
 
     <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">export</span>
     <span class="k">def</span> <span class="nf">get_table_wise_cache_miss</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tensor</span><span class="p">:</span>
-        <span class="c1"># table_wise_cache_miss contains all the cache miss count for each table in this embedding table object:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get the table-wise cache miss tensor. `table_wise_cache_miss` contains</span>
+<span class="sd">        all the cache miss count for each table in this embedding table object:</span>
 
+<span class="sd">        Returns:</span>
+<span class="sd">            The table-wise cache miss tensor</span>
+<span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">table_wise_cache_miss</span>
 
     <span class="c1"># The callback function for AsyncTimer to record duration to different event</span>
@@ -1959,11 +1959,122 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
         <span class="n">offsets</span><span class="p">:</span> <span class="n">Tensor</span><span class="p">,</span>
         <span class="n">per_sample_weights</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">feature_requires_grad</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Tensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="c1"># 2D tensor of batch size for each rank and feature.</span>
-        <span class="c1"># Shape (number of features, number of ranks)</span>
         <span class="n">batch_size_per_feature_per_rank</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
         <span class="n">total_unique_indices</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
     <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The forward pass function that</span>
+
+<span class="sd">        (1) Performs input bound checking</span>
+
+<span class="sd">        (2) Generates necessary variable batch size embedding (VBE) metadata (if</span>
+<span class="sd">            VBE is used)</span>
+
+<span class="sd">        (3) Prefetches data from UVM to cache (if</span>
+<span class="sd">            `EmbeddingLocation.MANAGED_CACHING` is used and the user has not</span>
+<span class="sd">            explicitly prefetched data)</span>
+
+<span class="sd">        (4) Performs the embedding table lookup by invoking a corresponding</span>
+<span class="sd">            Autograd function (based on the chosen optimizer)</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            indices (Tensor): A 1D-tensor that contains indices to be looked up</span>
+<span class="sd">                from all embedding table</span>
+
+<span class="sd">            offsets (Tensor): A 1D-tensor that conatins offsets of indices.</span>
+<span class="sd">                Shape `(B * T + 1)` where `B` = batch size and `T` = the number</span>
+<span class="sd">                of features.  `offsets[t * B + b + 1] - offsets[t * B + b]` is</span>
+<span class="sd">                the length of bag `b` of feature `t`</span>
+
+<span class="sd">            per_sample_weights (Optional[Tensor]): An optional 1D-float-tensor that</span>
+<span class="sd">                contains per sample weights. If None, **unweighted** embedding</span>
+<span class="sd">                lookup will be perform. Otherwise, **weighted** will be used. The</span>
+<span class="sd">                length of this tensor must be the same as the length of the</span>
+<span class="sd">                `indices` tensor.  The value of `per_sample_weights[i]` will be</span>
+<span class="sd">                used to multiply with every element in the looked up row</span>
+<span class="sd">                `indices[i]`, where `0 &lt;= i &lt; len(per_sample_weights)`.</span>
+
+<span class="sd">            feature_requires_grad (Optional[Tensor]): An optional 1D-tensor for</span>
+<span class="sd">                indicating if `per_sample_weights` requires gradient. The</span>
+<span class="sd">                length of the tensor must be equal to the number of features</span>
+
+<span class="sd">            batch_size_per_feature_per_rank (Optional[List[List[int]]]): An</span>
+<span class="sd">                optional 2D-tensor that contains batch sizes for every rank and</span>
+<span class="sd">                every feature. If None, TBE assumes that **every feature has the</span>
+<span class="sd">                same batch size** and computes the batch size from the `offsets`</span>
+<span class="sd">                shape. Otherwise, TBE assumes that different features can have</span>
+<span class="sd">                different batch sizes and uses the **variable batch size</span>
+<span class="sd">                embedding look up mode (VBE)**. Shape (number of features,</span>
+<span class="sd">                number of ranks). `batch_size_per_feature_per_rank[f][r]`</span>
+<span class="sd">                represents the batch size of feature `f` and rank `r`</span>
+
+<span class="sd">            total_unique_indices (Optional[int]): An optional integer that</span>
+<span class="sd">                represents the total number of unique indices. This value must</span>
+<span class="sd">                be set when using `OptimType.NONE`. This is because TBE</span>
+<span class="sd">                requires this information for allocating the weight gradient</span>
+<span class="sd">                tensor in the backward pass.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A 2D-tensor containing looked up data. Shape `(B, total_D)` where `B` =</span>
+<span class="sd">            batch size and `total_D` = the sum of all embedding dimensions in the</span>
+<span class="sd">            table</span>
+
+<span class="sd">        Example:</span>
+
+<span class="sd">            &gt;&gt;&gt; import torch</span>
+<span class="sd">            &gt;&gt;&gt;</span>
+<span class="sd">            &gt;&gt;&gt; from fbgemm_gpu.split_table_batched_embeddings_ops_common import (</span>
+<span class="sd">            &gt;&gt;&gt;    EmbeddingLocation,</span>
+<span class="sd">            &gt;&gt;&gt; )</span>
+<span class="sd">            &gt;&gt;&gt; from fbgemm_gpu.split_table_batched_embeddings_ops_training import (</span>
+<span class="sd">            &gt;&gt;&gt;    SplitTableBatchedEmbeddingBagsCodegen,</span>
+<span class="sd">            &gt;&gt;&gt;    ComputeDevice,</span>
+<span class="sd">            &gt;&gt;&gt; )</span>
+<span class="sd">            &gt;&gt;&gt;</span>
+<span class="sd">            &gt;&gt;&gt; # Two tables</span>
+<span class="sd">            &gt;&gt;&gt; embedding_specs = [</span>
+<span class="sd">            &gt;&gt;&gt;     (3, 8, EmbeddingLocation.DEVICE, ComputeDevice.CUDA),</span>
+<span class="sd">            &gt;&gt;&gt;     (5, 4, EmbeddingLocation.MANAGED, ComputeDevice.CUDA)</span>
+<span class="sd">            &gt;&gt;&gt; ]</span>
+<span class="sd">            &gt;&gt;&gt;</span>
+<span class="sd">            &gt;&gt;&gt; tbe = SplitTableBatchedEmbeddingBagsCodegen(embedding_specs)</span>
+<span class="sd">            &gt;&gt;&gt; tbe.init_embedding_weights_uniform(-1, 1)</span>
+<span class="sd">            &gt;&gt;&gt;</span>
+<span class="sd">            &gt;&gt;&gt; print(tbe.split_embedding_weights())</span>
+<span class="sd">            [tensor([[-0.9426,  0.7046,  0.4214, -0.0419,  0.1331, -0.7856, -0.8124, -0.2021],</span>
+<span class="sd">                    [-0.5771,  0.5911, -0.7792, -0.1068, -0.6203,  0.4813, -0.1677,  0.4790],</span>
+<span class="sd">                    [-0.5587, -0.0941,  0.5754,  0.3475, -0.8952, -0.1964,  0.0810, -0.4174]],</span>
+<span class="sd">                   device=&#39;cuda:0&#39;), tensor([[-0.2513, -0.4039, -0.3775,  0.3273],</span>
+<span class="sd">                    [-0.5399, -0.0229, -0.1455, -0.8770],</span>
+<span class="sd">                    [-0.9520,  0.4593, -0.7169,  0.6307],</span>
+<span class="sd">                    [-0.1765,  0.8757,  0.8614,  0.2051],</span>
+<span class="sd">                    [-0.0603, -0.9980, -0.7958, -0.5826]], device=&#39;cuda:0&#39;)]</span>
+
+
+<span class="sd">            &gt;&gt;&gt; # Batch size = 3</span>
+<span class="sd">            &gt;&gt;&gt; indices = torch.tensor([0, 1, 2, 0, 1, 2, 0, 3, 1, 4, 2, 0, 0],</span>
+<span class="sd">            &gt;&gt;&gt;                        device=&quot;cuda&quot;,</span>
+<span class="sd">            &gt;&gt;&gt;                        dtype=torch.long)</span>
+<span class="sd">            &gt;&gt;&gt; offsets = torch.tensor([0, 2, 5, 7, 9, 12, 13],</span>
+<span class="sd">            &gt;&gt;&gt;                        device=&quot;cuda&quot;,</span>
+<span class="sd">            &gt;&gt;&gt;                        dtype=torch.long)</span>
+<span class="sd">            &gt;&gt;&gt;</span>
+<span class="sd">            &gt;&gt;&gt; output = tbe(indices, offsets)</span>
+<span class="sd">            &gt;&gt;&gt;</span>
+<span class="sd">            &gt;&gt;&gt; # Batch size = 3, total embedding dimension = 12</span>
+<span class="sd">            &gt;&gt;&gt; print(output.shape)</span>
+<span class="sd">            torch.Size([3, 12])</span>
+
+<span class="sd">            &gt;&gt;&gt; print(output)</span>
+<span class="sd">            tensor([[-1.5197,  1.2957, -0.3578, -0.1487, -0.4873, -0.3044, -0.9801,  0.2769,</span>
+<span class="sd">                     -0.7164,  0.8528,  0.7159, -0.6719],</span>
+<span class="sd">                    [-2.0784,  1.2016,  0.2176,  0.1988, -1.3825, -0.5008, -0.8991, -0.1405,</span>
+<span class="sd">                     -1.2637, -0.9427, -1.8902,  0.3754],</span>
+<span class="sd">                    [-1.5013,  0.6105,  0.9968,  0.3057, -0.7621, -0.9821, -0.7314, -0.6195,</span>
+<span class="sd">                     -0.2513, -0.4039, -0.3775,  0.3273]], device=&#39;cuda:0&#39;,</span>
+<span class="sd">                   grad_fn=&lt;CppNode&lt;SplitLookupFunction_sgd_Op&gt;&gt;)</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
         <span class="p">(</span>
             <span class="n">indices</span><span class="p">,</span>
             <span class="n">offsets</span><span class="p">,</span>
@@ -2487,13 +2598,13 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
             <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">should_log</span><span class="p">():</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">print_uvm_cache_stats</span><span class="p">(</span><span class="n">use_local_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
 
-<div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.should_log"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.should_log">[docs]</a>    <span class="k">def</span> <span class="nf">should_log</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+    <span class="k">def</span> <span class="nf">should_log</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Determines if we should log for this step, using exponentially decreasing frequency.</span>
 
 <span class="sd">        Logs for steps: 100 200 ... 1,000 2,000 ... 10,000 20,000 ... 100,000 200,000 ...</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">s</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">step</span> <span class="o">+</span> <span class="mi">1</span>  <span class="c1"># step starts at 0</span>
-        <span class="k">return</span> <span class="n">s</span> <span class="o">&gt;=</span> <span class="mi">100</span> <span class="ow">and</span> <span class="n">s</span> <span class="o">%</span> <span class="p">(</span><span class="mi">10</span> <span class="o">**</span> <span class="nb">int</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">log10</span><span class="p">(</span><span class="n">s</span><span class="p">)))</span> <span class="o">==</span> <span class="mi">0</span></div>
+        <span class="k">return</span> <span class="n">s</span> <span class="o">&gt;=</span> <span class="mi">100</span> <span class="ow">and</span> <span class="n">s</span> <span class="o">%</span> <span class="p">(</span><span class="mi">10</span> <span class="o">**</span> <span class="nb">int</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">log10</span><span class="p">(</span><span class="n">s</span><span class="p">)))</span> <span class="o">==</span> <span class="mi">0</span>
 
     <span class="k">def</span> <span class="nf">_prefetch_tensors_record_stream</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span> <span class="n">forward_stream</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">Stream</span>
@@ -2572,7 +2683,10 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
 <div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights">[docs]</a>    <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">ignore</span>
     <span class="k">def</span> <span class="nf">split_embedding_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">Tensor</span><span class="p">]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Returns a list of weights, split by table</span>
+<span class="sd">        Returns a list of embedding weights (view), split by table</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of weights. Length = the number of tables</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">splits</span> <span class="o">=</span> <span class="p">[]</span>
         <span class="k">for</span> <span class="n">t</span><span class="p">,</span> <span class="p">(</span><span class="n">rows</span><span class="p">,</span> <span class="n">dim</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span><span class="p">)</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">embedding_specs</span><span class="p">):</span>
@@ -2604,7 +2718,7 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
                 <span class="k">return</span> <span class="n">buffer</span>
         <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
 
-<div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state">[docs]</a>    <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">export</span>
+    <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">export</span>
     <span class="k">def</span> <span class="nf">get_optimizer_state</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]]:</span>
 <span class="w">        </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Get the optimizer state dict that matches the OSS Pytorch optims</span>
@@ -2656,14 +2770,47 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
                 <span class="sa">f</span><span class="s2">&quot;Getting optimizer state </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="si">}</span><span class="s2"> is not implmeneted&quot;</span>
             <span class="p">)</span>
 
-        <span class="k">return</span> <span class="n">list_of_state_dict</span></div>
+        <span class="k">return</span> <span class="n">list_of_state_dict</span>
 
 <div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states">[docs]</a>    <span class="nd">@torch</span><span class="o">.</span><span class="n">jit</span><span class="o">.</span><span class="n">ignore</span>
     <span class="k">def</span> <span class="nf">split_optimizer_states</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
     <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Returns a list of states, split by table</span>
+<span class="sd">        Returns a list of optimizer states (view), split by table</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of list of states. Shape = (the number of tables, the number</span>
+<span class="sd">            of states).</span>
+
+<span class="sd">            The following shows the list of states (in the returned order) for</span>
+<span class="sd">            each optimizer:</span>
+
+<span class="sd">            (1) `ADAM`: `momentum1`, `momentum2`</span>
+
+<span class="sd">            (2) `EXACT_ADAGRAD`: `momentum1`</span>
+
+<span class="sd">            (3) `EXACT_ROWWISE_ADAGRAD`: `momentum1` (rowwise), `prev_iter`</span>
+<span class="sd">                (rowwise; only when using `WeightDecayMode` = `COUNTER` or</span>
+<span class="sd">                `COWCLIP` or `global_weight_decay` is not None), `row_counter`</span>
+<span class="sd">                (rowwise; only when using `WeightDecayMode` = `COUNTER` or</span>
+<span class="sd">                `COWCLIP`)</span>
+
+<span class="sd">            (4) `EXACT_SGD`: no states</span>
+
+<span class="sd">            (5) `LAMB`: `momentum1`, `momentum2`</span>
+
+<span class="sd">            (6) `LARS_SGD`: `momentum1`</span>
+
+<span class="sd">            (7) `PARTIAL_ROWWISE_ADAM`: `momentum1`, `momentum2` (rowwise)</span>
+
+<span class="sd">            (8) `PARTIAL_ROWWISE_LAMB`: `momentum1`, `momentum2` (rowwise)</span>
+
+<span class="sd">            (9) `ENSEMBLE_ROWWISE_ADAGRAD`: `momentum2` (rowwise), `momentum1`,</span>
+<span class="sd">                `prev_iter` (rowwise), `row_counter` (rowwise)</span>
+
+<span class="sd">            (10) `NONE`: no states (throwing an error)</span>
+
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">==</span> <span class="n">OptimType</span><span class="o">.</span><span class="n">NONE</span><span class="p">:</span>
             <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
@@ -2777,6 +2924,9 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
     <span class="k">def</span> <span class="nf">set_learning_rate</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lr</span><span class="p">:</span> <span class="nb">float</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Sets the learning rate.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            lr (float): The learning rate value to set to</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">==</span> <span class="n">OptimType</span><span class="o">.</span><span class="n">NONE</span><span class="p">:</span>
             <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
@@ -2788,6 +2938,10 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
     <span class="k">def</span> <span class="nf">update_hyper_parameters</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">params_dict</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Sets hyper-parameters from external control flow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            params_dict (Dict[str, float]): The dict that contains the</span>
+<span class="sd">                hyper-parameter names and their values</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">==</span> <span class="n">OptimType</span><span class="o">.</span><span class="n">NONE</span><span class="p">:</span>
             <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
@@ -2824,6 +2978,9 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
     <span class="k">def</span> <span class="nf">set_optimizer_step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">step</span><span class="p">:</span> <span class="nb">int</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Sets the optimizer step.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            step (int): The setp value to set to</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;set_optimizer_step from </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">iter</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="si">}</span><span class="s2"> to </span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">==</span> <span class="n">OptimType</span><span class="o">.</span><span class="n">NONE</span><span class="p">:</span>
@@ -3275,7 +3432,7 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
                 <span class="n">total_cache_hash_size</span><span class="o">=</span><span class="n">total_cache_hash_size</span><span class="p">,</span>
             <span class="p">)</span>
 
-<div class="viewcode-block" id="SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs"><a class="viewcode-back" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs">[docs]</a>    <span class="k">def</span> <span class="nf">prepare_inputs</span><span class="p">(</span>
+    <span class="k">def</span> <span class="nf">prepare_inputs</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">indices</span><span class="p">:</span> <span class="n">Tensor</span><span class="p">,</span>
         <span class="n">offsets</span><span class="p">:</span> <span class="n">Tensor</span><span class="p">,</span>
@@ -3340,7 +3497,7 @@ <h1>Source code for fbgemm_gpu.split_table_batched_embeddings_ops_training</h1><
                 <span class="n">max_B</span><span class="o">=</span><span class="n">vbe_metadata</span><span class="o">.</span><span class="n">max_B</span><span class="p">,</span>
             <span class="p">)</span>
 
-        <span class="k">return</span> <span class="n">indices</span><span class="p">,</span> <span class="n">offsets</span><span class="p">,</span> <span class="n">per_sample_weights</span><span class="p">,</span> <span class="n">vbe_metadata</span></div>
+        <span class="k">return</span> <span class="n">indices</span><span class="p">,</span> <span class="n">offsets</span><span class="p">,</span> <span class="n">per_sample_weights</span><span class="p">,</span> <span class="n">vbe_metadata</span>
 
     <span class="k">def</span> <span class="nf">_debug_print_input_stats_factory</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Callable</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="kc">None</span><span class="p">]:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/index.html b/_modules/index.html
index 41a397f8c..6d72bd7d9 100644
--- a/_modules/index.html
+++ b/_modules/index.html
@@ -336,8 +336,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/_sources/fbgemm_gpu-python-api/jagged_tensor_ops.rst.txt b/_sources/fbgemm_gpu-python-api/jagged_tensor_ops.rst.txt
index ca1cbe522..92e8f1148 100644
--- a/_sources/fbgemm_gpu-python-api/jagged_tensor_ops.rst.txt
+++ b/_sources/fbgemm_gpu-python-api/jagged_tensor_ops.rst.txt
@@ -1,6 +1,8 @@
 Jagged Tensor Operators
 =======================
 
+.. automodule:: fbgemm_gpu
+
 .. autofunction:: torch.ops.fbgemm.jagged_2d_to_dense
 
 .. autofunction:: torch.ops.fbgemm.jagged_1d_to_dense
diff --git a/_sources/fbgemm_gpu-python-api/pooled_embedding_ops.rst.txt b/_sources/fbgemm_gpu-python-api/pooled_embedding_ops.rst.txt
new file mode 100644
index 000000000..519b74e6b
--- /dev/null
+++ b/_sources/fbgemm_gpu-python-api/pooled_embedding_ops.rst.txt
@@ -0,0 +1,6 @@
+Pooled Embedding Operators
+==========================
+
+.. automodule:: fbgemm_gpu
+
+.. autofunction:: torch.ops.fbgemm.merge_pooled_embeddings
diff --git a/_sources/fbgemm_gpu-python-api/table_batched_embedding_ops.rst.txt b/_sources/fbgemm_gpu-python-api/table_batched_embedding_ops.rst.txt
index 2059b7a6d..bbd39d873 100644
--- a/_sources/fbgemm_gpu-python-api/table_batched_embedding_ops.rst.txt
+++ b/_sources/fbgemm_gpu-python-api/table_batched_embedding_ops.rst.txt
@@ -1,5 +1,10 @@
-Table Batched Embedding (TBE) Operators
-=======================================
+Table Batched Embedding (TBE) Training Module
+=============================================
 
 .. autoclass:: fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen
-    :members:
+    :members: forward,
+              split_embedding_weights,
+              split_optimizer_states,
+              set_learning_rate,
+              update_hyper_parameters,
+              set_optimizer_step
diff --git a/_sources/index.rst.txt b/_sources/index.rst.txt
index a71a58995..c4d98c720 100644
--- a/_sources/index.rst.txt
+++ b/_sources/index.rst.txt
@@ -91,3 +91,4 @@ Table of Contents
 
    fbgemm_gpu-python-api/table_batched_embedding_ops.rst
    fbgemm_gpu-python-api/jagged_tensor_ops.rst
+   fbgemm_gpu-python-api/pooled_embedding_ops.rst
diff --git a/fbgemm-cpp-api/QuantUtils.html b/fbgemm-cpp-api/QuantUtils.html
index 2a7c883c7..4abbfee72 100644
--- a/fbgemm-cpp-api/QuantUtils.html
+++ b/fbgemm-cpp-api/QuantUtils.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm-cpp-api/tbe_cpu_autovec.html b/fbgemm-cpp-api/tbe_cpu_autovec.html
index 77c437c1b..fbad6fa00 100644
--- a/fbgemm-cpp-api/tbe_cpu_autovec.html
+++ b/fbgemm-cpp-api/tbe_cpu_autovec.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm-development/BuildInstructions.html b/fbgemm-development/BuildInstructions.html
index 4bfd0f64a..b40a242fa 100644
--- a/fbgemm-development/BuildInstructions.html
+++ b/fbgemm-development/BuildInstructions.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/embedding_ops.html b/fbgemm_gpu-cpp-api/embedding_ops.html
index 9e59accbf..21f9cee79 100644
--- a/fbgemm_gpu-cpp-api/embedding_ops.html
+++ b/fbgemm_gpu-cpp-api/embedding_ops.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/experimental_ops.html b/fbgemm_gpu-cpp-api/experimental_ops.html
index e44001223..e1c2e70eb 100644
--- a/fbgemm_gpu-cpp-api/experimental_ops.html
+++ b/fbgemm_gpu-cpp-api/experimental_ops.html
@@ -33,7 +33,7 @@
   <link rel="stylesheet" href="../_static/graphviz.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="Table Batched Embedding (TBE) Operators" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" />
+    <link rel="next" title="Table Batched Embedding (TBE) Training Module" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" />
     <link rel="prev" title="SSD Embedding Operators" href="ssd_embedding_ops.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
@@ -457,7 +458,7 @@ <h2>Attention Operators<a class="headerlink" href="#attention-operators" title="
   
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
       
-        <a href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" class="btn btn-neutral float-right" title="Table Batched Embedding (TBE) Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
+        <a href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html" class="btn btn-neutral float-right" title="Table Batched Embedding (TBE) Training Module" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
       
         <a href="ssd_embedding_ops.html" class="btn btn-neutral" title="SSD Embedding Operators" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
diff --git a/fbgemm_gpu-cpp-api/input_combine.html b/fbgemm_gpu-cpp-api/input_combine.html
index 5917d2f96..4abddc986 100644
--- a/fbgemm_gpu-cpp-api/input_combine.html
+++ b/fbgemm_gpu-cpp-api/input_combine.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/jagged_tensor_ops.html b/fbgemm_gpu-cpp-api/jagged_tensor_ops.html
index 24cdb1cc9..377d83d4b 100644
--- a/fbgemm_gpu-cpp-api/jagged_tensor_ops.html
+++ b/fbgemm_gpu-cpp-api/jagged_tensor_ops.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/layout_transform_ops.html b/fbgemm_gpu-cpp-api/layout_transform_ops.html
index af41a1ef9..202d7950e 100644
--- a/fbgemm_gpu-cpp-api/layout_transform_ops.html
+++ b/fbgemm_gpu-cpp-api/layout_transform_ops.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/memory_utils.html b/fbgemm_gpu-cpp-api/memory_utils.html
index 25adcea1d..9d0fd0727 100644
--- a/fbgemm_gpu-cpp-api/memory_utils.html
+++ b/fbgemm_gpu-cpp-api/memory_utils.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html b/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html
index c05303c29..6b671ccad 100644
--- a/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html
+++ b/fbgemm_gpu-cpp-api/merge_pooled_embeddings.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/quantize_ops.html b/fbgemm_gpu-cpp-api/quantize_ops.html
index 1c09cbc89..f55787901 100644
--- a/fbgemm_gpu-cpp-api/quantize_ops.html
+++ b/fbgemm_gpu-cpp-api/quantize_ops.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/sparse_ops.html b/fbgemm_gpu-cpp-api/sparse_ops.html
index 2c30991ec..c04fea5f0 100644
--- a/fbgemm_gpu-cpp-api/sparse_ops.html
+++ b/fbgemm_gpu-cpp-api/sparse_ops.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html b/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html
index 7e43c7b08..b6546d9f4 100644
--- a/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html
+++ b/fbgemm_gpu-cpp-api/split_table_batched_embeddings.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-cpp-api/ssd_embedding_ops.html b/fbgemm_gpu-cpp-api/ssd_embedding_ops.html
index fd3506c67..14de3b822 100644
--- a/fbgemm_gpu-cpp-api/ssd_embedding_ops.html
+++ b/fbgemm_gpu-cpp-api/ssd_embedding_ops.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-development/BuildInstructions.html b/fbgemm_gpu-development/BuildInstructions.html
index e2dd5d6fd..f46389d48 100644
--- a/fbgemm_gpu-development/BuildInstructions.html
+++ b/fbgemm_gpu-development/BuildInstructions.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-development/InstallationInstructions.html b/fbgemm_gpu-development/InstallationInstructions.html
index 7182fb043..1fef2afc9 100644
--- a/fbgemm_gpu-development/InstallationInstructions.html
+++ b/fbgemm_gpu-development/InstallationInstructions.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-development/TestInstructions.html b/fbgemm_gpu-development/TestInstructions.html
index 0a01689fd..403ea0ecc 100644
--- a/fbgemm_gpu-development/TestInstructions.html
+++ b/fbgemm_gpu-development/TestInstructions.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html b/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html
index d4ef3271c..1b28209bc 100644
--- a/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html
+++ b/fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/fbgemm_gpu-python-api/jagged_tensor_ops.html b/fbgemm_gpu-python-api/jagged_tensor_ops.html
index 7c8b73293..bf71392b2 100644
--- a/fbgemm_gpu-python-api/jagged_tensor_ops.html
+++ b/fbgemm_gpu-python-api/jagged_tensor_ops.html
@@ -33,7 +33,8 @@
   <link rel="stylesheet" href="../_static/graphviz.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="prev" title="Table Batched Embedding (TBE) Operators" href="table_batched_embedding_ops.html" />
+    <link rel="next" title="Pooled Embedding Operators" href="pooled_embedding_ops.html" />
+    <link rel="prev" title="Table Batched Embedding (TBE) Training Module" href="table_batched_embedding_ops.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
     new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
@@ -338,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
@@ -416,8 +418,254 @@
             <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
-  <section id="jagged-tensor-operators">
-<h1>Jagged Tensor Operators<a class="headerlink" href="#jagged-tensor-operators" title="Permalink to this heading">¶</a></h1>
+  <section id="module-fbgemm_gpu">
+<span id="jagged-tensor-operators"></span><h1>Jagged Tensor Operators<a class="headerlink" href="#module-fbgemm_gpu" title="Permalink to this heading">¶</a></h1>
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_2d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_2d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_sequence_length</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.jagged_2d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dd><p>Converts a jagged tensor, with a 2D values array into a dense tensor, padding with zeros.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>values</strong> (<em>Tensor</em>) – 2D tensor containing the values of the jagged tensor.</p></li>
+<li><p><strong>x_offsets</strong> (<em>Tensor</em>) – 1D tensor containing the starting point of each jagged row in the values tensor.</p></li>
+<li><p><strong>max_sequence_length</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – Maximum length of any row in the jagged dimension.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The padded dense tensor</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Tensor</p>
+</dd>
+</dl>
+<p class="rubric">Example</p>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="n">values</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">1</span><span class="p">],[</span><span class="mi">2</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">,</span><span class="mi">3</span><span class="p">],[</span><span class="mi">4</span><span class="p">,</span><span class="mi">4</span><span class="p">]])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">x_offsets</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">torch</span><span class="o">.</span><span class="n">ops</span><span class="o">.</span><span class="n">fbgemm</span><span class="o">.</span><span class="n">jagged_2d_to_dense</span><span class="p">(</span><span class="n">values</span><span class="p">,</span> <span class="n">x_offsets</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+<span class="go">tensor([[[1, 1],</span>
+<span class="go">         [0, 0],</span>
+<span class="go">         [0, 0]],</span>
+<span class="go">        [[2, 2],</span>
+<span class="go">         [3, 3],</span>
+<span class="go">         [0, 0]]])</span>
+</pre></div>
+</div>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_1d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_1d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_sequence_length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">padding_value)</span> <span class="pre">-&gt;</span> <span class="pre">Tensor</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_1d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dd><p>Converts a jagged tensor, with a 1D values array, into a dense tensor, padding with a specified padding value.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>values</strong> (<em>Tensor</em>) – 1D tensor containing the values of the jagged tensor.</p></li>
+<li><p><strong>offsets</strong> (<em>Tensor</em>) – 1D tensor containing the starting point of each jagged row in the values tensor.</p></li>
+<li><p><strong>max_sequence_length</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – Maximum length of any row in the jagged dimension.</p></li>
+<li><p><strong>padding_value</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – Value to set in the empty areas of the dense output, outside of the jagged tensor coverage.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the padded dense tensor</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Tensor</p>
+</dd>
+</dl>
+<p class="rubric">Example</p>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="n">values</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">,</span><span class="mi">4</span><span class="p">])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">offsets</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">torch</span><span class="o">.</span><span class="n">ops</span><span class="o">.</span><span class="n">fbgemm</span><span class="o">.</span><span class="n">jagged_1d_to_dense</span><span class="p">(</span><span class="n">values</span><span class="p">,</span> <span class="n">x_offsets</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+<span class="go">tensor([[1, 0, 0],</span>
+<span class="go">        [2, 3, 0]])</span>
+</pre></div>
+</div>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.dense_to_jagged">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">dense_to_jagged</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dense</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">total_L)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.dense_to_jagged" title="Permalink to this definition">¶</a></dt>
+<dd><p>Converts a dense tensor into a jagged tensor, given the desired offsets of the resulting dense tensor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dense</strong> (<em>Tensor</em>) – A dense input tensor to be converted</p></li>
+<li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
+<li><p><strong>total_L</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>, </em><em>Optional</em>) – Total number of values in the resulting jagged tensor.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>(Tensor, Tensor[])</p>
+</dd>
+</dl>
+<p class="rubric">Example</p>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="n">dense</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([[[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">],</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">]],</span> <span class="p">[[</span><span class="mi">2</span><span class="p">,</span> <span class="mi">2</span><span class="p">],</span> <span class="p">[</span><span class="mi">3</span><span class="p">,</span> <span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">]]])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">x_offsets</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">torch</span><span class="o">.</span><span class="n">ops</span><span class="o">.</span><span class="n">fbgemm</span><span class="o">.</span><span class="n">dense_to_jagged</span><span class="p">(</span><span class="n">dense</span><span class="p">,</span> <span class="p">[</span><span class="n">x_offsets</span><span class="p">])</span>
+<span class="go">(tensor([[1, 1],</span>
+<span class="go">         [2, 2],</span>
+<span class="go">         [3, 3]]), [tensor([0, 1, 3])])</span>
+</pre></div>
+</div>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_to_padded_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_to_padded_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_lengths</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">padding_value</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.jagged_to_padded_dense" title="Permalink to this definition">¶</a></dt>
+<dd><p>Converts a jagged tensor into a dense tensor, padding with a specified padding value.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
+<li><p><strong>offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
+<li><p><strong>max_lengths</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>[</em><em>]</em>) – A list with max_length for each jagged dimension.</p></li>
+<li><p><strong>padding_value</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a>) – Value to set in the empty areas of the dense output, outside of the jagged tensor coverage.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the padded dense tensor</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Tensor</p>
+</dd>
+</dl>
+<p class="rubric">Example</p>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="n">values</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">1</span><span class="p">],[</span><span class="mi">2</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">,</span><span class="mi">3</span><span class="p">],[</span><span class="mi">4</span><span class="p">,</span><span class="mi">4</span><span class="p">]])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">offsets</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">])</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">torch</span><span class="o">.</span><span class="n">ops</span><span class="o">.</span><span class="n">fbgemm</span><span class="o">.</span><span class="n">jagged_to_padded_dense</span><span class="p">(</span><span class="n">values</span><span class="p">,</span> <span class="p">[</span><span class="n">offsets</span><span class="p">],</span> <span class="p">[</span><span class="mi">3</span><span class="p">],</span> <span class="mi">7</span><span class="p">)</span>
+<span class="go">tensor([[[1, 1],</span>
+<span class="go">         [7, 7],</span>
+<span class="go">         [7, 7]],</span>
+<span class="go">        [[2, 2],</span>
+<span class="go">         [3, 3],</span>
+<span class="go">         [7, 7]]])</span>
+</pre></div>
+</div>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_elementwise_add">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_elementwise_add</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_add" title="Permalink to this definition">¶</a></dt>
+<dd><p>Adds a jagged tensor to a dense tensor, resulting in dense tensor. Jagged
+tensor input will be padded with zeros for the purposes of the addition.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
+<li><p><strong>offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
+<li><p><strong>y</strong> (<em>Tensor</em>) – A dense tensor</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The sum of jagged input tensor + y</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Tensor</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_elementwise_add_jagged_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output" title="Permalink to this definition">¶</a></dt>
+<dd><p>Adds a jagged tensor to a dense tensor and, resulting in a jagged tensor with the same structure as the input jagged tensor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
+<li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
+<li><p><strong>y</strong> (<em>Tensor</em>) – A dense tensor</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>(Tensor, Tensor[])</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_dense_elementwise_add_jagged_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y_0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y_1)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output" title="Permalink to this definition">¶</a></dt>
+<dd><p>Adds a jagged tensor to the sum of two dense tensors, resulting in a jagged tensor with the same structure as the input jagged tensor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
+<li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
+<li><p><strong>y_0</strong> (<em>Tensor</em>) – A dense tensor</p></li>
+<li><p><strong>y_1</strong> (<em>Tensor</em>) – A dense tensor</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>(Tensor, Tensor[])</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_elementwise_mul">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_elementwise_mul</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_mul" title="Permalink to this definition">¶</a></dt>
+<dd><p>Elementwise-multiplies a jagged tensor a dense tensor and, resulting in a jagged tensor with the same structure as the input jagged tensor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
+<li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
+<li><p><strong>y</strong> (<em>Tensor</em>) – A dense tensor</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>(Tensor, Tensor[])</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">batched_dense_vec_jagged_2d_mul</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">Tensor</span> <span class="pre">v</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor</span> <span class="pre">a_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor</span> <span class="pre">a_offsets</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul" title="Permalink to this definition">¶</a></dt>
+<dd><p>Batched vector matrix multiplication of a batched dense vector with a jagged tensor, dense vector is in
+size (B * H, max_N) and jagged tensor is in size (B, max_N, H * D) where max_N is the maximum size of
+jagged dimension. B * H is the batch size and each multiplies is max_N with [max_N, D]</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>v</strong> (<em>Tensor</em>) – dense vector tensor</p></li>
+<li><p><strong>a_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
+<li><p><strong>a_offsets</strong> (<em>Tensor</em><em> [</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>output of batch matmul in size (B * H, D)</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Tensor</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.stacked_jagged_1d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">stacked_jagged_1d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.stacked_jagged_1d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.stacked_jagged_2d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">stacked_jagged_2d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.stacked_jagged_2d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </section>
 
 
@@ -428,8 +676,10 @@ <h1>Jagged Tensor Operators<a class="headerlink" href="#jagged-tensor-operators"
   
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
       
+        <a href="pooled_embedding_ops.html" class="btn btn-neutral float-right" title="Pooled Embedding Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
-        <a href="table_batched_embedding_ops.html" class="btn btn-neutral" title="Table Batched Embedding (TBE) Operators" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+      
+        <a href="table_batched_embedding_ops.html" class="btn btn-neutral" title="Table Batched Embedding (TBE) Training Module" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
       
     </div>
   
@@ -461,7 +711,20 @@ <h1>Jagged Tensor Operators<a class="headerlink" href="#jagged-tensor-operators"
           <div class="pytorch-right-menu" id="pytorch-right-menu">
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
-<li><a class="reference internal" href="#">Jagged Tensor Operators</a></li>
+<li><a class="reference internal" href="#">Jagged Tensor Operators</a><ul>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_2d_to_dense"><code class="docutils literal notranslate"><span class="pre">jagged_2d_to_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_1d_to_dense"><code class="docutils literal notranslate"><span class="pre">jagged_1d_to_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.dense_to_jagged"><code class="docutils literal notranslate"><span class="pre">dense_to_jagged()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_to_padded_dense"><code class="docutils literal notranslate"><span class="pre">jagged_to_padded_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_elementwise_add"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_add()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_add_jagged_output()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output"><code class="docutils literal notranslate"><span class="pre">jagged_dense_dense_elementwise_add_jagged_output()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_elementwise_mul"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_mul()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul"><code class="docutils literal notranslate"><span class="pre">batched_dense_vec_jagged_2d_mul()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.stacked_jagged_1d_to_dense"><code class="docutils literal notranslate"><span class="pre">stacked_jagged_1d_to_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.stacked_jagged_2d_to_dense"><code class="docutils literal notranslate"><span class="pre">stacked_jagged_2d_to_dense()</span></code></a></li>
+</ul>
+</li>
 </ul>
 
             </div>
diff --git a/fbgemm_gpu-python-api/pooled_embedding_ops.html b/fbgemm_gpu-python-api/pooled_embedding_ops.html
new file mode 100644
index 000000000..10fc8d1d6
--- /dev/null
+++ b/fbgemm_gpu-python-api/pooled_embedding_ops.html
@@ -0,0 +1,777 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
+<head>
+  <meta charset="utf-8">
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
+
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>Pooled Embedding Operators &mdash; FBGEMM 0.8.0 documentation</title>
+  
+
+  
+  
+  
+  
+
+  
+
+  
+  
+    
+
+  
+
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/graphviz.css" type="text/css" />
+    <link rel="index" title="Index" href="../genindex.html" />
+    <link rel="search" title="Search" href="../search.html" />
+    <link rel="prev" title="Jagged Tensor Operators" href="jagged_tensor_ops.html" />
+  <!-- Google Tag Manager -->
+    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
+    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
+    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
+    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
+    })(window,document,'script','dataLayer','UA-117752657-2');</script>
+    <!-- End Google Tag Manager -->
+  
+
+  
+  <script src="../_static/js/modernizr.min.js"></script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+
+      <div class="main-menu">
+        <ul>
+
+          <li class="main-menu-item">
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Learn
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/get-started">
+                  <span class=dropdown-title>Get Started</span>
+                  <p>Run PyTorch locally or get started quickly with one of the supported cloud platforms</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials">
+                  <span class="dropdown-title">Tutorials</span>
+                  <p>Whats new in PyTorch tutorials</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/basics/intro.html">
+                  <span class="dropdown-title">Learn the Basics</span>
+                  <p>Familiarize yourself with PyTorch concepts and modules</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/recipes/recipes_index.html">
+                  <span class="dropdown-title">PyTorch Recipes</span>
+                  <p>Bite-size, ready-to-deploy PyTorch code examples</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/introyt.html">
+                  <span class="dropdown-title">Intro to PyTorch - YouTube Series</span>
+                  <p>Master PyTorch basics with our engaging YouTube tutorial series</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Ecosystem
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem">
+                  <span class="dropdown-title">Tools</span>
+                  <p>Learn about the tools and frameworks in the PyTorch Ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
+                  <span class=dropdown-title>Community</span>
+                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
+                  <span class=dropdown-title>Forums</span>
+                  <p>A place to discuss PyTorch code, issues, install, research</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
+                  <span class=dropdown-title>Developer Resources</span>
+                  <p>Find resources and get questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem/contributor-awards-2023">
+                  <span class="dropdown-title">Contributor Awards - 2023</span>
+                  <p>Award winners announced at this year's PyTorch Conference</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Edge
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
+                  <span class="dropdown-title">About PyTorch Edge</span>
+                  <p>Build innovative and privacy-aware AI experiences for edge devices</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/executorch-overview">
+                  <span class="dropdown-title">ExecuTorch</span>
+                  <p>End-to-end solution for enabling on-device inference capabilities across mobile and edge devices</p>
+                </a>
+              </div>
+            </div>  
+          </li>
+
+          <li class="main-menu-item">
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Docs
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
+                  <span class="dropdown-title">PyTorch</span>
+                  <p>Explore the documentation for comprehensive guidance on how to use PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/pytorch-domains">
+                  <span class="dropdown-title">PyTorch Domains</span>
+                  <p>Read the PyTorch Domains documentation to learn more about domain-specific libraries</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Blogs & News 
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/blog/">
+                  <span class="dropdown-title">PyTorch Blog</span>
+                  <p>Catch up on the latest technical news and happenings</p>
+                </a>
+                 <a class="nav-dropdown-item" href="https://pytorch.org/community-blog">
+                  <span class="dropdown-title">Community Blog</span>
+                  <p>Stories from the PyTorch ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/videos">
+                  <span class="dropdown-title">Videos</span>
+                  <p>Learn about the latest PyTorch tutorials, new, and more </p>
+                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
+                  <span class="dropdown-title">Community Stories</span>
+                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/events">
+                  <span class="dropdown-title">Events</span>
+                  <p>Find events, webinars, and podcasts</p>
+                </a>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                About
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
+                  <span class="dropdown-title">PyTorch Foundation</span>
+                  <p>Learn more about the PyTorch Foundation</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/governing-board">
+                  <span class="dropdown-title">Governing Board</span>
+                  <p></p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li class="main-menu-item">
+            <div class="no-dropdown">
+              <a href="https://pytorch.org/join" data-cta="join">
+                Become a Member
+              </a>
+            </div>
+          </li>
+          <li>
+           <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="github-icon">
+             </a>
+           </div>
+          </li>
+          <!--- TODO: This block adds the search icon to the nav bar. We will enable it later. 
+          <li>
+            <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="search-icon">
+             </a>
+            </div>
+          </li>
+          --->
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+    
+
+    <div class="table-of-contents-link-wrapper">
+      <span>Table of Contents</span>
+      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+    </div>
+
+    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+      <div class="pytorch-side-scroll">
+        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+          <div class="pytorch-left-menu-search">
+            
+
+            
+              
+              
+                <div class="version">
+                  0.8
+                </div>
+              
+            
+
+            
+
+
+  
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+            
+          </div>
+
+          
+            
+            
+              
+            
+            
+              <p class="caption" role="heading"><span class="caption-text">General Info</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../general/Contributing.html">Contributing</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/documentation/Overview.html">Documentation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/ContactUs.html">Contact Us</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/License.html">License</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM Development</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm-development/BuildInstructions.html">Build Instructions</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Development</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-development/BuildInstructions.html">Build Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-development/InstallationInstructions.html">Installation Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-development/TestInstructions.html">Test Instructions</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Overview</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html">Jagged Tensor Operators</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM C++ API</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm-cpp-api/QuantUtils.html">Quantization Utilities</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm-cpp-api/tbe_cpu_autovec.html">TBE CPU Autovectorization</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/quantize_ops.html">Quantization Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/merge_pooled_embeddings.html">Pooled Embeddings Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/split_table_batched_embeddings.html">Table Batched Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/memory_utils.html">CUDA Memory Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/ssd_embedding_ops.html">SSD Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
+<li class="toctree-l1"><a class="reference internal" href="jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">Pooled Embedding Operators</a></li>
+</ul>
+
+            
+          
+        </div>
+      </div>
+    </nav>
+
+    <div class="pytorch-container">
+      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+        <div class="pytorch-breadcrumbs-wrapper">
+          
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../index.html">
+          
+            Docs
+          
+        </a> &gt;
+      </li>
+
+        
+      <li>Pooled Embedding Operators</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+            
+            <a href="../_sources/fbgemm_gpu-python-api/pooled_embedding_ops.rst.txt" rel="nofollow"><img src="../_static/images/view-page-source-icon.svg"></a>
+          
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+        </div>
+
+        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+          Shortcuts
+        </div>
+      </div>
+
+      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+        <div class="pytorch-content-left">
+
+        
+          <!-- Google Tag Manager (noscript) -->
+          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id=UA-117752657-2"
+          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
+          <!-- End Google Tag Manager (noscript) -->
+          
+          <div class="rst-content">
+          
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+              
+  <section id="module-fbgemm_gpu">
+<span id="pooled-embedding-operators"></span><h1>Pooled Embedding Operators<a class="headerlink" href="#module-fbgemm_gpu" title="Permalink to this heading">¶</a></h1>
+<dl class="py function">
+<dt class="sig sig-object py" id="torch.ops.fbgemm.merge_pooled_embeddings">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">merge_pooled_embeddings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pooled_embeddings</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">uncat_dim_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_device</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cat_dim</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.merge_pooled_embeddings" title="Permalink to this definition">¶</a></dt>
+<dd><p>Concatenate embedding outputs from different devices (on the same host)
+on to the target device.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pooled_embeddings</strong> (<em>List</em><em>[</em><em>Tensor</em><em>]</em>) – A list of embedding outputs from
+different devices on the same host. Each output has 2
+dimensions.</p></li>
+<li><p><strong>uncat_dim_size</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – The size of the dimension that is not
+concatenated, i.e., if <cite>cat_dim=0</cite>, <cite>uncat_dim_size</cite> is the size
+of dim 1 and vice versa.</p></li>
+<li><p><strong>target_device</strong> (<a class="reference external" href="https://pytorch.org/docs/main/tensor_attributes.html#torch.device" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><em>torch.device</em></a>) – The target device that aggregates all
+the embedding outputs.</p></li>
+<li><p><strong>cat_dim</strong> (<em>int = 1</em>) – The dimension that the tensors are concatenated</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The concatenated embedding output (2D) on the target device</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+
+
+             </article>
+             
+            </div>
+            <footer>
+  
+    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
+      
+      
+        <a href="jagged_tensor_ops.html" class="btn btn-neutral" title="Jagged Tensor Operators" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+      
+    </div>
+  
+
+  
+
+    <hr>
+
+  
+
+  <div role="contentinfo">
+    <p>
+        &copy; Copyright 2020 - 2024, FBGEMM Team.
+
+    </p>
+  </div>
+    
+      <div>
+        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
+      </div>
+     
+
+</footer>
+
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              <ul>
+<li><a class="reference internal" href="#">Pooled Embedding Operators</a><ul>
+<li><a class="reference internal" href="#torch.ops.fbgemm.merge_pooled_embeddings"><code class="docutils literal notranslate"><span class="pre">merge_pooled_embeddings()</span></code></a></li>
+</ul>
+</li>
+</ul>
+
+            </div>
+          </div>
+        </div>
+      </section>
+    </div>
+
+  
+
+
+  
+
+     
+       <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
+         <script src="../_static/doctools.js"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
+     
+
+  
+
+  <script type="text/javascript" src="../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+    <div class="container">
+      <div class="row">
+        <div class="col-md-4 text-center">
+          <h2>Docs</h2>
+          <p>Access comprehensive developer documentation for PyTorch</p>
+          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Tutorials</h2>
+          <p>Get in-depth tutorials for beginners and advanced developers</p>
+          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Resources</h2>
+          <p>Find development resources and get your questions answered</p>
+          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
+        </div>
+      </div>
+    </div>
+  </div>
+
+  <footer class="site-footer">
+    <div class="container footer-container">
+      <div class="footer-logo-wrapper">
+        <a href="https://pytorch.org/" class="footer-logo"></a>
+      </div>
+
+      <div class="footer-links-wrapper">
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
+            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
+            <li><a href="https://pytorch.org/features">Features</a></li>
+            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
+            <li><a href="https://pytorch.org/blog/">Blog</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
+            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
+            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
+            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
+            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">Stay up to date</li>
+            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
+            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
+            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
+            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
+          </ul>  
+          </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">PyTorch Podcasts</li>
+            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
+            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
+            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
+            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
+          </ul>
+         </div>
+        </div>
+        
+        <div class="privacy-policy">
+          <ul>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
+            <li class="privacy-policy-links">|</li>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
+          </ul>
+        </div>
+        <div class="copyright">
+        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
+          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
+          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
+          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
+          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
+      </div>
+     </div>
+
+  </footer>
+
+  <div class="cookie-banner-wrapper">
+  <div class="container">
+    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
+    <img class="close-button" src="../_static/images/pytorch-x.svg">
+  </div>
+</div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+           <li class="resources-mobile-menu-title">
+             <a>Learn</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/get-started">Get Started</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials">Tutorials</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/basics/intro.html">Learn the Basics</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/recipes/recipes_index.html">PyTorch Recipes</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/introyt.html">Introduction to PyTorch - YouTube Series</a>
+             </li>
+           </ul>
+           <li class="resources-mobile-menu-title">
+             <a>Ecosystem</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/ecosystem">Tools</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/#community-module">Community</a>
+             </li>
+             <li>
+               <a href="https://discuss.pytorch.org/">Forums</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/resources">Developer Resources</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/ecosystem/contributor-awards-2023">Contributor Awards - 2023</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Edge</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/edge">About PyTorch Edge</a>
+             </li>
+             
+             <li>
+               <a href="https://pytorch.org/executorch-overview">ExecuTorch</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Docs</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/pytorch-domains">PyTorch Domains</a>
+            </li>
+          </ul>
+
+          <li class="resources-mobile-menu-title">
+            <a>Blog & News</a>
+          </li>
+            
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/blog/">PyTorch Blog</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/community-blog">Community Blog</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/videos">Videos</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/community-stories">Community Stories</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/events">Events</a>
+            </li>
+          </ul>
+          
+          <li class="resources-mobile-menu-title">
+            <a>About</a>
+          </li>
+
+          <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/governing-board">Governing Board</a>
+            </li>
+          </ul>
+        </ul>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function() {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function(e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+</html>
\ No newline at end of file
diff --git a/fbgemm_gpu-python-api/table_batched_embedding_ops.html b/fbgemm_gpu-python-api/table_batched_embedding_ops.html
index 5fe762c89..6d0974c7f 100644
--- a/fbgemm_gpu-python-api/table_batched_embedding_ops.html
+++ b/fbgemm_gpu-python-api/table_batched_embedding_ops.html
@@ -10,7 +10,7 @@
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>Table Batched Embedding (TBE) Operators &mdash; FBGEMM 0.8.0 documentation</title>
+  <title>Table Batched Embedding (TBE) Training Module &mdash; FBGEMM 0.8.0 documentation</title>
   
 
   
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul class="current">
-<li class="toctree-l1 current"><a class="current reference internal" href="#">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
@@ -381,7 +382,7 @@
       </li>
 
         
-      <li>Table Batched Embedding (TBE) Operators</li>
+      <li>Table Batched Embedding (TBE) Training Module</li>
     
     
       <li class="pytorch-breadcrumbs-aside">
@@ -417,11 +418,11 @@
             <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
-  <section id="table-batched-embedding-tbe-operators">
-<h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#table-batched-embedding-tbe-operators" title="Permalink to this heading">¶</a></h1>
+  <section id="table-batched-embedding-tbe-training-module">
+<h1>Table Batched Embedding (TBE) Training Module<a class="headerlink" href="#table-batched-embedding-tbe-training-module" title="Permalink to this heading">¶</a></h1>
 <dl class="py class">
 <dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">fbgemm_gpu.split_table_batched_embeddings_ops_training.</span></span><span class="sig-name descname"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">embedding_specs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Tuple" title="(in Python v3.12)"><span class="pre">Tuple</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">EmbeddingLocation</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">ComputeDevice</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_table_map</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_algorithm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">CacheAlgorithm</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">CacheAlgorithm.LRU</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_load_factor</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_sets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_reserved_memory</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_precision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">SparseType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weights_precision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">SparseType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">SparseType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enforce_hbm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">EmbOptimType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EmbOptimType.EXACT_SGD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_cache_metrics</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">RecordCacheMetrics</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gather_uvm_cache_stats</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stochastic_rounding</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gradient_clipping</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gradient</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_norm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">learning_rate</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.01</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1e-08</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">momentum</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.9</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_decay</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_decay_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">WeightDecayMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">WeightDecayMode.NONE</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eta</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.001</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta1</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.9</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta2</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.999</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_ema</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10000</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_swap</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10000</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_start</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">StepMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">StepMode.USE_ITER</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">counter_based_regularization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">CounterBasedRegularizationDefinition</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cowclip_regularization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">CowClipDefinition</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pooling_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PoolingMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">PoolingMode.SUM</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://pytorch.org/docs/main/tensor_attributes.html#torch.device" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">device</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">bounds_check_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">BoundsCheckMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">BoundsCheckMode.WARNING</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">uvm_non_rowwise_momentum</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_experimental_tbe</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prefetch_pipeline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stats_reporter_config</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">TBEStatsReporterConfig</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">table_names</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_state_dtypes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Dict" title="(in Python v3.12)"><span class="pre">Dict</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">SparseType</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multipass_prefetch_config</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">MultiPassPrefetchConfig</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_weight_decay</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">GlobalWeightDecayDefinition</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">uvm_host_mapped</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen" title="Permalink to this definition">¶</a></dt>
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">fbgemm_gpu.split_table_batched_embeddings_ops_training.</span></span><span class="sig-name descname"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">embedding_specs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Tuple" title="(in Python v3.12)"><span class="pre">Tuple</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">EmbeddingLocation</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">ComputeDevice</span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_table_map</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_algorithm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">CacheAlgorithm</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">CacheAlgorithm.LRU</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_load_factor</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_sets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_reserved_memory</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_precision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">SparseType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weights_precision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">SparseType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">SparseType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enforce_hbm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">EmbOptimType</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">EmbOptimType.EXACT_SGD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_cache_metrics</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">RecordCacheMetrics</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gather_uvm_cache_stats</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stochastic_rounding</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gradient_clipping</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gradient</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_norm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">learning_rate</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.01</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1e-08</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">momentum</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.9</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_decay</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_decay_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">WeightDecayMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">WeightDecayMode.NONE</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eta</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.001</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta1</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.9</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta2</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.999</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_ema</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10000</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_swap</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10000</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_start</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">step_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">StepMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">StepMode.USE_ITER</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">counter_based_regularization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">CounterBasedRegularizationDefinition</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cowclip_regularization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">CowClipDefinition</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pooling_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PoolingMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">PoolingMode.SUM</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://pytorch.org/docs/main/tensor_attributes.html#torch.device" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">device</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">bounds_check_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">BoundsCheckMode</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">BoundsCheckMode.WARNING</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">uvm_non_rowwise_momentum</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_experimental_tbe</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prefetch_pipeline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stats_reporter_config</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">TBEStatsReporterConfig</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">table_names</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer_state_dtypes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Dict" title="(in Python v3.12)"><span class="pre">Dict</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">SparseType</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multipass_prefetch_config</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">MultiPassPrefetchConfig</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_weight_decay</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">GlobalWeightDecayDefinition</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">uvm_host_mapped</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen" title="Permalink to this definition">¶</a></dt>
 <dd><p>Table Batched Embedding (TBE) operator.  Looks up one or more embedding
 tables. The module is application for training. The backward operator is
 fused with optimizer. Thus, the embedding tables are updated during
@@ -445,7 +446,7 @@ <h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#table-ba
 <li><p><cite>HOST</cite> = placing an embedding table in the CPU memory (DRAM)</p></li>
 <li><p><cite>MTIA</cite> = placing an embedding table in the MTIA memory</p></li>
 </ol>
-<p>Available <a href="#id1"><span class="problematic" id="id2">`</span></a>ComputeDevice`options are</p>
+<p>Available <cite>ComputeDevice</cite> options are</p>
 <ol class="arabic simple">
 <li><p><cite>CPU</cite> = performing table lookup on CPU</p></li>
 <li><p><cite>CUDA</cite> = performing table lookup on GPU</p></li>
@@ -552,7 +553,7 @@ <h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#table-ba
 <li><p><cite>NONE</cite> = No pooling (sequence embedding)</p></li>
 </ol>
 </p></li>
-<li><p><strong>device</strong> (<em>Optional</em><em>[</em><em>Union</em><em>[</em><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><em>str</em></a><em>, </em><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>, </em><a class="reference external" href="https://pytorch.org/docs/main/tensor_attributes.html#torch.device" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><em>torch.device</em></a><em>]</em><em>] </em><em>= None</em>) – The current
+<li><p><strong>device</strong> (<em>Optional</em><em>[</em><em>Union</em><em>[</em><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><em>str</em></a><em>, </em><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>, </em><a class="reference external" href="https://pytorch.org/docs/main/tensor_attributes.html#torch.device" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><em>torch.device</em></a><em>]</em><em>] </em><em>= None</em>) – The current
 device to place tensors on</p></li>
 <li><p><strong>bounds_check_mode</strong> (<em>BoundsCheckMode = BoundsCheckMode.WARNING</em>) – <p>Input
 checking mode. Available <cite>BoundsCheckMode</cite> options are</p>
@@ -588,30 +589,62 @@ <h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#table-ba
 <cite>EmbeddingLocation.MANAGED_CACHING</cite> is used)</p></li>
 <li><p><strong>global_weight_decay</strong> (<em>Optional</em><em>[</em><em>GlobalWeightDecayDefinition</em><em>] </em><em>= None</em>) – A config for global weight decay</p></li>
 <li><p><strong>uvm_host_mapped</strong> (<em>bool = False</em>) – If True, allocate every UVM tensor
-using <cite>malloc`+`cudaHostRegister</cite>. Otherwise use
+using <cite>malloc</cite> + <cite>cudaHostRegister</cite>. Otherwise use
 <cite>cudaMallocManaged</cite></p></li>
 </ul>
 </dd>
 </dl>
-<dl>
-<dt>Inputs:</dt><dd><p>indices (torch.Tensor): A 1D-tensor that contains indices to be accessed
-in all embedding table</p>
-<p>offsets (torch.Tensor): A 1D-tensor that conatins offsets of indices.
-Shape <cite>(B * T + 1)</cite> where <cite>B</cite> = batch size and <cite>T</cite> = number of tables.
-<cite>offsets[t * B + b + 1] - offsets[t * B + b]</cite> is the length of bag <cite>b</cite>
-of table <cite>t</cite></p>
-<p>per_sample_weights (torch.Tensor): An optional 1D-tensor that contains
-positional weights. Shape <cite>(max(bag length))</cite>.  Positional weight <cite>i</cite> is
-multiplied to all columns of row <cite>i</cite> in each bag after its read from the
-embedding table and before pooling (if pooling mode is not
-PoolingMode.NONE).</p>
-<p>feature_requires_grad (torch.Tensor): An optional tensor for checking if
-<cite>per_sample_weights</cite> requires gradient</p>
-</dd>
-</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">indices</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">Tensor</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">offsets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">Tensor</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">per_sample_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">Tensor</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_requires_grad</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">Tensor</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size_per_feature_per_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">total_unique_indices</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">Tensor</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward" title="Permalink to this definition">¶</a></dt>
+<dd><p>The forward pass function that</p>
+<ol class="arabic simple">
+<li><p>Performs input bound checking</p></li>
+<li><p>Generates necessary variable batch size embedding (VBE) metadata (if
+VBE is used)</p></li>
+<li><p>Prefetches data from UVM to cache (if
+<cite>EmbeddingLocation.MANAGED_CACHING</cite> is used and the user has not
+explicitly prefetched data)</p></li>
+<li><p>Performs the embedding table lookup by invoking a corresponding
+Autograd function (based on the chosen optimizer)</p></li>
+</ol>
 <dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>A 2D-tensor containing looked up data. Shape <cite>(B, total_D)</cite> where <cite>B</cite> =
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>indices</strong> (<em>Tensor</em>) – A 1D-tensor that contains indices to be looked up
+from all embedding table</p></li>
+<li><p><strong>offsets</strong> (<em>Tensor</em>) – A 1D-tensor that conatins offsets of indices.
+Shape <cite>(B * T + 1)</cite> where <cite>B</cite> = batch size and <cite>T</cite> = the number
+of features.  <cite>offsets[t * B + b + 1] - offsets[t * B + b]</cite> is
+the length of bag <cite>b</cite> of feature <cite>t</cite></p></li>
+<li><p><strong>per_sample_weights</strong> (<em>Optional</em><em>[</em><em>Tensor</em><em>]</em>) – An optional 1D-float-tensor that
+contains per sample weights. If None, <strong>unweighted</strong> embedding
+lookup will be perform. Otherwise, <strong>weighted</strong> will be used. The
+length of this tensor must be the same as the length of the
+<cite>indices</cite> tensor.  The value of <cite>per_sample_weights[i]</cite> will be
+used to multiply with every element in the looked up row
+<cite>indices[i]</cite>, where <cite>0 &lt;= i &lt; len(per_sample_weights)</cite>.</p></li>
+<li><p><strong>feature_requires_grad</strong> (<em>Optional</em><em>[</em><em>Tensor</em><em>]</em>) – An optional 1D-tensor for
+indicating if <cite>per_sample_weights</cite> requires gradient. The
+length of the tensor must be equal to the number of features</p></li>
+<li><p><strong>batch_size_per_feature_per_rank</strong> (<em>Optional</em><em>[</em><em>List</em><em>[</em><em>List</em><em>[</em><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>]</em><em>]</em><em>]</em>) – An
+optional 2D-tensor that contains batch sizes for every rank and
+every feature. If None, TBE assumes that <strong>every feature has the
+same batch size</strong> and computes the batch size from the <cite>offsets</cite>
+shape. Otherwise, TBE assumes that different features can have
+different batch sizes and uses the <strong>variable batch size
+embedding look up mode (VBE)</strong>. Shape (number of features,
+number of ranks). <cite>batch_size_per_feature_per_rank[f][r]</cite>
+represents the batch size of feature <cite>f</cite> and rank <cite>r</cite></p></li>
+<li><p><strong>total_unique_indices</strong> (<em>Optional</em><em>[</em><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>]</em>) – An optional integer that
+represents the total number of unique indices. This value must
+be set when using <cite>OptimType.NONE</cite>. This is because TBE
+requires this information for allocating the weight gradient
+tensor in the backward pass.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A 2D-tensor containing looked up data. Shape <cite>(B, total_D)</cite> where <cite>B</cite> =
 batch size and <cite>total_D</cite> = the sum of all embedding dimensions in the
 table</p>
 </dd>
@@ -672,117 +705,83 @@ <h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#table-ba
 <span class="go">       grad_fn=&lt;CppNode&lt;SplitLookupFunction_sgd_Op&gt;&gt;)</span>
 </pre></div>
 </div>
-<dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward">
-<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">indices</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">offsets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">per_sample_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_requires_grad</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size_per_feature_per_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">total_unique_indices</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward" title="Permalink to this definition">¶</a></dt>
-<dd><p>Define the computation performed at every call.</p>
-<p>Should be overridden by all subclasses.</p>
-<div class="admonition note">
-<p class="admonition-title">Note</p>
-<p>Although the recipe for forward pass needs to be defined within
-this function, one should call the <code class="xref cpp cpp-class docutils literal notranslate"><span class="pre">Module</span></code> instance afterwards
-instead of this since the former takes care of running the
-registered hooks while the latter silently ignores them.</p>
-</div>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state">
-<span class="sig-name descname"><span class="pre">get_optimizer_state</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Dict" title="(in Python v3.12)"><span class="pre">Dict</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get the optimizer state dict that matches the OSS Pytorch optims
-TODO: populate the supported list of optimizers</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes">
-<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">get_prefetch_passes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">multipass_prefetch_config</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">MultiPassPrefetchConfig</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_tensor</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_tensor</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Tuple" title="(in Python v3.12)"><span class="pre">Tuple</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes" title="Permalink to this definition">¶</a></dt>
-<dd><p>Given input (the indices to forward), return the segmentation for each pass
-in the format of (input[start_idx:end_idx], output[start_idx:end_idx], start_idx).</p>
-<p>Caller should guarantee input and output are having the size on dimension 0
-The returned segments are guaranteed to completely and non-overlappingly cover the input tensor.</p>
-<p>In non-multipass-prefetch mode, it returns the input/output tensor itself.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging">
-<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">get_table_name_for_logging</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">table_names</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging" title="Permalink to this definition">¶</a></dt>
-<dd><p>Given list of all table names in the TBE, generate a string to represent
-them in logging. If there’s more than one table, this method will count
-them than list them.</p>
 </dd></dl>
 
 <dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.log">
-<span class="sig-name descname"><span class="pre">log</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">msg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.log"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.log" title="Permalink to this definition">¶</a></dt>
-<dd><p>Log with TBE id prefix to distinguish between multiple TBE instances per process.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs">
-<span class="sig-name descname"><span class="pre">prepare_inputs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">indices</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">offsets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">per_sample_weights</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size_per_feature_per_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_cast_input_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Tuple" title="(in Python v3.12)"><span class="pre">Tuple</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">VBEMetadata</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare TBE inputs as follows:</p>
-<ol class="arabic simple">
-<li><p>Create VBE metadata</p></li>
-<li><p>Convert input types if <cite>force_cast_input_types=True</cite></p></li>
-<li><p>Run <cite>bounds_check_indices</cite> if <cite>bounds_check_mode</cite> is not
-BoundsCheckMode.NONE</p></li>
-</ol>
+<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate">
+<span class="sig-name descname"><span class="pre">set_learning_rate</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate" title="Permalink to this definition">¶</a></dt>
+<dd><p>Sets the learning rate.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>indices</strong> (<em>Tensor</em>) – Input indices</p></li>
-<li><p><strong>offsets</strong> (<em>Tensor</em>) – Input offsets</p></li>
-<li><p><strong>per_sample_weights</strong> (<em>Optional</em><em>[</em><em>Tensor</em><em>]</em>) – Input per sample
-weights</p></li>
-<li><p><strong>batch_size_per_feature_per_rank</strong> – (Optional[List[List[int]]]): A 2D tensor of batch size
-for each rank and feature. Shape = (number of
-features, number of ranks)</p></li>
-<li><p><strong>force_cast_input_types</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><em>bool</em></a>) – A flag to force convert
-input types if set to True</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>A tuple of indices, offsets, per_sample_weights, and VBE
-metadata</p>
+<dd class="field-odd"><p><strong>lr</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a>) – The learning rate value to set to</p>
 </dd>
 </dl>
 </dd></dl>
 
-<dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate">
-<span class="sig-name descname"><span class="pre">set_learning_rate</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate" title="Permalink to this definition">¶</a></dt>
-<dd><p>Sets the learning rate.</p>
-</dd></dl>
-
 <dl class="py method">
 <dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step">
 <span class="sig-name descname"><span class="pre">set_optimizer_step</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">step</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><span class="pre">int</span></a></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step" title="Permalink to this definition">¶</a></dt>
 <dd><p>Sets the optimizer step.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.should_log">
-<span class="sig-name descname"><span class="pre">should_log</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><span class="pre">bool</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.should_log"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.should_log" title="Permalink to this definition">¶</a></dt>
-<dd><p>Determines if we should log for this step, using exponentially decreasing frequency.</p>
-<p>Logs for steps: 100 200 … 1,000 2,000 … 10,000 20,000 … 100,000 200,000 …</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>step</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – The setp value to set to</p>
+</dd>
+</dl>
 </dd></dl>
 
 <dl class="py method">
 <dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights">
-<span class="sig-name descname"><span class="pre">split_embedding_weights</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights" title="Permalink to this definition">¶</a></dt>
-<dd><p>Returns a list of weights, split by table</p>
+<span class="sig-name descname"><span class="pre">split_embedding_weights</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights" title="Permalink to this definition">¶</a></dt>
+<dd><p>Returns a list of embedding weights (view), split by table</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>A list of weights. Length = the number of tables</p>
+</dd>
+</dl>
 </dd></dl>
 
 <dl class="py method">
 <dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states">
-<span class="sig-name descname"><span class="pre">split_optimizer_states</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9629835 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states" title="Permalink to this definition">¶</a></dt>
-<dd><p>Returns a list of states, split by table</p>
+<span class="sig-name descname"><span class="pre">split_optimizer_states</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.List" title="(in Python v3.12)"><span class="pre">List</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://pytorch.org/docs/main/tensors.html#torch.Tensor" title="(in PyTorch vmain (2.6.0a0+git9223c16 ))"><span class="pre">Tensor</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states" title="Permalink to this definition">¶</a></dt>
+<dd><p>Returns a list of optimizer states (view), split by table</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p><p>A list of list of states. Shape = (the number of tables, the number
+of states).</p>
+<p>The following shows the list of states (in the returned order) for
+each optimizer:</p>
+<ol class="arabic simple">
+<li><p><cite>ADAM</cite>: <cite>momentum1</cite>, <cite>momentum2</cite></p></li>
+<li><p><cite>EXACT_ADAGRAD</cite>: <cite>momentum1</cite></p></li>
+<li><p><cite>EXACT_ROWWISE_ADAGRAD</cite>: <cite>momentum1</cite> (rowwise), <cite>prev_iter</cite>
+(rowwise; only when using <cite>WeightDecayMode</cite> = <cite>COUNTER</cite> or
+<cite>COWCLIP</cite> or <cite>global_weight_decay</cite> is not None), <cite>row_counter</cite>
+(rowwise; only when using <cite>WeightDecayMode</cite> = <cite>COUNTER</cite> or
+<cite>COWCLIP</cite>)</p></li>
+<li><p><cite>EXACT_SGD</cite>: no states</p></li>
+<li><p><cite>LAMB</cite>: <cite>momentum1</cite>, <cite>momentum2</cite></p></li>
+<li><p><cite>LARS_SGD</cite>: <cite>momentum1</cite></p></li>
+<li><p><cite>PARTIAL_ROWWISE_ADAM</cite>: <cite>momentum1</cite>, <cite>momentum2</cite> (rowwise)</p></li>
+<li><p><cite>PARTIAL_ROWWISE_LAMB</cite>: <cite>momentum1</cite>, <cite>momentum2</cite> (rowwise)</p></li>
+<li><p><cite>ENSEMBLE_ROWWISE_ADAGRAD</cite>: <cite>momentum2</cite> (rowwise), <cite>momentum1</cite>,
+<cite>prev_iter</cite> (rowwise), <cite>row_counter</cite> (rowwise)</p></li>
+<li><p><cite>NONE</cite>: no states (throwing an error)</p></li>
+</ol>
+</p>
+</dd>
+</dl>
 </dd></dl>
 
 <dl class="py method">
 <dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.update_hyper_parameters">
 <span class="sig-name descname"><span class="pre">update_hyper_parameters</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">params_dict</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference external" href="https://docs.python.org/3/library/typing.html#typing.Dict" title="(in Python v3.12)"><span class="pre">Dict</span></a><span class="p"><span class="pre">[</span></span><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><span class="pre">str</span></a><span class="p"><span class="pre">,</span></span><span class="w"> </span><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><span class="pre">float</span></a><span class="p"><span class="pre">]</span></span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></span><a class="reference internal" href="../_modules/fbgemm_gpu/split_table_batched_embeddings_ops_training.html#SplitTableBatchedEmbeddingBagsCodegen.update_hyper_parameters"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.update_hyper_parameters" title="Permalink to this definition">¶</a></dt>
 <dd><p>Sets hyper-parameters from external control flow.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>params_dict</strong> (<em>Dict</em><em>[</em><a class="reference external" href="https://docs.python.org/3/library/stdtypes.html#str" title="(in Python v3.12)"><em>str</em></a><em>, </em><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>]</em>) – The dict that contains the
+hyper-parameter names and their values</p>
+</dd>
+</dl>
 </dd></dl>
 
 </dd></dl>
@@ -832,17 +831,11 @@ <h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#table-ba
           <div class="pytorch-right-menu" id="pytorch-right-menu">
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
-<li><a class="reference internal" href="#">Table Batched Embedding (TBE) Operators</a><ul>
+<li><a class="reference internal" href="#">Table Batched Embedding (TBE) Training Module</a><ul>
 <li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen</span></code></a><ul>
 <li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.forward()</span></code></a></li>
-<li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state()</span></code></a></li>
-<li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes()</span></code></a></li>
-<li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging()</span></code></a></li>
-<li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.log"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.log()</span></code></a></li>
-<li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs()</span></code></a></li>
 <li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate()</span></code></a></li>
 <li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step()</span></code></a></li>
-<li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.should_log"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.should_log()</span></code></a></li>
 <li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights()</span></code></a></li>
 <li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states()</span></code></a></li>
 <li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.update_hyper_parameters"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen.update_hyper_parameters()</span></code></a></li>
diff --git a/general/ContactUs.html b/general/ContactUs.html
index c394147f8..4025eee0f 100644
--- a/general/ContactUs.html
+++ b/general/ContactUs.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/general/Contributing.html b/general/Contributing.html
index 186eb80c6..015f7e579 100644
--- a/general/Contributing.html
+++ b/general/Contributing.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/general/License.html b/general/License.html
index afa74dff1..f47b6fc03 100644
--- a/general/License.html
+++ b/general/License.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/general/documentation/Cpp.html b/general/documentation/Cpp.html
index 3c35b1153..c1d02e919 100644
--- a/general/documentation/Cpp.html
+++ b/general/documentation/Cpp.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/general/documentation/Overview.html b/general/documentation/Overview.html
index 8d165e992..4ebb96b84 100644
--- a/general/documentation/Overview.html
+++ b/general/documentation/Overview.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/general/documentation/Python.html b/general/documentation/Python.html
index 9ddc745c7..7f1a29cb7 100644
--- a/general/documentation/Python.html
+++ b/general/documentation/Python.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/general/documentation/Sphinx.html b/general/documentation/Sphinx.html
index 382b0ae41..fc141614f 100644
--- a/general/documentation/Sphinx.html
+++ b/general/documentation/Sphinx.html
@@ -339,8 +339,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/genindex.html b/genindex.html
index e14ddba3e..a463ceb7f 100644
--- a/genindex.html
+++ b/genindex.html
@@ -336,8 +336,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
@@ -513,6 +514,8 @@ <h2 id="B">B</h2>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul">batched_dense_vec_jagged_2d_mul() (in module torch.ops.fbgemm)</a>
+</li>
       <li><a href="fbgemm_gpu-cpp-api/embedding_ops.html#_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t">bounds_check_indices_cuda (C++ function)</a>
 </li>
   </ul></td>
@@ -534,6 +537,8 @@ <h2 id="D">D</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE">dense_to_jagged (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.dense_to_jagged">dense_to_jagged() (in module torch.ops.fbgemm)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
@@ -565,6 +570,13 @@ <h2 id="E">E</h2>
 <h2 id="F">F</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li>
+    fbgemm_gpu
+
+      <ul>
+        <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#module-fbgemm_gpu">module</a>, <a href="fbgemm_gpu-python-api/pooled_embedding_ops.html#module-fbgemm_gpu">[1]</a>
+</li>
+      </ul></li>
       <li><a href="fbgemm-cpp-api/QuantUtils.html#_CPPv410FindMinMaxPKfPfPf7int64_t">FindMinMax (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/quantize_ops.html#_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor">float_or_half_to_fused8bitrowwise_cpu (C++ function)</a>
@@ -578,11 +590,11 @@ <h2 id="F">F</h2>
       <li><a href="fbgemm_gpu-cpp-api/quantize_ops.html#_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd">FloatToFP8Quantized_ref (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward">forward() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
-</li>
-      <li><a href="fbgemm_gpu-cpp-api/quantize_ops.html#_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi">FP8QuantizedToFloat_ref (C++ function)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="fbgemm_gpu-cpp-api/quantize_ops.html#_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi">FP8QuantizedToFloat_ref (C++ function)</a>
+</li>
       <li><a href="fbgemm_gpu-cpp-api/quantize_ops.html#_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t">FP8rowwise_to_float_cpu (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/quantize_ops.html#_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor">fused8bitrowwise_to_float_cpu (C++ function)</a>
@@ -609,16 +621,10 @@ <h2 id="G">G</h2>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="fbgemm_gpu-cpp-api/sparse_ops.html#_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td">generic_histogram_binning_calibration_by_feature_cpu (C++ function)</a>
 </li>
-      <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state">get_optimizer_state() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
-</li>
-      <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes">get_prefetch_passes() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen static method)</a>
+      <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb">get_unique_indices_cuda (C++ function)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging">get_table_name_for_logging() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen static method)</a>
-</li>
-      <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb">get_unique_indices_cuda (C++ function)</a>
-</li>
       <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb">get_unique_indices_with_inverse_cuda (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/experimental_ops.html#_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t">gqa_attn_splitk (C++ function)</a>
@@ -664,20 +670,34 @@ <h2 id="J">J</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t">jagged_1d_to_dense (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_1d_to_dense">jagged_1d_to_dense() (in module torch.ops.fbgemm)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE">jagged_2d_to_dense (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_2d_to_dense">jagged_2d_to_dense() (in module torch.ops.fbgemm)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output">jagged_dense_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor">jagged_dense_elementwise_add (C++ function)</a>
 </li>
-      <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor">jagged_dense_elementwise_add_jagged_output (C++ function)</a>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_elementwise_add">jagged_dense_elementwise_add() (in module torch.ops.fbgemm)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor">jagged_dense_elementwise_add_jagged_output (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output">jagged_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)</a>
+</li>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor">jagged_dense_elementwise_add_jagged_output_cuda (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor">jagged_dense_elementwise_mul (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_elementwise_mul">jagged_dense_elementwise_mul() (in module torch.ops.fbgemm)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd">jagged_to_padded_dense (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_to_padded_dense">jagged_to_padded_dense() (in module torch.ops.fbgemm)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html#_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd">jagged_to_padded_dense_forward (C++ function)</a>
 </li>
@@ -711,12 +731,10 @@ <h2 id="L">L</h2>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE">linearize_cache_indices_from_row_idx_cuda (C++ function)</a>
 </li>
-      <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.log">log() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
+      <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb">lru_cache_find_uncached_cuda (C++ function)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb">lru_cache_find_uncached_cuda (C++ function)</a>
-</li>
       <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE">lru_cache_populate_byte_cuda (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html#_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE">lru_cache_populate_cuda (C++ function)</a>
@@ -736,11 +754,20 @@ <h2 id="M">M</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="fbgemm_gpu-cpp-api/ssd_embedding_ops.html#_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t">masked_index_put_cuda (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-cpp-api/ssd_embedding_ops.html#_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t">masked_index_select_cuda (C++ function)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="fbgemm_gpu-cpp-api/ssd_embedding_ops.html#_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t">masked_index_select_cuda (C++ function)</a>
+      <li><a href="fbgemm_gpu-python-api/pooled_embedding_ops.html#torch.ops.fbgemm.merge_pooled_embeddings">merge_pooled_embeddings() (in module torch.ops.fbgemm)</a>
 </li>
+      <li>
+    module
+
+      <ul>
+        <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#module-fbgemm_gpu">fbgemm_gpu</a>, <a href="fbgemm_gpu-python-api/pooled_embedding_ops.html#module-fbgemm_gpu">[1]</a>
+</li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
@@ -780,14 +807,12 @@ <h2 id="P">P</h2>
       <li><a href="fbgemm_gpu-cpp-api/merge_pooled_embeddings.html#_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_auto_grad_split_gpu (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/merge_pooled_embeddings.html#_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb">permute_pooled_embs_cpu_impl (C++ function)</a>
-</li>
-      <li><a href="fbgemm_gpu-cpp-api/merge_pooled_embeddings.html#_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_split_cpu (C++ function)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="fbgemm_gpu-cpp-api/merge_pooled_embeddings.html#_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_split_gpu (C++ function)</a>
+      <li><a href="fbgemm_gpu-cpp-api/merge_pooled_embeddings.html#_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_split_cpu (C++ function)</a>
 </li>
-      <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs">prepare_inputs() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
+      <li><a href="fbgemm_gpu-cpp-api/merge_pooled_embeddings.html#_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_split_gpu (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/embedding_ops.html#_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor">pruned_array_lookup_cpu (C++ function)</a>
 </li>
@@ -850,22 +875,24 @@ <h2 id="S">S</h2>
       <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate">set_learning_rate() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
 </li>
       <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step">set_optimizer_step() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
-</li>
-      <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.should_log">should_log() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
 </li>
       <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights">split_embedding_weights() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states">split_optimizer_states() (fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen method)</a>
 </li>
       <li><a href="fbgemm_gpu-python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen">SplitTableBatchedEmbeddingBagsCodegen (class in fbgemm_gpu.split_table_batched_embeddings_ops_training)</a>
 </li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="fbgemm_gpu-cpp-api/ssd_embedding_ops.html#_CPPv4N3ssd16EmbeddingRocksDBE">ssd::EmbeddingRocksDB (C++ class)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/ssd_embedding_ops.html#_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">ssd_generate_row_addrs_cuda (C++ function)</a>
 </li>
       <li><a href="fbgemm_gpu-cpp-api/ssd_embedding_ops.html#_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">ssd_update_row_addrs_cuda (C++ function)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.stacked_jagged_1d_to_dense">stacked_jagged_1d_to_dense() (in module torch.ops.fbgemm)</a>
+</li>
+      <li><a href="fbgemm_gpu-python-api/jagged_tensor_ops.html#torch.ops.fbgemm.stacked_jagged_2d_to_dense">stacked_jagged_2d_to_dense() (in module torch.ops.fbgemm)</a>
 </li>
   </ul></td>
 </tr></table>
diff --git a/index.html b/index.html
index 2075d03e7..9f977157c 100644
--- a/index.html
+++ b/index.html
@@ -338,8 +338,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
@@ -486,8 +487,9 @@ <h1>FBGEMM and FBGEMM_GPU Documentation Homepage<a class="headerlink" href="#fbg
 <div class="toctree-wrapper compound" id="fbgemm-gpu-toc-api-python">
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 </div>
 </section>
diff --git a/objects.inv b/objects.inv
index b232ccf44c423b45df6887c7224ca26cf8fbd4ca..8f7ae2f77dfefa542b1475000b46cd98b4a41a51 100644
GIT binary patch
delta 16554
zcmV)RK(oKLfC0aO0g!rsciTvk?tA|Vo?G)!edf@Gec_uetK1rSQA>7p&l64}Ga;c(
z0xSTOt$vyxa_^s;UveX{kRS<=0FeoCL04BvB7ul6mW+(Z_1!<-J0E4|>htd(uf95;
zZXO<-f85`Ey>{Ncy}BLY`Fuiy#f(NM38Rrb^4v!{n>mm3#TdSS8>6}ZTO1RI&Rj}}
zA3QqYJbv?(%%;CMS9f>M+Gp9g5ApYyxc`X!gnkMMRqS`WcwUdjf4MHmJ<LD7|MdHv
z<)B3pK2w|m@)iM3{4iL;Swcx%>frgJc)ASaMv|m!MX#mo-kN@p7@Cvp_~q`_T)?ju
z`^~-y2>to>WlryZZe{6<=fyP1{_@;A^UEUr!*z>Si=V#l?h<e^S&~g<P3UYsMG3t_
z5t^N+z$;1@Bk|&*#C4|-0i4+XH(hJKXDl&63A!kO>Cbr>&>(SKAH^3abaF95`;6>G
z`8G)GV|qabo-dM%64r^6$S0TM&#~irvf+dmWailULH);nr^K0uvCo7>(@T*(2%{OA
zLcDg|7iUU?$K>f^Vp*6{ik&dJILR-kaf7I75Wk?5q!9U{`mIGwoxDL`ipW`~b<X1Q
z8Q25ylxn)}?dOLjfa`{T+}#>CK_*Z`QOj?ae|O=3wKB7@K2GC6r>g*dgPo_U1Fqwr
zC#!_TrE7qH>nQ1|DuL&~>8a{~>j>KkD}mFX+v#e6&p6yk%g?XGIaxL2qji2TD1p<E
z<q2y+#3<&esv`&;7d>9I0)&k0o~k;84ECO^GA=q&@*NUBbuC<a3Ke5CrRmBPXNuxW
zZWnxq&`(th{6^J}T?4;={PyrSA&YqRlr&qb`}>`L_4fq|5{R|rYxw&#M2QnouX;d#
zjpv{FYn$v8wT9;1)p8Qz)?mSX_4Dq^yY+AVdOVW}-Lp*VRk1Z(Klhp#_YFwACbj^F
z(___J5QRUE6<d}fygE40&<`K_rX+N{^j(O#T?0rJ&HG#9D-Gf>T1|P@1DH&_F#3Ta
z!bLrQ9N_S4fE>W&$t6jOS(_d)W!p!t|G2sOdh_M8kp4~9H@IBqjPJi(-9Eg3=iFbv
zeJ_TyvB@T7?FZzOAACYT_so>1&G1{|PuKX!(ux425O?rTS)t4CCKD)~n<PeE+01%j
zvY{<eY<zJlV=duJ^fxs1Agn_APCmc$ll!cHsVpPz!#noCL5^`FU29q!F3*0NoX)ch
zG!N$f9ZNp*NPpcDH(LcTZ$ABd#BxA_=|Ci)hkL_Oh|zfF>DXm(AS+zVg7_?C*^@<{
zf*^ad%~uoxXq9r<?iFk`O-P8n?M!%?BSS)bOX?Bvt6>G9<6OmxLCGtP7K09Q7B;<q
zceMC;Roa5kajLb&pyO6;cZ0`bX7S>CTCh1ZeFQkw1fSD%wmd3%f2(L&J(oX?mMVyS
z->b(qnSAY(8uo*c#NGO~eo%HQ@OncTglsGzVlSKm+QrOCo+64!d;)0yoTpEn0Ma<Z
zCx9}uyyKJO!CFxH5QU35ON<YU?v6EoMK9280aMxBBFd2Y@IMByn8;EUHjyQNtpYKb
zTy;?qZ!jN@3C!&=f%*9MzrTFz)aCL<bW~vec}%wIn04@mlP<Q1j|x$@PJ}m{f72+0
z3J;!pJuPj{IV>kK4w%A_jsK{iIGMaV#)HMSVfL{^qJrydO<`3-d8J9Me}<8NtXK!7
zCPwz|Gf;7=CJ!IGO(1J^MDK4uD=5ilC9l_}CF@?{H;>F06`yf1zL>bqDjx*RO`nnt
zZmy(MlU&D8%bAy%8l%X*f@ey)>)e=Xh%Tr1Z`~cNdA6U9KzKEomN1s4>+Fh^BzHJL
z`7wU3*cOGy3S-OllR{T)N#^E%3ioy>RBb=``y9;DER8^MQj<u4e8!;#AnfMfs<fMQ
za}d02csQUyoK}Jw5NqAw&Q}_(ba*{*Vr<tA*^@W7IvP&4w#lsr$%^AzNF@qR6UTfJ
z@tiE?ij0f@a7DyvQkVm#S?tX@`gK8WFNz9WHON?S;_FaiK!%GTEuP(faPMIc$AOr8
z2oZvkd*c;?Qb2<igYzV8KJ$Yk*5(`$LJ7BWx}2C)kuDXH)u~C<OWbN~LFl-rbR4n4
z9}e+nuZC{3uqbb!;7}#+BVS$O?R$%3l`IM%zbctC!tU{77wL*|m|c%^Y@57L&HSH~
zuqN42Q<~J2$vV24KBEPH=*i@LgMHdZF9a9QcufI#PDk`4#}k@*UB`*-os^q3#o}pR
zqsBZi#ZYfeDLWu0eQzF7?8ktoYn-rKbE``$-F)P~B{^PA?Fa<n+T@Nvo)lY}(6M4a
z&+yJfw&n+`yrxKjxEv~Il&x&X?4UN8;yJJ`1|ipUj}ttOonFv?q=RV;h@U}4;p5sn
z^8qKgn-02%mo5_UbBUu7h->ok>e7hFKsXDPzQun69h&hj%4@?DyB_2hRSts_2-C>c
zByeqD+w~gPUO@;xA@*wlj!jN-%GG3Rn_Qzdw)qmj88B{mI8UMT!o_P2?jStr%nd)^
z*&^3?MyL`Dx7lfb?znh4H+NvXyoo!o*->b0Yp#f2jk}Zd21vIHOrFz^J%Z*{3ik+^
zXL9>0$k{*>r|H%n!SkCV<_WsC4B=l|Kq1tY+gg6#_GNxWsaV)SuNrQ&hP5pft^*pc
zB|>lB(gZ)6PTBL2+dG6l`<OOxiy4g`sWT75DJ^ZyTTeBA%q_y79}?r4;v|f2%8}#x
zI{oW?`pk6|qFiIy^No|B-a#e^7$#L(d^MCVO7Ih#?1k^C18+G0LXVH|fkK?wV%ose
z`SVH2V5^Ie_b^y`-1aZ~(M=|(?ZSjtM*EDW3wj!0pN|41TbCR=KmdPt@>|#(ydbE7
zW7h5nR`gnbvdgtk8$XM1xLO+p4a^GX*|kSE%jQ-0c{!feGM`M|fjhVH<`Wcg?W<Wx
z=o!np|JuM)myoR-e|N_6wd`F^P(pS@p);qElOT6`&W-U0iUI(9&JymuN#-OZ#Nlj?
zaMHHB-+2g#B2`f>CCN)9`7b-ZT4g6yG$)hdQw&OfY+S@09r~7i*Ad}AMXjHzwr42*
ze$=RehJ&Fxb`eA}hOuiTk*#f-vcf)lNFs`6P9n?fuj?p+YACsTu0%1(AOJ=ly5of@
zPEfLlj|>uf`qdz1MQak~HEY-55Lw?KSSos}{CTajOh;}WUS>Bza(#Wh4Q?_?Kj2cf
z3kJ%6bI?XG)Fe#M)cJUfQ2hv=cV=il2aeNd0j>=hn==pR3wA7}<G#Runr2V)sh?yu
zfK!avR1Y?4N^{2Lp~v#?MYdP>eV5<&(JsDsx3#+*ByFYL1GYyE+U}t3>>HomNSUh;
zUK=#ugXSMm@<gNj0hTNb4&R5`pHTdi9?AiKf6wB@Y*2a+N}u`xMTM`oEzbtUcThZh
z%VG;1wB3ice-_`){5W<Je?~$1v!OrjSNVg(_pkGo!{vk4J7}G)I7CzbF__U7qqBp?
z57#)0<jxSvdsBBhOq6}U%-09a_n`U3^K7U{d)E2Tb@s07VTkb+be_Bn`sSqXW!gP|
z4a4t?IsbVHRd2viyiEO!k{*q)e((%=J;{dS&sffWh69gBT+t&FM<c25^sx^~=})Nh
z*hCmjp2DqF3Xe3P5t{x+LcC!0cX~hPZ&&mA#vN{K3Oc)|`TAPc)@c@3w#i?;Eq;^9
z+qKeu^Ik;p{J*{u-}LHQxzcBPVy^Um#(a(f7Uq|07ucfV*`mz~0~E#Edr0Lyly@CJ
zx&Bva3F#i1`F64PDfJOakZ(Xf0}<MdlpGQM{I6rgp6$Ud_I=h|iPYsd2D1@|@>Z@!
zFYr3W;81w$m!Ngik)qbnT(WiR`SQDFt{VzIM=!O*z}Z(7dne^eClKhHZQ$&GI;y>!
zMs`td41u3Uy2B}&dgr*-gv0he`TUI6MsM>Aa(!UsdPYk>kVTzx+!K7x2N{b%&7r9&
z)-J;P8a?N>)Dlej*o@fqqA*B!#pc{v`#4md)Y0foj;A_{hsrZh^1;cs3l8@6d5y8~
zJjIhcG@fY!CtO_fg`j<GZ3|L=XtNcDSycNK23SD0!yh-l-Z$9O;Wb6VG5YWZ#xp-?
zgDM?^^|ABh$4U4I93i6%*a-w|2cqvr>6onJzBnF5$s%f6<yMa(>B=GO+7B%?e}fdS
zkOOtWTnav8ClR2?ryYkl&sIS=i5&O=-svDOq0ykGS~X>>I<hmk1~pZGswr5^oO~K+
zXmIr^nuoEU_|JomDs(grAN^#|%a&f4-^BEhO~(#yv#p+@N##*`(9o8Ka_4cTG<Zy&
z1|O=|&?WTniL(g&KNqz1F<FflE-7jam)dLY>VakFN~KfUt<Gn9C9wHwKVj?q_@ZTp
zFdjYBAAa%#e>_vx*!VAh{xzDg+<iY|6AHrpxPL*4PsJ^2?M)=n&9*;Dgf?j|V*H65
zlq7+Zvi;uVIOd;o=ugwth|}$Zkv8Zx?-n;;l8Q?v+_ho3bw-oPKmXqNz|13+AX`m*
zdmdu^aUNo@Dj4#_Y$AcJ?K^d`zCY)y*0aSGteSm{!o@s3b-~hqx;%}Y-%nnaKfgQa
z;*nFABc^}mV{Bn?@<w4p^Z9vzIE?72$s=e5v0^n{ncKs9;Wl8{-u|b}g}H|uM=Gso
z73$76W32H35ec93Pa88#Ln8Y%?t}5p@s%!<qN=)=c8lQ`vNiy-m$Hc2xg!yX-#pq8
z2*hv3>qvy*G&l8s%F=L{MS67!e$Xgezi`rWaGjWWWmy*U`3cx0jFZwX;dmM*T*pdf
zyMjXjpq%(^KQ)<L@gI)rgolk;y&fc=Rl;oLTSj`70pXC)M;a7cyqBiyaBG=nwdJ;c
z8^W$1o1*ReS^akP)h@fgZSZM9fYZkZnC*ZQz6UcNqZtW*eRg==k~A3d6%FalEy&vE
zVZf&Q*-oj!oM&Xtp>>|NIkP#%A<~|YEe9i>v=Pf^PGQt;R%I~gQ5$p!vS(mUw%jM(
z7bqLf`@xiFVM<jQOnD}zv<6F_z9r$Up+%mD9ks!ZXJN-7uAaCZhe?rhFyaA6o(z^e
zMoZ4aaLOKkn85>sB~RIs2i=!8nDQ7+ncWOFBswQ;M0QKWFw%MkhCJ{#t-+YbY|Qx-
zVcP0omBF6JY|j?gt__AfK0`L#v{P$3T{(o~U_OrK<GJE>Fy|4Nljq9U!JtQAQ2r}m
z2eTfZS%=no9%kjdB6hIp(b#k_=2;k1#0uHLut#No*dh3yky-h!m>o=dOeW>Ba&|E3
zF`3jFEP6f`<+PG^u;=mEQyc7gR`wj??U~qfn1neeWAa>SJ6QAxEXsAo?O@R(uqfY^
zw}VNKz@)rZ;10$-0%P)Ai8~nd2n@=5MebnKBQh$-mAQjmkI1e(R_G1}?Z=?3$7D00
zg3hIXHKZ<_2XpTIxE04XpqHO^^d6pzg$HjMyeV6*k=+@>ZVADQS-hAHt~Iz8C)e@=
zLVxB5!Ozfq@T|eJI(rt+4Hknx4gSP`f5+fegIDq2UNU&q;8mP=w+t>dxD>C=HG?k=
zz9eFA&)`>sUzM(hOHe`wpBj9MqfZUl)ZkTrJiTg&QG++}@g}}|F9(krJc{qu&%vVx
zkK(%Xba1G_p*U`Q9o%VfCyx7W2X`9WiQ~54!JP(o8dh@-zQoO!cy4+g9BObVu6wQr
zhZ-D;@0RbuqXv)Swc~v7rNNgnU)tCcGkDhES)DzL=TQoSKMnrG`y_|Krv{%AaFE1*
z;8ufM@jS<3@TW`nr>+;?8CqBFgBP8L7jZpGWALiMt8%Xrb)?4NVuOpVxfu7OH3knG
zJWRkHrh{J%ekJZI)xo<4?-F;T>)>63cL};!c5to1wRqoeJNVS#QzEa~9sFzXuWkS0
zwB3F1t--g1-6TDD*Wg`c?;2v(;8lEoy^8Zu9fM~Lo+aeA_QA6T&k}NJ{NPxFV+pvs
zesHV7tv1|B8{BGeEB<aZbb^Ch@pP+Ub?M+!+<l7c5g&tN4UUyN7T=>j2FDs4D|al;
zM}7>RHF#F;S=^5P7<_8*sWqSCegw$iVS|U|9>(=3kioA8zsmiJ`;j1nZw<bGwc%Sl
zj|LgsYjCd(_u_Iy$lzD!;#YBMu_XPZ!I>X3It!y0XOZ~RHII<hHA?rlIg?EmlSxdc
zUQ-7=fZM;&<0B=GOq?Wi2z*K#NR_{oQQLHO+1jSL?qr`;EKA12%j_mdmOfR9C7TBO
z*i`-=akb27dPFuyS!8)e(*-?$LVPK%BT<|p!0nYrSSm4O?jF-W7c{`snbP1fdE%?7
zPUwU<eJ4aBoT)9K^ht+K(<JnV55GeT?CMU6wTt>Pg5TdlS7kg?oP^P;qpAq-m1HK9
zpAJu(_6C}x*?YqLaynq0{L5@wx2q#-N^@R91mNxDM<Ec$25<!Oyqt%BAP!y-)VaNw
zEg6avg?r06F41_lp<|Nl<#a`wEv5n!C!o#=WRHmxU(o#|PCPNc93@yN5LlgE5bW%<
zN;Ta*z;4ruMAovB<ZTq8mwW16-;!FOS%sMumYm$6Kj>UrTz|0n56JWgo@c=53$^2g
z(GL`LuEAAlH~l@p55~=ZzmdM4Bs|;f>q)`C3BR5!99y(FA-+F5#GOp8*qW!SFi7an
zY#;(pQ5;tzjbq}}&cJ=vQ;M=urg*(#bX~l7`^WotTsWy~BulLRzMu<wlh7FtHujPl
z<1kgSRbsi~KKgF@vl}C;pen0tR8xjtaVE+<oG+#*p^p2K(58ida5fp5ofhn(1n882
zY~*jdSbbJdF^_p&{(U)LS@S)w-%Aq<yI>x0y8FdxsM|^97pkrUPu;#aZLx1#9kO$I
z8u9~*B4_DVZBBr^JY^kr+S~=}spT5ui__FW`;snBOP%&ZT%5LsHrGf$LuTGkPc0V2
zUWShN7rSZ=m)FpLgIh1O*n0M4l+atrdSV(8UzMJWLPQpxr=x^^YRl8nhw$?81XUp}
zTRj<N#7T&uH%WZ#MByS}l3cPn`l|L$Mj=BJ>7iyjI#r~dXPRD?`%fV=Z97=q-<E;x
z`K!E%uKd;Y^=+Z9+j42OgYRVWPH2IClp^;y7j~5Li=2OdIA(zXeN1zAzZ~J&nx}V{
zBkl!7GcO8f4x8HW$xr?rmL@mm+oZE?BS(KB`c;Ko%n3_>(ho(2<YN#p!+A;~Mn#V5
z0VxN-qLjagq;LnTHaT(CXKw8ux9%P(p#_Gs`66Mue5O$>cG1GI>fjM2Pc$kGCS8{J
z(-40zu9bv;7Is;(M<SOr9j(;mdqlryXXh+}ghm&th0F7R?0SUD3-yUVOU*r-UzFI3
z!2fe`nVtK(=q(S0IS&owXQZ8bZX<pVMRZ(iY<6kT-7)&GM{A<@SzL-1``cV_DH`p&
zP&;#V_A)hcDa!0^>&L|?w4c)a+_l(ek$W+^6uBvX;8L_HezVS{XtJ+CjdNFHZ~LMy
zMWelrJe;{Mhc1Vk4u{bVj=B`JpY5#mC}PiB^r{PPD@Sg3DdsSxiQY4JAxi9ThuMWF
zw3m^|i_vB;n?Wx`m%VKpycB&3UoCYxs*FT#>%9~u_PCbo0+l-WCpT4!+<18*%Is@z
z^M$B?Q|Q3?<!G_D9p)FJQ1Qd&7o*Cd&*7!QVc4y?DwipbH(fwH<UiUgRk7f$f~_+Y
zDtL+=k3AwWdpk_v=wuc@N_<2ji!c0+Qdn`_<PnM6Pw{j_0%wW&`|}o(CCeA#zT)$+
zR~B{}V#I`ro%}!n?s=0c@8MP}RKt9)lIX^N7;W|dfAbxYa85vfoR5IPV&<@2greur
z`jD?YLEsRIqx2$20jJ7HP1)``pQ9m(o*LL|$|QDThr49q_r+X5*(+D_*w_2)s@4zt
zs!rOT)`1+q8vNiHO?{Hpju)wco|avlfFdgTwCvjJ3s;Az0fyt(L0<{g38+H+RL>EA
z>0pN9?=<feoZ{a5CK<x63pN$Gl5Ebn^2e=PK6bJ4b#^e?qQ$nf*Fe~|-Mj|Ic|<)L
zMet2LJ8q;goq9(Na1m2y?$2qfRfn$uwA~HKJwgN%Q_LyqXmymkW8)fogyQ5HfrKIz
z5Ql`~<rj^F!sH*5gu>++nK%Fq=nv<ADU1^~tvX-c65k*+&FCzQUYteZPuD>y)g-Gg
zl80XlFj;<9{c<~J>>HZ@@8$*-h;4=f^vJ`6vb9a_U>tl*#~Tt4lX1o5%xHqTG&{A1
zW;aBf8lEt4T$&ySbc?|Ee12_jom>+fZY2;%kK%Gr;p6iB(D4fm95L~W4ZJ{q@d*wU
zG&@4#?Ox(=@{3|Z(D4gn9pOErz@JVLzg$8w>dCf<uhj%N*;Oz^F2?PSagMSg!h?bd
zUUk`^cRH96&Ri&+96Vn%u=CnGYbyuz1`O5_u8qwe{8jZO&kev#Ch4$stF0nuCB7fv
z>4H#aiXeiwT+(%BipUS<_T%J#A{CGu|8f;Dr;!t**?ii19rDSjfkrcS$<90sr`b$h
z?4U&wI*$<|jXL<~vHW(`JfFRjNvWUO|I0qa>H3a5XgS26wQ}8~l%;s&qy;$_gPesi
zN*|x73=Nag2B=kaFC*^AMaQVulSxqXcpZVx%|K^m95FGhcUd0$iery|0+7FU91|zg
zD>W4{0-c+I&dNBi6UVsAk}dk=mzCKK*|oa!y7sT;;t3CV$1S+1rgywjU!<uo&&-0t
z@KFl<*l(16>|ea&h|;en_^USGSCRT6O?`Q0e$6N?T43k}9Dg>Sa+-3ncJbgN$bEXp
z?Jho(37SsB9}Zc73NcE5DA)1kBN0*XeA5w0DQfcLNJKn;Bc8bd1<h-{s&t$OR;nlI
z`l&;D8$>xGA$y%K?p?yOH{p4kug`S=eG2#3N3?wGOO)4)mOTsk3eBxY3D4ey=WV|J
zqa|12qD27IQ52z<<zXw0;$;0cW3`6pu3g6UP}1er^rsV1wrPle>8YujUk_p1)$zR|
zZFBrVf547XW6e(8*s<Zhj_QG6M6?C*82PmZAz1me2ma8GMQiK=0WhWG2QiHjXAxvO
z9w_PBQK&`}4!c0M!#bG|c)a!DZAXMZy~`mzLhYo%a|;Ol3vs%>a{@Z&)$JPfbPoo^
zwebl@$gj&4gOpo;w<`wT(P~d%=Ud5v14yyGRv)Ovbywoh3+t!EK|U@m$CJr*!68LK
z6B<3x=s7>k9#2smA8-iUXJsBMS{-RNBok4Lk`jS*u}OCPbknYJieBIaCy7uHdto%&
zQjxNcN!1Y%tMefmpqxxfpER}UQQ&4rJ$n=-i-^W-=-B~(G~Z7|f|>sl-1~iYz%nmy
z(TsL1cW)SIM{6?4Zmmm)$JtNb26<iK&QmG@Ex&((n&nq}+q>P6SM{kpts8ze%pu6D
zUPTxY-ALbZaEilHQ)V1-3ye{(BaVpR#8;9(7br;lf737N`*%?YiF^!H-#-6Ts@-Ub
z^zZD|Z=0uof!#PR{G+IU&j_bCntT9Z7E=`Y$qV~da@=cG+Rgj<jvW%V0I(Kdy}Qki
z3{w^O>;6_&Ty_tWlf2BSllcDqt)eXHp{0gnC%LiT-MoEpzW(=J1A!-#x6Z?VfBJO&
z_5S86l|G@fIlFIp-C$>}g5|>(tAN1=-rw9`UwyrQROx^J_HgaoUw`~|sS5ZTJj-6V
zRQdnze7Jx6`BJ4%$?iy3&RTdsm|v>sQ+8Ry1q&bUOw!L<`U@64x;()@T!q0iaMopE
zC7$C;*Q(hF!fT4(U%_`W3hAf(I~{cl{;{r*E9dU|-uW;nL+-6oJQ;QLQa7HAHhQQc
zPevDi;%my2QHAIV^JEkuzTP|~RfsOZPDU4lB63AUXRijf6*XHY=gh(x4U)yI@$JLS
zZ+JKA8P#3$ek#A0?$D?gax!_}c2()1-4@z)7oJBW$0vh&MW`1e&`-L)HoXnY$=2u%
zsurMXLZ91SF*NA6g?^{uqmR)vSJx0Q1Znwy=fcT?Mw~#+J?L1dj)!<5PRqrgvICKM
z(6CSq4;gYFTAoi4rtFVF(P9<7cpg$@5gN|7`?cKiIH>qw6%T<~psJHFfpTP{!X7j&
zK+_P9hg4aheskRp(V_<(4@q2SHODb2?fJhC@%Q-syKZ~^Rrp#qHfdgG%$!FW&<G`e
z)QQ3$4k9Fq8_%@t;;NWCh_|}lt>G1LJJ?MopgI4M<qrAq&ope|qNgKfE*-QIKX|55
z`%}hFQdW4F9jCDf{681xEOB<k6-dgSYMU~gj+j$FpeS;(^Bd3Kk5>bx(-5b#;^!^p
z`8w`;0CI4+2$Hswk|!(elm?H<)9K28xtJ3HNswMkx>q@NWCrkk6!9_J(Fj}BQKoV_
z0sRT31Daogz)aRNlXF*UaE^{#ksF-1m|T;Cqmhq&RsQVk47elnxd3sq)aPUcO<X2Q
zdhlO3b0NYuJalaBoi+S&CCRnJhRUN~*VhMswSJ9AC0o`z;^~4w3`KF$b{P17goMnU
zvBmW^CnH>LwDS~>ooE)L*?ii%`#U}n*<==rQ_hUeAZ$JRF>Q3&*({7+oW<s51=+5k
zw+vmSLGy~o*pZ#t2aI$Dl$|#tiNF)nsrNbv<`MNMJChQ{F9Ggg5XIa<cL@XB#R}()
zI-1@ron<$ubcrzpFemA%B9Rz>d6<v`zQXjNE)qhf<%QArE>_j*h?diYx@S0Pr7?yW
z!Vr4w6jtOCof`6-n(Ho3N!a-2+#2fAicB?ePEzdU<KSr+bTWytNo*G*PGU9TnMI{8
zlBsKyDl_o4C)hHlFbUbFxy}-{=gmd24cM;8jpi?tSx6RBI+Ds<<}b;AQy8R-Ht#50
z6-?QS<NsKr_=bcyenWqzIo0wP2rfX7Fm@$NW~0p0-{6%6TTqY=vix?J^3GUn(B8dZ
zfgxijwE6-3_2z*+`;|TVE_-r02mcN|##bSsz@7oBnA$IiU&Cyr1<?@SKpg&oqEvUe
z7LOMz8{?i*6tPzvHi2+|GN@U9KlA_1%7KK=PXl&JamBePU`_{nS?S;`rvW`58+v+S
zwd1_Fyn`Ed$XD>w8}?B~<W2E>c5@w+g3iCt<0E{a5NEcSZp74T&iNZj+5_z2m+^rf
zBzuWF{rp*(WW5wH6U9Oi&mvP+_Fp<pm*4$>s*sHu7G}y18W#$GV1sq9%w9`Q5x!qM
z8$!b-q+rXPP0j7kjri2(W0kBRu;TA@X(W-YZi5xa)|aMe-=7_axQ-0}Wb;)Rs#G@3
z8Yg5jMJ}C=#%;#?s|c?i`|dnD#Bn<lpDIoccLjXvyV-A@sYCCz4tv=jIdOJTRaXw|
z`*ju(Tf*8^H?`+~rKCimAXt&CJ5*&<K1OB4KKB!!#+#(mBTv#YX@Z`Aj+K$m3X)~H
zG0OVvxJsDX<6Kfg<8?ygg3#MP{s~-e*13GjzT5+j9sS7(9+27vka21av3z>WXi+G<
z6|^#m@rp!iQ?h}(hz6MQ(ASb!oyP8$+?wf(O#rZg4YWvqLP*$l`1Hn;nPY!_cRjkg
z`!;%;eF%XzSIr(i6K`()CL6!0%BbLcfOe`N{Q{K7vN2YbasF|gs(!yKAmr!|Q`rRm
z9<dQRw5fyk*x^HXU@_h%wO7%EKGSJ9XXt->xA3RrCWw=0fwPsO+h*PQd}iGA<5BtZ
zDrPQw$}c^CG(qv~Uw&n0*MRFU`P<o#W(?C$M*gP22QW`5jn^n0s)Za>94{bh{P2^f
z(IdtqS^3Y7*iwRHMsN%S#}FNJge6WNuC5rTHb4{T<Fm&{(CJ4gdg+D}=#BGt3VQFB
zjDCOj;ri33(Z}qI7BHcA9zkoE`oZGo=vNp0n@<0K+6gBR979Y<364{G8O)r~$Bfat
zl+mF$Q9wpBgu{6BE1se6bo8GiNLYeLj>v(<IAt+TIgC^K6_VsozC4V6z50|vxk{mM
zlnuO6pk%BOHIfV3zyVVI@B<S5h<V^INR`q4Bm1lwF8mw*PjHoRHutC1`Ee6Scntp(
zG_HPsy8@C|`JWA8%ol#(g$MJ`U(bIw<C#Yyb_}2&<y!?0<exveMk<d#_odI8;d%_i
z$0-yo@xk3&iNc5U*RSwvGv-eyB0o?>xu~Tewyv1J6)f7ThW&x2(=@*4T?*9y2jk1h
zrTs|Wqom|+N^G(Y<tzKV8O9Laig=()39aFO`jV1vjc6WGD1=#bSn2IROiNNLosI6+
z$fqwh!xhtHw3tI&g$yQSCr^_c91WiRC=A$ZhXMuK;{{~F!MLEEYqCuH0RVhU0o)V-
zGUZ;c9%?8`=q0I76FR2>f#RsH6l{V$CpKOq_E4~RU;4B_$Hw+kRBtj1)sLk#k7n$D
z=}cz@%^j9514vJ2eZ$HXz93S%taf2l%J@q#ec6kFZJZGTf)T#@_WtcY1dlX8z7Pl*
z<qtG?d(%i4@M9(fNJ{wr%hjw70kp-%JhjCef5z6!@I;XkPwg?zh^JP0AL8#2DsR{)
zy8-2)UKFI9e9@yYaCLYfG6{gesJ4lJbDOB<FWJbpI7Q_gwsdv(@|AsF2aLI$Fn?mi
zbAL)byNN$#fP|?jgS4R|2CfcInllIll+xcqRFgC91ox(>9o}R$rC_YfQY9~8*9#V?
z?$)Z+hR9jX*c)!fY!h|47G;<VgxSbQO**m#FE?X4?6(tTfoVm4)o$4&RzC25vXP^N
z&op}W>5p`xESusg7Dd&<E8fYc#Kzf_*cd4M_Fw5I*-EZ2^KFpDtL))%{(8YKdv}yC
z1G~;XZHV<vx^|&w#N&+VxQsCg@f$SvA=#R*qe=HAZc&HF*}yOxAkOPk=fmB%5p$%s
zcQ;jpvl+=YwDUJg<a39p;85~^yrwM5uatPaUwypEq)=&74$J3D<iF&f{iRrivcKPM
z(ds+&*KIst+xi=pZ)=lkdsNtBZ60)O4s?6gp#Irx#$dS$Y4l~zcIAgryq60bUmAtQ
z<9lanD`sigjLC`sn<Z((omC6n*t2A^#GmE3EdVV4>V{(ZQ3*;@bNqyVZ~b)MYud!_
z8;|FvFMZmM-2^2Ngwt8B78<Am@yn7@NeOS4)Z3vdf6y6N`O~t28Y^vWlhz&sZSVJD
zsYv?b4g0DEr%Ayv{j`M|D)yY^e~i<w$_=JDwylLXdo)qKP-i2(XveW-xT;wy)G}mM
zplBDi>R_}DUE4tNrI*=%C*2WkW@QDr7ABjbmk@j}iBJ%GVKi&tCsnUxuJSScX7siA
z2JMd|Rm56)O)Z|bj#G`Lo$u@b)7E_|;bb3<l64jHz?Xe9UZ-3Fe1LJwn_2ca)z-e3
zOhKR0kDGJJ%$0r8LMz+5Zc=MyA8#718K&x$p!<|i`BtWnyY%CKRhkkXgkX|>-byv~
zn0`sWEa~S{O8g*P@Xl<Jv~}m5=t?9@81G7q4nvw5qGVNGc+-!^tB=d5+gZQ3XRbjw
zFF#tb0JAZhmQj0)ZQE$Q&bwWdu3+9aI<K)`TS3_c#@af{6`|%9iRXx&-?ZQCs|Pcq
zKcs(;-lGIH<<Qc9;u{>>+PloRowc_Zx3zVNb@uCsFf|>HAp3jFsFZ-TFu|_PPkRl&
z_jKq{x>;(J@0My>8Sf@M$p-!MFGhzH@=eaQPQM-J-;S&5{KI71T=Kq8$(2jwM-LD0
z59Zj~>#JAkw|D+6An?gy_Nzt&A6FWxfwEez<83&HQNN0Rwec)N1Kv9)C`RRP8zEsU
zqgo=^d?j!DY_(Mrj)yKSZaS0HW_fV~a2pE*f306t+7w`Uv0#%KxC21eEe|~i;-1O2
zCh(TaD_>?)Klt9szDrz7VoO*L`6n%qv1EcR9;saw))-b!DPI&;xk9H2AQr8=gJID+
z2eP?Hrzr@3l1=${USW`8$%yS)q0#_Zy6A_K#a6U(Rn@E|Y65HOyLiOTKxJ{4c_>6+
zm+f1689}~)zjwmPh>vsP<2B;rjQEF-H}9@Sf8^}1*4SUMCz?xAENAGta%?$e&*)UF
z{%Hp#2smL0f+ZNdc>nqHA!w5Hgb*%xGEyt`eEs-;_TiyDrkNl3I1Kn$Y(=cV^{M#e
z5M+>;1$<zol$MxoAhQeF1Iia$@jz6Ns$Q?v9@999{3HxGLMte4ARK>9KW-1S>k`TW
zUP`B830Dg!4OYOnMb&N<d~>W>GM+p|;o|XW#H*cVV?8<5@mhn;cQfV;uMTRt>!1r)
zpZjxv?$8TgWwa{=$h~%ScXQWVj7GZ<n&NK06QMD(c~op4NSD2IN4F%Ht)s~i-od9C
z$_MsobCmNiPI7>0juDT3^}=YBzXX{^r}|<=J<DL?F%TcGh>z~r0~zqEoc-^>{{4!5
zOHr2HcSfx%_GK5IkxSt&yYck17WkTNPic%-uhkZn2Kdrw-5FN8d^e-AwN}0<2wo*g
zie;@NsaxdS0NJ6tc$$Lcy_2W8NUXv0E0A+JSVP~am2>cn-JxZ388NFkejD+u6wA<A
zHM><gmL*`t?Qb2EqbezXD4@$U@eGlX4erNXai>J{#<?QOK>s6Um$k@0if@`DUiAz4
zo}(^ES7~lR?CUbYy~{pnj%*PS>iGeLoA_nsvdpOSaL1D5I47A8a(r8|ddOMr9NH-7
znw1p<nh|#7DT#bGw8CL?K#>z<gvSNpA}x6P>3zCTJNx)x*x>Ph#76>PXN0$4fBxg<
z{mt9Xu=7>%JU3&MiruI5D1(L@F%AOXc+j9R<~Cyodl9B_n00*7B1rrh<p?zm#jMvW
zNSEv4w70v@zUTzLd<ZeZ-<u|Q%|$3}awr&-1u1XW$iD6%PF^%G+^LVjdFDP>S@N<u
zr9Mun-)wNc%Q)YEy)1V&bdaKD>EBX{?c#qW#s0c~zZA`f)EWX`A5q&qlC}?CHqOy{
z;<FLbY>;J*cI(OETKwf2I3w4huHFrQi*!|uo$=gVXxD<zQ`co>(>8P6jXzIdmnBX`
z{<<u38l<m#rC1!0dpDC{QJsCKA)f>Cw73z1Jgssnkf(Kj4hQ7R&Nd&9U?-0v$V{X3
zh@`{Hp+<r&yW)K8V#zo?!D)BBRGM?WTEpA8l4_!s@-R)WYAFxtv`|ZV+=sVXwrivA
z5^ohp+htK5PIes9`jFZpVCS5dQ!keW_-TfshLOB-CD1Q9-EziNqI;inEhSv<mfv>4
z&Ys~6J0n?tftXQf4mKN*-^g;))2Z4vhic^cR{8ZLm(kz!`W(fEAWfWnOQsZl>&&GZ
ze+qStR^!EFmAII((jyv|fjS+H>7?VFZgwW*G7cAXzix6(!|fm0w})d-qp1MwX|Sxt
zp2oxq?9F%e*DNAzc`QJa{b)N#W}jpqq&r|CRezd)(F6*kY_aH0uWfsT!HW90ME&iG
z=a=QD2jb7Sc9Ky^5VqzoD3%=wkgDK0E{V6|SeEpvK=-zc?rMdOgZyG8t(J-({_N=c
zBpl_tIe8&Z>5h{yKP_YQzTlHReIVK=A1d%E3oWDS^CLPSX0*pC?bTTme`EYUru;U}
znrMrEe0{Sl@55ErA8T@!N;mx3mPtYIbK>jhe@{Q;0$xBnt=hYsGN|e-I<(fdTdsM?
z(Qps;0aApcEc)<9AC5D+|Fz_kMxO)G&d|?Mc7ZoPJp;{gLGu&P|Cs%LAj0CtYF_9H
zdS9}i2cmjL(*@-RDkt|x`r|JRZ)d4V`SxCa=+eaDcM)mbQ1@RklV4<5s@2+Ith$nC
zzj|sf^4Z$Mdk}!F?Z@p@wfEY`lD1mo-Ek4xe!cCxMXh$@-mhQZUH_GxOOW37Hu{vx
z(H>##2E|_!m;QBB+$J~5@6~Le>%I5F)ooT}H(M0^#yP)s(&txjX18`CLf)`TG9EX7
z7jW;ts55_p4amh~pffJ$yv?}3FTcsU4R+<m_(S>@Tf3Cc+_F3NwlQs;^i_@LYCf+4
z!wA#?$+kIFv8_4@?f^~XWa{|WN?x%HsG56`K3DM1Xe`glXT|;+fP&+1=};(6zOA*t
ztuKpXkJ3L!-{Q5`Bi~)5;|ettitkr{M2b(AWIp<MnYC<C$iK?ZkIDX6zK1hJi?n7;
zu`S|i&8>^_OaAzH5m!mIBKrs>?!s+EGJo`gpZsm%R*;IPXmhzt4W;bK2ln4JI)&Om
zSVBjkmyWbAa8gfnP4&O9*T$hYE?&FJ$y{ZB*YVo0a3e;gcPb5D%>ugIY3>Ps=rN+{
zdHJJX{|}y`|MS<@ydm+)iH(=U*e1*sAYfNG-rE(s|NWo;d-d_{|NhVa`)f7Y{0^Fi
zaPp_K>tw14PD{?;fMW4@Ra;onoG;iW4*KU}d#JpgGJ9#feCdvnxX=IkOKs$>YO~eh
zxp5?}33K~7tp&uIfL9g3_fsx^1^PAteS^xw{K*e~?&p?0R~);MzO&BlF7yL-_iPOx
zc9l5FP?AlQ+4f;VTXn1%vGLlstR`e*gh1**!xrUAzAe0zShnu`vSp5|Ns)Y&<7)n+
z83fi(u50W-By8+`ozUvKrY3&5j;rXxc|a?+3sj)nohj4+By>IvU((QjIgjY}=wTCJ
zD;nd1#`_i7yX>RAK)NYs{q<HV$iLn&&*Q=;bm|9neMQ4uuGHX46hGuF*PGmj<pcX5
z!$S!tugXbPIMv4zlU54Nml^EYT+swvzHXp)8^!k4iDuBY^~QFK;U_4v4hFfU!10P^
zX(7Y9$-fql>;*oj*!O&YT;-()cxXYc%0<~hMLDwy|E%-PtX!(?w^&^{eq7d#d2!XW
zCo30fb)DHdhoVm3*}?5EX4?rVK&mEU?8hCaSxABVF+%gFMov@8WD11&%Q==0>0gbw
zvdvCE4`iCXoAdmLzS4j0X1Tl>HXdcWIAfYGSb%!zprBa>wW2<M&bD+G)LC`59Y^n1
zV6wfQ4;x^b1lJA0inttyiwM)k9#<tr5&Sb!nWx=vuzASX?Dw$j$A)_6dAi#cVMc7D
zO)QBu%dGQqYj>4a9;B!$(9#3tw_aTxGe5dvzy9Sh3Kw(7VR&ZgCCRZPKO#w1B^eRJ
zGCWf^C9KHQlCi9RC`7>~@~i_6FJ(7z*D%vvPr;h1!@rs>X&7m`h7H?REJMbw!Ihb8
z$eOKF!%~P%5mrq}CKy?!2K-csxLld(sxD)LVwF%uQZ>`So@5hGRV7W=i7oSGW*DlW
zsmMZDC)83ULnV^u>9XtE$dgU3%nTPRI&pPHmJQpobQzg{hM{3w(-HMNr1NFwS(aw%
zs!5SeiL83qqzY9{%f+Vc${tr{7ACTe728r2%hfS46pK>bvP=UU#V`q1X0DD@f?P|L
zL5Z%6scKjlV_nl-Q+GAK?aVbL%T-j<P>?LkmPuU$sR~jJPok=ZRIbdhi$HNiRW%}+
zGBs^1Q$%Ec(^gblrZ!(S5}is!Q6=y}6B?VVQ&aUMEK!POop^k`ky_YPG-^vkl@(1l
zb;HA&D-qk&JsaW)UuLdH3HB^%NV16xqIrhr$_6w%tYJx`-I%Rrci2Vdz)r!2rWqy#
z4Fh8vBhOT@YlE=1th&(F54qQ37e5`;Mv#hi7t0=hwOnB7dM-hVtYC#U2qSIzS;RAB
zV5n)jCwa1D*$P+>sivzal4Ww|=jucyHZZWE0ce(OBTbVfB75MX1QFi+ptm+C1V}@3
zsU}$%`cTuhBm^<WU=5xhzXd^QcZ!HBA)EC!u1O$JtG26qE=C9hrP$=o5V}oO@pNoh
zD#0p$V`zG|?V8ZybxkpK?hH-IMc|8)Yssz!G1Q_8bmU02JWYjgO1Lv5t}26AGV}r-
zBnlpJ6--P^1^G0Icrtf}6v;$IR51u-dA5onNwGZW`*c?&2K46K7_zfgna^m@6M41;
zaT@w?0ztr(UC8^uimGljNWp5(Y~96E#j;C(A*yKx#2G5f8gvY%CP5aVVivna@H7-p
zgWMU6DG^A{WYhGBB+IVmnX)A#EQBYPfr|`|>M15NP3RE~SvMfscruk51n>iRLN|{f
z4|6@wgl<ZKe%G{EH>J8JL_N<C!4uk~N}-RET!;cL>-!Bu(vV3ha<OFz(X9uaqKZs^
z1v)~>l2i<G+a@@%smMA-nk|MW<b=>XWUAX1w!nvM@Fz_&po7G6gPg5B&;3l1q^XMH
zg4~|$c`j8<7t%b9g)4|33YK37m1^kFi(Bv<_?_ojHuMZo66q2YU@8&P#v7orfxiWg
zX%h=kSu-HHQJ}fln(L~jLSD&&)PT%?+%{cmLnK5lWJRiF$%>_61wy5Yc%aHJR-Dn~
zDJ0|U)3i>7h!0#%UC~X5__m8!wS#O-bj4K7R<nd_{7N@;!E0mWkC)epr9C;8K?@#H
z429}c_b??MgbR<V7AsuU18)W^LC7Zq(+d-_9Da<Re=2DQ1eqo@8;j}$3TI7!vY`lb
z4O{nAO@Z8^GLc_0POn<{R++-@U}-B<ac#r0Y*$ikNOomNT`XOvvY|?f?22Hixi%yc
zo{CM+lOPo6DikXare!G16qPeeT~3+0va3L)sk2PbB(f?&xkNx>7u%498Y)MosW<vK
z8v!v*Z0VW=O-WKEowzmvYf8v}(x^#wR}5DZ>81o#1^h=-bk^5Fi3T35+E_ufdPJ!^
zSENIXkUZ5;A+;x-<#|Ygb}U<#rhqrwhjPs>lFRo2F-98DRw4Ja6dl{dG*mWhpy|{i
z*n$eiKIGQAUHojQizMj5OkL7dtay-ln?!|<o_Gkde6J(Ftu@g_ohB=Pw&ZCNq%Key
zLJ32NB-vP%Bm>--nE24k*P8Iwbp@(6&G2*=j7pdnyAU7@Q-gd}*NI5phKW2vpb#cH
z^gWWPm=Jm)0k@#s@I1{G%A3d#o3NzoGL)v82VJ8p88#G;RMm_I<2D_5+p4QWZzHLm
zY7vVf&qfj?<QU3I=zcwaQzUOlHcVEJOBOaI3#uL!x_{d;3FPJ~*k34bq)JdW%Pi+n
zi3L3X(y5_aiY3{qEUO}UyBejQVWr_if>H>pP;+9#Wn<%ttqW>nMG>!R2rCj%Fu0eF
z49&8kUa(v!r#;hFEuqXIJQEYL8Yse$r+XIUz^0{nu4gF-I%l1K1M|&``3j{&&x;k8
zQjO(yE|g;~RG>0=zd{T}ZBT#K-vzjndoH<TLyDz<o4KYeLA&yF-E$4dxIE}ipePW`
zp6D35WXVMmrO<^y#%~d-QJr;XkaXID*?XoAS-dG*(3KeylxeaJb~m6_vyh}}Dj)XQ
z{d%i=;nM8ZRw3no(+tSSY*z;-AkeLPP-;MU#bA$achHrXXV>SI*)Q8WRHH<J<iV2&
zHJ~K7b;VY7gSwtcUD=cSz@XX?Y;^;)Z@IDpZ4E=Nt$3EKLtbGar56kyVG|+5GE^i(
zU!!A8HP<5$44D_$ePA#Y)&i-kQWM#hgrVL707QjCR0jWl>;(h#^b+`<Y+ITsnUd{7
z9i$Q6l?@5<ELReW;W4*`rr3t*Sr}^+Vt{Eteg%M_of?=xU(^Q%S2s-6)gZ%yO3<L1
zt!o&{25e$m!Wyyqz(6GMe#5gM4qLK|b;!S<ccc&`C^S%+U)wBhFU+p7%RK>VLDjW&
zgiYJ96`O^BC{wXba0}U$H3c1TC*od~Y&t}7p_oAgK@)&VUuS6mWWc&Y8zg+~S;|-i
zhPr|z5YZx_WoCASA+=@wza@etQC-D@%*v$T(~wvjo@XHq>yjqPCY1%SRAkwO!c#I`
z#dKYQB~6CfMF)dw28KW*fTe~to9c=Q^)JLxNM$vDh-8`v6@=}{5a9%{)LjA*+<-`7
zP*2fp6+ts`HK<dt%GPrTU}?x8rsg6K+NKO1qflZ&U#4nMt|6p|U<q!jLH((DY(NYO
z5@;uyu2Kk6h6V+(h<1r=0up*E1Yb>2EyPyJKw9j&2+9%zdjeRxmVqn<yoEp(fLv&%
zkf7;*Hi6m`>EOvCSW?%3Kx09r2mPH!B_t6^R-yPaStTT*U1CpX)-ya}B20+^0oP#T
z-jI4j`;kRNA8<@hv!Op_1OA3&ShB*xF2n<3THwthSc1zy;VLP*g)oL>9};WXgd`7=
z3bxWk1WR3$2!R{|YB~ctES1>0Ez4k4jk1Y<L{2Qr^`i{wyK6$P2|0tNNQ&YrssU!y
zA+40`23c%-mXNALg-)SVwh=}a2KCBFwIFjvmP)ZKfTb!yw3D&tS`uYbSr(Rc?1AvE
z0vWuFMX<DO3er%+#E8`@hM_=h;sI}2F`;%6z*3Xg{Fh}ADnTtQ8Q{W*jYYUNCTtad
zlL(fIVwwa>aSPZ%;q56Z(G^XVur5ooq>Erl*-9xHSRqqYB@au6<Vu!KS>tgv5sK9%
zw)Dl+ZIcaCLlO(xg`OJBh#}L~hzOPnwkTC4-L|1oDlU|kx`{Lvk2DH>iU^hzGCPwk
zpHLwufdo&oS-3T!GczT(L1BLYOV4(HZI=*5AuiIPgf%7V*;t~GBA89qXtif)s8pgZ
z1XqMS6B(8y>4pwjmu0vhClwJ24A--OxFsQ#5-5r_+t6LlRN*76dI}Z65<^PqfhA>2
z0gr`P=Yb!onhklEg^3}6rO76HZ4lPdR7Iv>SQ&XL)jd^JHAsX6u(Vh!gnHk9U~5Dm
z-Gk6)T2fjn*ouNh*wT`r_p(hFW1>qgf@0656#5ktLFx>yEPy3~EExoqpe|4>OM}i#
zk#s0aJdjwGWf6)+9>i|o=ppDPE$E~zNq1cdDtQgUtSutOVk#MI0@(#Es;Yq$$+ZbJ
z4a}y~HPscu(ljj<%5@FuS;$9!6a+=Q0wKt<*`hoVwxqyFu_P6I2(n8gVVBq{hVUxO
zHdYZ5!4jD)cZ76{5JbVEY)J%?J;h?{r)kHYB%Y%v-YDB4xVlg|%WNQCw-f@!I@HgG
z1rB7&xWRgplx9<QP&6Y6(nv_JRF|#NG!>WX*w$SLNf7(EvCH-8nyRLMLD8eg1|h0x
zm@1?puEN|1nreemWCy>B19?_yvkO@rq&{p14Y6(4b2Sz6Na#-t4XTp{3$f-?KXGaf
z1!{}MG{AX1O;<b#tZEvzK`i(eQWQz?)IPC5t|@D}22})Po|10qu5BqYD8`0j*ljTO
z%M%O5@PFHb-U#|y$f0z9wzi%~k}N|v=vsYZ(Xc{26+sp0=@^P+762>*x?|`iA(y3n
zV$mV#&?ppr8n`M{dy=V8$nTKifz60)^oqrXe8eN53^rRs3=>LSYG6x+j>jgZ-6s~q
zwjmrtXM;@SS{@YK27v}8No>0lHF|AFtXxzr3TdgP$PzfKAwlzhwg~pXouMD@6$_=r
z(uoRLq)uGwSuB*ht|epWO=yF%k|P#N*IdiiW$KxfEn$cH-KDlEX)-a1LVDGUg(b~!
zAy0wu4<$C+JV`wdD>AY@)9W|x+KNN~0NY=qLL>69>A4W=42vqJf{b4KBLww^2Xz1>
zI#ALX&<B8VB-b#1Ee}(}?o}^DVR;=J4FxSgAuD0Uz^Y{`wxYUbgYgNTSX^SU6?~>@
zV+_fW1iwK)Efef25bS#OU5Y%*lU24FPGakDZ4Z)B6`U8@;6XBfe{pGgc@8^w;hCmu
z8x`G_3|)e1Uv^E;#>69_1Td3rAdgfJ11{MEJ%^>7IlU%-{4j(IQ_)Q5{XJXPA+oxX
zg(<R38H!_S9mek|oYCwkza+$Oiqm1%NUgSh|H7Wm4()@d$Hmjd0WUX!7yf0neLO!l
zs<d-FJK`w4$fR`J!}_N7zX6LmyXY)^Z<5K8zEV1KX?@E9UI3y0{Zsx*E$mzw?B12q
zT@>qE?UzJaft-b;MPk4F{AFBxkqMq1WSQ@rFMYe`wfwA$wYOu6wl4k4KFiPG%D%s2
h=&~ypzCSw-aUB`{`Ex-R)bSHK>#|P&{{xB`xA|Fi8!G?+

delta 16418
zcmV+-K;6H;fdRIF0g!rsm)ppZ?z?{l&+U0=pE+z{U-%}Ks^yx}Qm&HPo+q3{W`YHa
z1lRyrQu%3q$i07Ve#wo*LV_en0z@XbVLY~qBoOh%l93U)zWc{}=cDZ0eE$98%~$8s
z-P4ovkH@>Ox6Zq_H}?ZPn~i8NpV9~=VKk5jo;#+~sWYC<hw$5f5Y7BIaZDUKbtxf!
zFm}RO{M&Ofo&4h5JUqN;pJn4Q#NT7${v+}e`Y9w-vES|Dc{>>X<+dRAH2d`a)9(+K
zgXT&2LU9Vnn+G`Y!(aht0VQ#%gJ<*N=`xTzNs?|AeJf@6-t>dS(41t)9}oBD9R9S}
zU-n%<=+CdOGx~6UFH2uMFQ!TM$#WmfFZ1++>lUvT|N6eWOTf`+K{k~&q0`v}CG-JB
zXnL6fFDYG(#Ph2X*PTEFaAN=8bfx)Tu*3u<=&A&!KWAY;gT!%t6knmx$<+w$GqP9Z
z+aR%z=@l7xHczffSSL;*pInbW$BygCh7(?qnPcY%^~cYDi8Bjhp9za5*CKlmMpHC_
zc<s2a&V&Zz<oRl1S(s9aoiMsO$*-qzgQ#f`zoL|+5c#V5t$9qHyg^@!$XTa#$>Q=E
z*aPvDYP#<I=cfgL+nOI9?v1-36R4)B<+sa!yYPQoWoBc2oW_C9R{{J6JI_@IT*p7p
zRtfWK*8talQPOi&0?&cdbJYRY5w<f{0;fT@^VI;Kak#UVpI?b{wra>n>-?Zs0;eI%
zGuDELQOt8yM-VzL8eg>ngpBN-t2%@X_MWXWt~yfk9TGlwEnIsF6=O7^>B<ymg5qm#
z7kr1%&s7WjM%7PU1HXU#_VhO)i+J^vG+V3t`-Am=_c;m@h_&Qv`1>S8i4#$;dO&}L
z=b!m&>+BSD3(bd{#U#YN!Ginp--jFT-oN*^;~9<Uo@H7`#a46u+%Ylk8<03Awg88d
zQ`K7#g+EReTb3dm9UN%rhYx*I5;|V`F2vln0i=rN<Gt~f25}fIr#!a<7>&Fz`hg<C
zMLisU;P7jJ9KhtsB}s}|n+`E$+edEyxV!m!_vN#Y{!P}`xZLK9AHUq(KfQnFJl?*2
zFNU+R&L(B;2jr6<d_q6>%#^3i@LS?fR`|%$k^rO-5AdI|LKnY{Mo>D}NsQXEnRdct
zO<SVa_~KN?TEds;Z)oB{ScUYRe17LAk6BZHSw!5YckF?K9OF*9)wCvDUi>sUon;wl
z9?bm*mVD-s{<a}*whCZYfBN@?<$wg!fk;3P_lA=YqxQ_xsmtI%Rydyq@kPk8CyP7>
zLH1^wM-&2Rm2%kj6>K$4NQk}7On8waLqdE{wj<(K!wN#jxr!Bol2;ln1|8%qY<lm1
zWbyH;v<0E#RBMYt$F16K2am<f;>Gv0U~_2t2ym(izNG1Fc~tW8UeU68E`J&=R1o{V
zw;kJP^tDxL*bPP!x9i)wLD{On>kMTOvax`Oy>Jd_=Tj$njwmAW8KC`hmOga`NaF~f
z0m{tsj!#YpYeD5h6wYTXF+MQ5JJtk$y+XGIOl5O}C`0DM|1p5YM3$<si7feR6^PO3
zrj3etgZXeuVD3)|%*VI?{pDM$E|)i=lLGV4Q?gadtb;e4bg@NzQi$4hBD~@Jn?@m2
zc<|iuw6s3wu$ag=U<yMv{-c88X!PzB4;I^m*~Jox3a-bR!m5UHq)DxRhLNm)SO=vh
zM)vLtP;sgz56A5$khN_@AMZaaD9L9fZ&#)zx4pt|9+@vHKI33~F>#$$J_wqdJ|!F6
zTuG@Wxr$*cXI^HijUxLAo+;_Bbz|B>bTPeu@9tpDv;DLL!mG(Ngt0JPYgeo!xx)#{
zkMVQGrYJmC7+bEN6uM$dGS^psxHm(gYWvAQ=3o|PsRfFYnnVKRGY%~PVLSg;rQM|K
zgWzSu!vO{2v=VFqvC<9he5KY(hvR`0W4mU^p1qmX(r~i1Np3YrRvgztDp7EnIOdCp
z=VUQgWL*4*D<V#l!W=M7V{gXMuM2W}QB>gCf{X<xz78b@WH=Af;@J&<_a63e8i=`v
z5FseJH(ntq1vF?eIM2f7Q$ILiZO#xOlyEDj%ZW)9=~59{otjj=#I42_gpPYk#}ONR
zaEL!W8oKquqP&5ELzTRbe07Pp?=6m1vM7N3s$|Xx+sBVxq$|c@c0JCqZSq1j^?y>r
znq*5&X;NJ#tLV1$84W;xk4Eon?9)DZA-H(PF$Lf`9np~-&uHSc9VfPTQm)q&i>G;w
z8uP#uL%lVj?0}f`y;(%D9|NAYal&rQZChID<|F?N$?<AxCm;ydCU*kzq}bAgjurcP
zhIb*d)jwF}m?8z@a;TtIwz3(sgRRLF&w+I@2)U+voZxZn^nyBn9ZYRN{0u4zAJ^WQ
z4>-ZybkIJ$w2^?HOPq{AT$7KZOCur!;Ve}87XJx!XvVuJuMAJ@dXQgKISfu9Od}hU
zz*_^`uGhHs3PSJ+v0nplY;uxQt|nWX<Z89C^_Td~fN{gac?z8uE?#qR2jNL)Zut4m
z2D#cZLX}{+%}#TF$HmLJxdY?nP27P^PeNlGb4C1W+?}M?K)P*U@|=F`5Hzn+xI@T1
zliQ;pX9G=~rdvA%&u@;HC+MwZ2>;Ro3ZbUlR`UC%FY_x(#lj9c)o`sftWBwK9nd(I
z2%ULL9sFoAVb4Qu?-2UpV_L&4rZgH;XBLJNTH2bonrfJT8-zbUCB_TINf_OgBggG+
z`ssc8%xx8-Tw~euwUeOEK_&<oCRJKI8cG)>_?b=i!td09H=KW=@ff~Ph%=o}YM45I
zK1msDbP@6%1`Chd{9`}5(FiqNm~dpYFK9BS=K=QRBv7(-$*}_j@OLM_h0Vcpf@(PC
z)*Zo$zLo5MV(rt~zePA)u8o2QW`(ot+M~Ng^V;@(Ii7B1J{r9PcW&a%XDH&zPt%al
z3zl{NwSng@AzL~A?t<lO*t?vegzShyXGS9@LGI*|8{-cY1pxSxCER<H%vnf?!|4p+
zq-l4*^AHe4s-jv-k{3wwKX&}I%ucFkjz-0|7?fClyNEkE^bPy26T*LvT0d89Pf`5+
zq)`J62Sau2B8X%RW7|j~Tbndxg?;ywL=;V(M3&j7+bDu+D0z6PL@~-B07f3V<Ao_s
zP%@8C3=(_#Xppj^H3{>Ywe4_-tgjI)6}?sdywX{wBR5a4)4L$Ky}jK8HyWj1a4Fjb
z1LZk?Xd@VE5+-Qkd^|;{egw}uQ#6|a$4N8?*M^MEnT4}CJC@RMU*Ui1W>2$;pJX+F
zQ;gVD4>oE_ea7XX$MWArwzuu~Hh=G<UHtBDYIiY6+DN+xY>(=--9p>hFFw1GGFKtI
z)@!~4&5u#?Or!h(mMruR--X(rQT&`9$^oB$r}2E+E4>4yPyB$Q!q=OYXT9QEC?0-g
zv4!^9?n2u?i(jXH96O0WrJ($2-=B7?{NCZa*LlO?@?PsLw9Zx>qKQ8arnJH6Y_IXd
zHO?Zr(}(iT)SV6!Wxp@-^<MKGXny`O?JLrbb>4TKo$I<EVmyM*lh<C~ob<g&yC-3P
z_<cU(KQE!`H8_fwshd&KlM&VrULdb0*>L;?%h}Cv;OU4fdSv2cBo&@Mb|ESK33VQu
z2&2h!xUouMOamIB$r}>lIjg_Z`#Im-%w}tMxUnhd?4IV^TUlGBSzOsBfAu!_jYe-*
zO8fPD5ykWWdL+K-)wOb^&ve9G>5Tb*3<WIAFV-%wMZ?p1lNAOiiZ}O=%6lm9I(~BX
zQ)vn59-8@fvF0iD2}zJ|K)wJGnvIm45dQqrDPqs|U>Ey7w_J(T<~Rnk7Kidyu39hf
zI>q2nc&nG7wbPNJZlSqg>u%@E@0z)GDEJ(`)C>b>Usdd#lq;P;pl>#Tv+JmT_I4WC
zMY%Qvei~^Hr)cV}<60dKoBQPRGhS=G%`eDxftBkSE!{vCb;@x^@Hro3ECMx$rlwfC
z2=8n3oZC`EFy&)2V%LkpAmJ68b8GG6P<c{Etv5NI>MR~A&p^osC*LkO*w^RP#=`Ry
zPwvoorU{&Iam^Qk=CQRYNTJPtRv2bc?N=CJ0oe|J-28gqU{8lv7YWDc!y6dS{GbV{
zbPU$V&a)pU;TSkVMi;OX2-prp-;L5SS;u{KJc^QeRJY2l9!1iXL)bMRTB`pBDPAE5
z>Vmlxe8)~AK#@;d4sl+rf^ZT!@DF&WgS>=By_&YFDO=T%ox#<ssZvdU!F=lE(?ETL
z+peNn82gF;((9-~N0V^uC%s-a^uqimreii8+q=!CdWt5MN9kTe8yd=;$C=PzoILkF
zv|U5j(8DLrJn;XV)5gbS)n2%ys9U&fz2<H^u<Tr^bV|F?`AkOwo3Hj0w$6_)T6PHI
z$wU3&C(rQVg|f!RfAOz>QHSO3`x)y{5bnp_3sQV5Zc%GzB8hIc-AN*}Nplh7PvoE^
z37nMe_d3Th|C~X8nyyBiY#xlXMz4OixCWC{Tr%OV49l%D8jb$>_u2<$o~Q)bYU2CL
z5aW-_5QA00kSAsn32bfOxr_DvC116kEv{hI>^KVNv-sQvOY8D~G<JSJds+Vc?xc%H
z&Rvd}{+W-lg~8byg$>Q;=K<m{qUR=$pcTZ5Rd;1>2kV8KfMI+4pVt@W9&#M1w4_z2
zJKv14!Useoe9k|u%`gp#?9aFh#yiJX+DwY7>R#FnhF{3a0L)&>B4+1KL?C|iXeS^L
zzZtI+5r)&;)RCos;V_GIbP0aYC|kd9)^c#2m^rd6^V#eSY!b#vX_s(32@|ekrLtYY
zp#V@${5GE&jc)i4N43Jk#;lG9$!C=?TltoeUS>czBy>!JVvF~}bS-Wz)2yc4R&PVt
z_0PI!`~IzdyZUOE-M`lOwjjXi>jTVozzN^I8BfuSguXa`ylzSA4S7UEdNT{M_E{LP
z>3+6TsyF8anX_-5=WWhxPO*=)mt)J`h-YoY@|jZ@HJerG4SLcB?St$En3FB{N%sZH
zhV#BR<wclMReDoih$*e!lIL$pc&l%bmtjY(x8p_Fv5%`~ZpVI7<PwZ{z>z1tB~Q_k
zvoM^n2d40UKyS%&w&X$grS+yfMN?)sgY}8dSsRhv648&eUVtGFyiKb&<|!L<HbIy+
zI#{K*=PBE>!L@6>Ay3bcH8<^SHJz>;!m&3WNAvMq@!Fg71kA~E<!f)y6EG<M6|lWo
zPtUA<YrPD!a$XVJ+w^2?+8gsCj45J;Y;V|;GHf4zd@snXd{@l&COsvSa#=asoAi`S
zYV{Vq9E);VN!#1=bnL11_Pi*2_VM;Y?AcGkT#_+)uC(nfdIA>Zy5hFC=m}Vq@5<ZW
zq$glfUMp~WW1fI9d9K9m4SE6w<-H=eH|hx)mE+3X-mWKPR~{>LdxLgkP}XCz8Bjsz
z(i&2K8_vBs_kP`oV-wJeZ(Di~&&9&MH}&3>E!W8I3}Lr~;Q2J3PkYzuU5k@z`2nFn
z^Ml~0Xx4jH?^&%qi{}Q5-k*AZ;=jM6_p08j_-`-iy{h*r&bwQBm+D=L*XEkumwI0k
zvA3u9tKP3l*TW?!p}kM_KE=_e`fRHADxO|{)yJsboA`JW-@TW;NA(`Xck5^GQN2fT
z-FezORPRt6H@^1n)VmYMeYd?k_3p%R+i&kqy*u@*IeTB?=1V*`J@*dPI~3PF*S$ma
z4#juNckfZXNAcQm-uqJTOPMdN?TP6<tM{zdp2hPhh2Ecff8u?TL+?|)PYF0kqIau*
z-mQ3^W6}H5wfj@s3-1iAE%)AwF2jqs9;MNHRqs`~SBW}Oqj$01#a3L5`_US`hxHyN
z;11K?uX?`{ca>`IUA=dSyV14xuHL%@T`b$XR_|K8@3-xJs`n|8*X;KG)%(|`e{tIG
z-uqVXTf%OV?!Bw`uCjOaF{}3~zFx(D`KXTGvwF`Ga$9@vS-ocoxir3atlqH%++E+h
zRqs}7Zl(2Z)w>mcx9U5=-mQ4LRlmBl_bKi^#r24f-m!Ye${maEQ6Ify^^TQ07Uv^B
zde7=TEB7pJM}PD_)%(<nPjNp2r1!Ai!*UPfdK5_SSG`~5e#QMrklwd?-&*s3EuKe%
z^zPNW*P45AIU=O@t4r~#IJH=kepBPjk13so(W^60{K<+($m$BE$NQYgI*ZXLrW3EO
z10KNbUuZn0#F2@UgbsmkX$`6JmojSW&MsS<G*_MMvx;TOczT`Q1<AsvDzRkKU?1zs
z-yyDs8BK@CW+;m+FK9BSCx|b9#dRWzQv|rZQVUBZhRoe#`sbVmm^u?0jFV@+nrekk
zh|{-1B*K}R0!p8B=p;=-fB5h>w7|CRq*%MCFCzHkJ#<yZ3&lwoEjy};0AERFH2UfA
zv}tFcIhwsA%&+GI*2#a&rghsovZmDMB}4$;PJR*saclr5AkXV%2;$&>IYF)4i`kH&
zI8nH_oYNAGXB#>t$zIP_r0IMjFmVFvoIrM%IPnGDP2$88^Xo~1g#v-q*#*JYPODVY
z-2?1Ctw>}oD@oo)5qf>3-t9fv3N))Qv%->-8*~SqYm4g+Hva*c4#D#b7+s-uyfFHK
zqSiIID($Af2l&Cb`8U#k<4MA^%^pt*{!RFJvT$tC;)MAA;t+Q<x?yXcZo(j;KeK@d
zJV9|>jWmvlvvmgUvz}6vl`_TKC8OKo#rr?rzvIG5T_IUw_4hfQ)4PODd9bk;)EI|}
zlC2WU75CA1(|_ABvI?rQx<WN&=oM$8%);4xf)eVuuL-SN2xpUjq1kD{E=qt-3CLRh
zwu{wg1r_s{x8=VV^OakE=k<4KVqq7|15S6pIt{fusr*XSb>OMnSEnuZYokMUu1`aL
zKvCo@+^We5kk_ZI!%myKVm&onV|;a*I%r?g)oH2Keu%5nR^R4o>8H=kYwD@Ng4pZO
z5&vRW-NNM<dT_UY3oW*uJsTx-R<fR%M#NX8XQL32h3EMwp_|(BeDoo_d^|%{h|5;b
zMj3GuV(3j0A3ISv511s^td6d#y|YnB-$Xj7*-lOsY3G@ym*xIb$V}S~R*&~(V0%85
zH_?@Uy1l(G)OBAjt#<Gojot|@&`(n24(Gy7Qht&152q}DFrbfV?(WwkJX`bh?s~+%
zqG;wt;nZPM8$S8Tzr)hx+I;JDwoT;dE<_(y$oY)0^e6pNR7gGr0W+NEBw|$Ls2-4V
z04z%Ri%1H0uxgSMSAFMh{c!K@krG;9IGxQCrpp%^#bOsNoT?7SD0!w)X)x)!#Gi!t
zdvUEKw6N=cl06c+r0Ha(F5e^iJv%#R9waonQY~Dc2V~bHTwkb9{Ap_L>Flb+o(KM)
z^Xu%~S4D4lD9mMOAU`AR(sLW}dnlsQT4S?IgYJ&ehdo*oz0cxWwAkI|f@{%e*M-`J
ztFx1-k!w+AXInq6Mxou5=9jL;E{oi&(WS^u0oS5`P4Sy`u0@kw4QgDv8avw;buAk0
zbmZZ}b=h}0+;rHFZgAA4sQqjgtw#}i-lC%}xUC$y-KChrlqP!5+?6P?yB%g%qR>u8
zCa*@DoooiZ5?yw-ZSY$3DSWlm^{6ruxvlqFl-S`~t}9e(@1NXMDRSfGl_;~Tz0Fsm
zPN4&T=hvgf&UTnzi9*E>n_rD8`#y)43j1NV`l?){Jl<pu@sR&$uT;f?w+c4SP^jQ3
zc0Bfk#O&-afs>P2{3!7Wi7dYGJ4s>1b(1F~Za2l#2??Af=I<|CNR}*Lh5L%n!;UQM
zB*cgb6Fd2V0^IW^Ro=sGt57xby-K2MW3<_S1N_Z*Lc%!#{c$-02J@-Ib`gr6L+e7m
z@&tiHD2~#L90i;zBh_WQ>wJ!yBsywf$COFz#141K!te8$fU;Mv<gu^!*;TC{_R}_L
zJ6Z>F`fBil7c}unRy$s$20B`HaR!R0=+m-mudiGkq6QdFUk6<!RA-<H@l!n~q=PAc
zioesmQ*erV@9Sg;yDr#N<VvzR<H~>T-SV-Em9Mjd(dG@dr5yud({^(VjI)S(G>YJt
zczW7MV><Cp8sI#p&di_DMyn2w0kqi-$sIxj6I0A7>S)_2x5vgc_6WtvH3A7mDj*IC
z#mg@m35Cf&CJBYhGcs`i8qgoka~LOoY+7};xFx<uXqwV#7`;04#GkB!QmRQ-UnCEI
z7GSdctor3<&e%0H|KIfuDiGTg1!&B}gtE0s?qD2zOvf7%50i1l<V<OT+B7?L3(a<j
zI5j+B;J7qB4(R5A@A>@N-YU5|INVAgkRHY5pu)%H`Jv+%8aQI&7aMqi;u9QyDrmNZ
z#M`~Z;p7*^grMUW##+LAL4iM+Abz=oVr(bdAih=;;AB_95V;t)J;oWziU<!1CV16l
zgWl<2MmTk$baL=)Uc=5S@2spG&}%SQMYu9Hd+<-ymps=1Ga9AC){VA`T$K2JfG2Z8
zoe6>n-f&6Rg()IGnA?w&t5iULZv5+2z>G#tjHa_m<8{bqqXrsH*(E!(Fq~vFb+Loy
zN$89tL~3>L(YX9})jXfQlS!$c+W*Hs#OeBuJZL$@pEh#cla!@+<g5j`6oXuZF-l*b
zsSGuf(i*5$buT0C$VJDf<H;nbc^pTeOEb_#8AnVE>s*#`S8;4C0Qs?h<Cr*^j?`4d
z2y|%%x+vouCysHKC0q2#FDtWavTJnb_0~`I#S<R#PFrwMP49H2zDiSHpP2=P;gb}2
z+-;N|cQ4*)MCqdme$?iB6sfP$)YoU`V@7Gw0z)t0_|w^h)0B&~iw7S;9@9H+ckvmG
z&}0(+aL61~h*3hhjyIowh=_vcn@&hdQIj7hBI4y6@xl!#XkP26(s3SGsh*_krVi<B
z5aon~>~y}ka|tirgqLl;F4qBcDcrb=XgTgmlw(HAj)gozbL&vTi#OqAo3Hz5$yK;$
z9sqR|Md)>L*h;N9xqX|lx`pVjUB=s?q|2@8PbZ>m(-6~BT{Rzn4`I{Q@tq=Va{NJe
zz)n(Q^-kT`vEhCj)dRtZXba*o@@ox3u<~gS{GpwS*4PCCU`odiVj3mRJjixDP|~)e
zP>nhqc7be$bu=RIc;my{P6&T`mqU7l+F66=77)4@;(UGQ40O(`+cmb+Js1$z#wQ#h
zzb;n{Qf}R@7<eatt3838ZzTr~AjS4tU7!}%U5P_4te+AG`Lwhgk4CozhZF@(X!Jy*
zm;5k$JV9}Mz#(j(m07H4+eot^nTTSPlnA7YO|s*s>voM3^a?LHNrZyf3!~|Vij;j!
zs*Z?Qo)1w2<!Ds;rmjs-0yjJA*`p|#M>J+b&kmsZekKxsO#PqW-tV&mmU(%LW;A2D
zd&598TBA{RYh5}#&i>_XkmCw>nNkU8`P~atFTdK`-tC&as!!!<-0-tu4nbaZ6k$Yk
zBVEhEDGp0@nQ_D|Fh(6m91+2ZuOxrYQIPomreD(cAEFQv`536aefg<WyU_ya-`T6*
z)=vYwb6og;kD~rPBb?r7@&SaIPf+A1uk2UJac@;=H}97Rc1YM9z*>Oy;XXeyOjY31
z<Grl7>>eg3d7V)w@%_hpMOn~83k}Cka%aE0d;8>k{qKhw0*^*-ou~i)^y&8N<K0av
zeL|-*cHi=<!7f?_i-)gP0lg2rzk9sB`FgF=|NiZN>DGC?{rK%#74SEBmc4MT^8elW
z@c8!gwMw6o-I1<bwD5i~yH?RB?6QU{7CzjWq+hi3S1fvTeS&|u34<5ltjoemJja)A
zRkId^V~XEh!FM(a>8AWUA9eKpv8s?8=i&Cz`Oqsv?yOQg8+CM2H=d0)I;bMgMi=61
z%Ck{_h3E?NY!o5B-aIE&h%Uj-Mi;#zaz#WJuLiaiHCrd=Ov5P+lKHgu?ZfqNcsI5)
z+IG$Rx%^$aLu0#;qtW}Ot4e$AHqfp+_dFUoKIzpfLcJJ)e$w@|>1|j}wnnd4wE$HU
z`qK1@p<cfY^g9X1K1P#VU46h1q~)J;Ckq;XaRN1WuVbM)?&F0xEf*hU2O@K?VWArC
zGvqF`Jewd)*@s@yVii4q=~HA88qT--HQe&ptN36Q_kmfUs*^B*a%8Q-?lmny(-4pQ
zR9T>YbKUmQq5~cGNnC3+$1y4G`F{-Y_xSz0c6<F*_*pjAY2IecoG}e(gc9mR;SUFY
z5fa6<XIge~Rm>g48(r^K^9r~f>_#KdoIhr{Lq7a72^+ZR`G}cI2d%^pUTD<(l(Dmv
z6&_~CY0Lxv&-o=woE>omlCr0orVQsJ=EM&uik$5H#>@BP<$&oV#ObW~WlMRvj=LIw
z930Mrr0JyO*-AU1!8mz7UpeP9A|MHW(zlZCRE`~)0sJ0Ce9U$-!d7*Zshmzge?sYi
zX4fDvll8*n+?5(!q9a%22A3@+*W}=2<YPaTzq>dC?#O(uK-?_#Ia@&!mx+=d{1;AL
zh_E#e9b0*41;1QLa^<k0^61y??ZH2-UL#V;mi3N!GA9s2QJgd#20kMpb7yRSaJ|jh
z2$vh}GKFI&n#E{3n>6nJPESNOnZ@FiGo@1qTQ7c0Yh89W4Wn0QzP?#Owkzl@LRV?f
zyy7u-WM}pTBV7Sy=gmkW@WgcD9S6ZIq8?>uQlj`Zz%2}-m^<h$V1T<=;fzs7le>kp
z>;{!CF@^x<ByCkB5+e^2a==%Am>$$cLddkdF#6ucs@gW9<uqa2Gn}+i8$%3X2#s5X
z6}d!b3wch>br+{3tbKFt7V6THOf_*%Qtaj9;7J&?GKsNHY!@R=V%6c9MWr^9sVkH!
zGw_us*fOUu3E8H())F@7%|)>_*e=QaMnW9_Mt`Om(BcmW1<7+r2D8_Hvfi^X;mI3#
zWzMGm(;<;J53lfOkRkYwRoc6k7qG&Mou}#t@aeZF_Uu>o=)3I6#f<qoG>&gVLV-O4
zR51}hOCh9M*}`mD<cWs(8$`_?C`xsgYw>ikjwzI6(9cc%f3q|=-Ij4KxEEdb4E%w{
zXM;PV7oaI+9jr46$76VZ>MY;`*0aC~t}#PVUV@#6XRx`U2}Kcm#fi?P9mZ?%gU-$a
z_H#I&5a(RnIitAbT#Qqk5B9Y_<~*S1L%`3kY=~%9+|k1gdz#05e{me*Ix_qxn}Wem
zc(IwoI3c46a_M9+Y%+vhMR@txcjv_+j@z2}L~(MsOW+gV&HieCO&u(?3VWe@C(iC(
zYRiHBzRDtEt1{c_X6q3kDN)Fpmn65H6EY~D3^HKf`-xBEb<*i69%<%3LN7mu%D`t?
z`ywYFWd0df3A6Qtl9bSJmC&#t^!AT`0++j0E}ya=_kd%kS#p90q;>&hoEk$cABZxT
z7Yc6#txRILB+=M^lq{i*XaEH-2YoGwZPVD}f?GYEu`z8{tD|`mzEHfwr`Mj$9Q*6L
z+riDlx53-&%Os3))$HLj@@Cc>*?6NWgM#w`+Npx{3s4@)#!yv;`PbW2_4`8sAxD3h
z%0}>czy_Vrx(=FShcDrQ`EZleUPTl7LMP#jp?~vk?oY^nT@WYH9A}FkH_f{9`OLWK
z*Msu+Rm@!WlwW#igyQMH{L0R*2G?Kmx3hohF-*T1`0D~6z&xciT%mNR7IIK=Jcp?9
z!%v<EV~hu~@}DiSr38nJ;1CE7Av)#=OPoI3+%Qf}fF{t#XO9n{(~nT}+72hs8|Lp6
z^xiEP{r>KM!|kU}gOAw{4PdgG8d}4|59U7yzq;t(bn@3$IDz00VnRxAn9|E&=8QgO
zjNYY;4#kNAGMFM9#)Dt+6n&?I{~SQV5{x+_2NuJW#W3YCOzBrhl0*6OH2C%AQwHTG
zg~Cxb@JfM_u|`x&E@%S>NcF=HNcbb>fxjSCM*EL{?7Mon@EiP};40yC=1;2g<2sP=
z5dKrpxOsB}ByaMMHDS!=e&B@%^Uq(;|E<R}k3{TbJ3q>Iza7Xwe{zLX9)BK7-_^r4
z4#V*TikA4`?yW@OL;B}e__H4KXB3eiD56}{QV?5J%-;$Y%~iubpvfeS?|GLJhLeNw
z<>b<TekAWvQgU}CHd%-Am3?0iV+e0WJkX_tR&aeuNjFB64QjIJu+-aum=>g#IvYH!
zkWXK%hbyMZU_OJm3K>ku4pSyMI2ye8Q5dk-4h0IdhjYk+gJD5C*JPRY69D*@0=O#x
zWXio=K2%eb&`VOECUiyv0>#m`Qm_v8oY-)Gh1gTU;(h7c0v#L2N>LRf*jq;<>PIv7
zbf&X{<_=4j0i*|x{>I7`z93S%taf2l%J54tdEJYF?FA76f)T#?_WtcY1Y;T?UkHSZ
z@&_8cy{n}Q_-85vNJ{we%guBf0%(i#S!#>l{3%-k!V^VGJhjI#Bc592eTct9sJvr;
z-|PmIhk8+va`Huw!oY3A1CdDp3`Vs{oLfgVdriU!KMPb;&S67W53gU@_uGImw-e@1
zjCk%(sb|;mrwouVHD!?2bi}}I!;|I=0s*D;HxO;fnRbHvt*9M-%W6u&SQn*AUc#;x
zEKuF8RI4?SvzoCp+>F^e>T)g0Fc%1avyqW4>Bt7W+>Gh4-%gYTrX~4hyJgc^`M}Fs
zjuO7m=*6c$eq+-g|3c$2CB@32t?-I>-ek`YlXNZ85GcI)uk@R2anhIBCdlGd_V6%&
zy<nHUJIGfy-Dcm`#QIx0PuDTxVa9Y=#+ZcoH#GAh*_y4QNw?Z<P>09az%UzsAkOPk
z=flId0du6c4|i3Bv$@G8wDUJg<a39p;860sx-81Clz6;fe!b45P-$Hbi|0$^zvSQL
zwCnWS4O)GR{<?_=Y+8TK@=a}0ZI23DtjvS1%z<vs8f<?yn=x3-xDUR}*hcd(iuZD1
z<4c3Eczo|nZN)4tn=x4uV6!BDO}Mjap&fgcOqTew9Jc|0#iw>C7GIU1)HTOX_|;G6
zy(V?+zV>)-`qH<}*o{yEK{%b|YM_BC5Wg%am6Y&yLA@EO@)xavmA@?;sJ7Bp_8sjp
z(B>8<mWre=-m#w=a2gdH({CH7p<)|V{$ZH@RBkZ!v1OgEll9p(Ty^7r`Ai$D=|wY+
z4Z~G6f~Fy>0!6d1wGBqo(6tF9`(}`R(;m@!R#uQ}V6q8%4Z-)42nDehM$;O8QuRva
zDj(Bd249O`(EdnLMXaIMY{k>majLO2^PL@Fnz~OVob1a%vZ`Vp__AMytCUNC4=`?d
zf5slC+StmGDd<!Bb$u>>nYprW8fay6BS~tl?CW)-)x#8xsWXG3cV!LcUL{n%mFeRl
z{d$?E#0Mc5rQbJF&2~(`q(7GQ^C=~M5H5IUI!~Iq^G<Xnk|m4}B}RuK%?wepDlfe0
z*Td!4Wz@~AUtFD5Bb=8Xtyq9rn@z*0y}`C=v|i=iEJ{}}ZyKF{SJ<ztplkzUWgX>`
zP<@NUGsKQ0+HdydgPGBv($9nUC_!~OG_?2{$ENl!^KEAB4aQAvU1FX6IUr0;ha<>7
z4;hsbkOn5$wa|aB;rAYRJV-YN4Dy`;bt~iDgh$z+U;e}3kV3xBQO)VE!~EA_Rh@sB
zZ0k$j_bIt@iTvPy>FNE!92<Lm^(y`5&c6W!zB$Z()rjEhN<-C9R>O6?HRmw4uVSq|
z%TR;&&IyV^`PW)V*vhDe2-aW8+df-uRfprDON;ByBsE!HTm#(N0>NLmuPUtzu)J8X
z&J5fEAh#_KJqY5S$+kN17RxJNrxQQ;-palUTnl0gSWo$XHw}=nWP&Xo*}5vMHmsad
zz9_76g-#tnELyh*!=iN#WPOoNT@WOj@^8JuAjOgq+p|KY2C{U~4=0N)Y2~WgvX-b0
ztcma90Xx={#a-s15P@B`Z|QXa`2zml3MV5z%!v<Ihz~R3A3ol_yBYkEv%gtkf5V=r
zFG;bSq3z0lvBi`<qf@c^rx}zW;DjXz7GUuF{pZhzph?nWG`Qf&NG;X#_2b*8r{<WZ
ze&FLU;A62Ru>#kp;+sQ|L1Gs0ft6BPV7i0ME@%!YUu?w#Q9-JDy;gHf!zA*PFyIKS
zpty!`_%;2yIncICC<}Ngor)z~4WQIm0pAo=vsLha^|5Bjc=8;D^YQb5S3AwddUC46
zl?I#dX3QDh9Mp1GK^Lw*^Jm<l7rx49R|=4O?cm|=p}rWkb|KWoU4JJ+ZDg~k*glXh
zdufkuK`>iKlOue9Z!?rn?A!V%XJMS=0Mi^J9{lQs(I9^bGL2UC#gclK!Nfx#K3ozX
zJg^6UGT=8k``>~6`z8B^qAa@aj9Odli!MAPm%?3i<LP$|@YUO%QX5~REh;terO~=I
ztaSNqMrC8Id|eQ{N|F@IN=dS9k#h}XhwkF33zqjzp86uO2G6fR&gEbYeXUl`!83M;
zmd$0vtm1ex;8`h_p|fgsqjD@uz>3>9Eo#Y={wgPbDWJ<V@dA;N4erNnai>J{#<?WQ
zK>s6Um$k@0ieKs@UiJ(5o})HMmuYT6?CT=IeaOD4k8B<g>iGeLoA`C=vdpOUaL0n=
zFejN0a(r8`ddgYt9NH-7nw1p<ni6<tKq8+Ft#H^JP~-#|;bB3zNDJP6dY>-T&b~ev
zHh4UL@sR-78Q~4spZ~affA_XE?0i)`&&?R6V)r>c%An>(jDx_}9yF+pxyjhUUW92J
zW*uKN4-$V$IYLcCG3)gT(&f51?d=}3A6kK5zB`y9{Jn01S6_tECWnGSS&;H}jqK+Z
z;^am1+@1IsoM+~9l_f8mQ|iN%`rR7mhm7-o!|P&aLklSymi`T;*ew2+QtYq$_e)WK
zNUbLD)e*JbBWe5KW#b%;Cq8Q-%?4RkXg8i5-ip6m183wK)YZG;Z;-C4u``~#3+=7o
z^VD@w*)+{ucjM0!*hPs`k-sjAoEqutUMc1W<lglpm{(`tX~^e*JS}d7AWy5D3gl^j
zox=h7qO;A%BiPBK2r|<sJtFC_a;TPIi>^2yyI3$zPjK2@FO}w8Z&vWuuB7Uyr94d2
zsancIIt|oP9{1s`md)Czy~G>E(Pmk+4JSJeX>~|#9<Vcg%c+-31N=NiQO!tRxf1A?
zoNhVeD$#w+xt0>HcZ*-!U}w*8hMkdrtU$~t)CZdl$ggF&>FHEWn?p77e5?FwlFR6?
zdwq^#O^`ZHz9CZzzj5YLjX#CDLaX*-vPxXcSm_asi$I-@#<bFLPB%LfauJ6Mx?k71
zrs4LF?AODwr_odZ_B2>-#h%8*3hecF^>0~3*zj0@I{VRfkj%cxzDRe#LaP3MJf#T~
zM%iM~onG7Y2!kc{VTt<NCC@L5Zx6(uZ|x+5k|1o&Ur;PN5+GH<b665@$+0ZyO@Z!h
z8Qski9S8ZvN?I)yKl}v#qJtzH<hwa}Ay4TJlQ2ImWAMJ<lRbSP+Gigs@CgeogX;4m
zS|Db$hbislSrdO_{641q*3O!LXo`Gwvn=n!RaPIXbCyaw{MnXCLGW|ptLT4EzvKd5
zKs&A4yPPtp>MUBc)}~vodB{<75B334go7;l@J1gFGrIq^;FCt51JO>=&p~!4H9tKA
z&0#_F6VU&d{e2+9;u2<F=n8sYvVRXm^@1jI$`4dd?vM1Jzf|ATQumO5h+VJLPV#mU
zY1~lvB5Kn#>)m9tUswCC!P&YS?bomGZvWZ_+t&Sdza}pIYcu`sz07CZt~+)`!~UIj
z>$2vTEN1sIB0_#+H$05jS0C@ciZOqJjV8rIpffD!yv_K&FTcrR9=k7M_#u6ZExgI6
z9oc0_o0v9^sj9|vGn;LH0mBGv1Cs60sbX7ojM)L2$jNNuzg6;zH7wQKi`=h*e@0_*
z&^xPCR{#_o-=yPsIQh2H&NhB5&g@A)4!*@JuSdQ+PmAI$6pG)MM2c?~WIp<M(dDjD
z$bZTYKgm8U-oqK9d0OzK*yeGy=2k`dC4YQ4kE^6wk{v^RHg{`(k<1_c;3t2ZyA`D3
z30hz4v4v9h<P-bf6*`65Kv+Ttp_dL5&vCMy=!)upVXqBCZ&<u`lasm0K5yf-X5m_l
zO7Bz}yqX2{6qDQ&&^V&$Vef-q{|}y^|MS<zyrDbFi47OT*bc%aAYfNG-rFU+|NWo;
zd-L(_|NhVa`)f6S+WZ2QnsD-`v%65L2~JARUxQ-tcvV|i(45WL4g~t=d~=+4J7xCL
zaPiUuBk`Dj`peeHTh(T(!*lIOyd})-=d=<Kw*<VZ0KT7cDbP0w=xbD-X3u``b3eE2
zx#G--^qp0151}8hO9Hp>VOKk&3?*4dneBZgv{A>J5gV?5{K^U%Hoyg>4m50$Yv+5K
zOXK~GJHKp=-f~1gU!u1hysrm=^^>a_I}iyQI9?^RylbeAU#{XRx^N!QinZ<)=yqoc
zTL2O|n}n}v=$u7#bLguMuqBOQLF4_B>_hg|ULft1v-)}?734p!nP)ur37z=Cw!Wff
zE>~)BC5j(^a+a%2?!)4NeURaygp*h0q$-^1V~I&4h30eQdv*rY0hdpDZ`}j1x$eIn
zv`xLStxotE`N6>;HxxKr(k#uwubTX8@yK4_Gm3rB$5mc>fQJ_3s$7(vvXe8b@Xu|&
znUzah`z=;i4#$hSF)yy__GINkZChuy%Au&ucXn`p`-|CTLJE+oju`uK$7vQ);2uY4
z_FT(pN|{W7Fn>A6@*(|Hi!0ly^YcKa*}FN<kLWA?=WdpZYfa-pwgoY!`D{DXO9utb
zGN>i>VYVN!pw6nZ%{cnF1e0x4d|CrjC%CQ&R>b8voJW|}_P8o3ir}A-$~^6Hjm=ZW
zX1|AjW&f<Hcb2ESO%Z0q*4o5^SiQ_TFSmAAY2`tRssb%N4SnO)<r(RNJND;a#!)z*
zIS#`!O>g*(9eIo-S(Ri&49oCL-ITB*Q%lCOq7Vg}$g>VOd6Qiuy@i?XdJ5K59saA?
zl7^9{YuK=D#WG~<8eEylhOF5-H7teL6k*kWlw^XDWop1rm59rgnXc+GHYipJRU}n2
z4eUua@l;jPbe-5TUuK4(8k&kMgmpqKRWei}d7du2u8lm|<jTx&v7!@KS7h0+ElZb?
zX&4%|H62mULpon(o@HsKu9_6tl*p=wO{!4Uv|Mc3uIzDTW?>@hSg|cdv0NP!L$N4-
z)h)|3z)=j7aAoG|NF~U%R2h`$%9yH#g)!DO-8FSr<J-<$Q?gt|H4O#HvTT{uHIS+x
z)$k;$YDneE47&&vM^sfKk||Tu#xg}jHf=?<Woq+PBhjfu6jcHrG@-G%IyF^K!V;xe
z)``d08>xj&MWePvR9Vq<Q#U-Uxe~E|P2IC0p73SndX!+#qJ|`!$RL_$c&=<f!^0Yu
zG}?~Yaz=;U!VT;cY-pNcLeMZUwlVTd1-mu~Ys;z&ZT*l-8Fum0L2U%7Sa-4PQOgCE
zuICb@$O=|yjWE)bpG7=F28NoZdy*$hmaTyGkZQV$B3UMPey&bbVgmyk8h~bh**4NN
zSt7CrE=myL%@2BOgF=8bG?!|Ug`p2MZA(HBV+_{d`SF_*ly;|xxDv8iZ{wN-0<~(p
zy60kqKv0TJ?hK*ZR25IhhNTj$GKQvS+pY;MUe^>;=g!cSTm-%-xt8o&5JN4hKu3;L
z%hOZ{r-VC0;;J%;B||UZL89P)5m&*)v{aB!lZYpCXGoDuR74enK$d5#7?KprgT7C9
zRboJI&W#~ED3tk(20f8yTM(zA4<`@=OxcCJ53H!_MvW9~%Ymc2c&b=-DMU5RfH*^C
zS%Z$j)Fj9vRLo+x2%d)GX^=aEF(m@YnQWRKk!0D`JX5x0goW_LGH{W9!BIWMM5YNn
zq9N-BL>o`0QjGw908i-V5#(X6=b6w=DbVkl7VD-|*Mz9&86tQ>n^Y<EQIZQ$z-4{E
zVMrP>DMc=}EFrq}pi@+lsX#|4S(1uDZrcPWHWgW?NVCQ8gq#qXhfH<b!WQ_D4gRD_
z26T{Eu934f=eeILk~CF+QCyJQlReL+is?d{r?GGa@k7D#aZss-4!yVq&w<~0o@GPN
z040$wK>?-`A#J<{DjWD);FvbC5S29pk{bn@i><k?YAWPN7NiDb=C<il8zLccAuCcX
zOI9omD-bGG!~<1+E8vtS&mkFR-==jcM10_C>WXec#J63<svTs1W1=gjYBriBT;W%`
zUJ70tB7eBJ3oGr(u?$-9h+-&Ir@DtJ@gQ7yRJB;)svdZ)RS7~q8JM2-pXKmF^zu_l
zJ0Qq3q1jkeCr~(Rk_|<eYuLJ{Y6|2Qm5Ka<ae7a{x5^ZL2TNO_ifbE|WxJAUL$WJF
z>SF0Sl?_!=WLE@#OU<<*k?>S(dY%NKKv$tyfiNvYVWy~@S?Y4i)RkQYDovebf+mqw
z3Cbk`61&)jEYwgrGEKeF$Jq#oX<|#)Bxp*KD(S?v5m-|~mPSpgyJEPSNH-;@D&T)K
zMQ42-lxX0=s*M#yt4EaDb45DD2+30o6;gZRS)PX^XveaDWoZg{vwbMn>=v|q6ANRc
z0c{m>PfO9UO-w^&!v>m8ErKnmVC+M#T-(LZhPp_C9?aAwUB!wAnYT$)=;(=uAj|h!
z^4nO@ThwW?VoRPTLFxjPA(SwLNRo|JNix8ViHQ%rIjjzEU00xL(+p2{!Kj3Ju?qph
zFg3_mb)ATR<ZYP9BLoUzqC?*!nTiRa7ZPv_$_>xcT%o*)46zAIx-LU$s(H{gx{_f-
z@kmw8s4;HSg14=@I`lS@>Zum7DDrG1K|+q9tc32@Gez=-WW!|jxMX2dvY_fwq5HQj
zlR$2+g8hZ^Mydp5v&?cHl~~XNAe|bzrC5@!%CahdlDDf->KRrVJ|rlGunILNHe5C~
zuGqSuHdYkzs)n#45e0*L>B!J58|nqig>u?6ZPgOW9Ktg(A*+ER40*a|K@MzMn&*0!
zf}nHOIWS+pRjyDv^t@PcDb-kR=R!H=LIo;=_bbFu)Ef2Y_KWOxa?d4~Y)G*ba5LAG
zC1_WFp00bY0U4JE-3b&0g4q)tLzgVMNTL+F5Xkr~LN%(h?hKMnTQGai)FF#EWed78
zLxM6*w!!WO)M^%zR88f>KD!)ld8t{N-P$Uoe3}6nneFP}1O&QO4@wOPuNdsn?gF(E
z^X%@oGW$h)hia54kUV%2p$3%XwyxN!Zcx{MGpQ?kau*m>8-lHFfc7m{R-mn6$h8&E
zl6A-{ETnXT!6R%Ugjj}(Waw*jjH%{&1cD*+0=o+ghQeAPbyaF2+mbNUTL6HlP>9Ol
zpPgWUo?ZgqlWj{gB~!9psDm`3yRsocp5;nHF^qFtXo_u^o`tbSAqJQR<W~R)+Nptm
z3G_u>U~qNAR9y`+ET{wxs@b}Rp=`h=wk50)s|yT70`E6G3*xXPyI6<(3wlQiL4ra9
zmHD;J;_AKZ4z}DApcYhJTSwTm4O_8Uh%y!11h<e~SyRvf7y9jG$)-aT7m67~5Hta(
z^mUd7KnAQUv_`_$oTZFaV5lod0ue2L0$OHfM;KCD*8f`~SQ6D$Jjkp}3O)^qwc&Xd
z(y%URl5A30082%dT_`*y(^X8@C0NpAs9kh0sAgaYGy+&^ShK0Fm{9*h9EDU?gGi=%
zP(j$93=vKMOWh?9!3~HM2K5xpRuME4SA#kQt86`o0G5UfVrnk(pl!<FF$yJr7W8GR
z2IU$;iU^kArW(|rn#Tsjpdf*EqUkDyAZ2J!5Q}J+$R;46r$X@66xBj(r3|FSu8W{7
zF|a3qrE3|;QovgXWC6&9W(o<KZWE|Ikq(|Lf+ckg2s9Q{deGl#R6-JwWEF}(lT|_@
z+9mdMW<A3rCc=~$5O57P?hUDbH?$vFMDzj2^fVj#Q#RmlNQNaVEbKx&Af^T0EP^Gt
z3>2=CqFV@KNcJJImQ6_VAgN$0T|}_dHHi?&A)ux+pu<v$t=qB;R@Eq*NaVz_TtCW?
zzPl#$nvgSSiliv6q8eaE9nwn4u93wyX9=k~ROl2+WgB5+VNkD(R0}eHS7fOa%K})c
z5=1*0d#)u>HkD;zS;rm-?<$bN%UA?U+om85HB5|HtzsAo)FvMAmK76fCjl%qiOqjm
z2B8wv!jb_ljM!L&Yh%JzF^OQQD5goE6t{pK6yBbq5?#?$3G1>XOS%Y_l&zGKffX`U
zRr0W8NUmh*lr<h#6QNjtU1CdLOx-rwFf}Bxpk3&x!HgI(ZH<UvsbGszRnl!68l~bw
zX{nn?WAR9%(5HxCNg=Z{+42b$auP`JB%6g>6FM_fa%&X!2e9;P*LDd}6yhQsN?22(
zo{c36DS}yNjaGA(hDs&sLU2XMGm&9Ql5Xgbby<cBa#9hYz;Hc(3y511QYnF=ShEe?
z^-LAM!m6iG5iBvJlpa`8wiNJKh;<(Lk*e8{cUhPi0$7@CveyP-ElpKq3Wk-Dr&8Th
zRaJvTNB~QVwL+-(4Yo!E(me=$rX{7Nf~_c6ge@%@dN12_F($g?A}ID;N}*pd5v0!G
z$^uv-$dW-&3F-oW#j-T$%oIt7vcv<4Raq9HSmZ(M296$rZqkBI+LCnFm7tQ>Ak5k#
zVl1YT!6uMh(4wjuNReEdP}9I{I$cv;AuLVPQlVVepq_<%L_tu*D-eP#n=Q%{VM_{(
z6iZUUhakH|5_XBLVhFFYY-1H65iF6(az{wF2tgDq%9ccbAlXwawtkwn>`CJE!u!>-
z9fGS1m9xwS;&n?QP^?4!Y*^qxri^Q>H%V#MWd}twk|2$Q^h$NvDos;ysg7;kg^&cX
zj~lyOpRTED8WcT>Y!ITFhN(gt;wsFIpsCg<MRxG3ID}`JHoK73LF&VH&=A{pJy%m9
zkA(ij(4abhsj(1iHt`c@%RxX*v6u!puczsXCxKN>!#0Qo|AiDqQarUwERbu;nyx_=
z0hy<yTe@poiVTXep%`{+jQ#S&LNWZm?Llt@eJ$irI$K*$BuSQ`8+5HMv1nMKo{FG~
z^mGhGG7A8f0o^h5l90>NF0ts4bZ8WcJ`G$Isy)enR4C+kNb$gCL^e9bVnaUS5l{x3
zts#a9r7ktFr9#JJ6VvVzi(%Ukj-j(bCUPwg3T}fygOVh+-H95Vwj)+9suqQ`R8wRL
zoYjz^d0PZ~;LgwwcZ!8lV(CPMEK(;f^(+?3UDuK^^d_`MS;-NLrE9Kb>oWCB%9gN0
z{q9nK+mtk!m_#9+>czs6X1I{2K=_9en{A$?o`)3~*`Dcj8+UC*A^?ExuTh~9dD!$^
zh;@cV6;nY*r~MIvdc%V{01_Q2=?v%tz&Mg?n3jjBVRxz*qOiP<jfR32ppccYVqn!W
z6<bkVv&Q%YPb@C6*a|*VwK0a|NP@qhpOy)Kb`=PAo%$|Cp5@6ZTMZ|%b-1<%$*2m>
zi)`>9nZLidG`;zSoxAWt)3uF?ZcBzPLA5Wtre|Z~5l{k{$u^Kjs)qp=?17%cQqG)S
z9ex<Xg{f#J^!}c$>kwI8$-)#_rVPa~wGQL=98PI=lwT6!--^>=R!A+ke*eOr&JOK=
zgQthZ)5QTVcYzoFWx0JkKQ^kgb38lZD7}TFbXCFXruM%9iy6D6D}8U2$&tQNI&*1t
z%l&iy%2wF9GT5adrHd3+x7sg=Gy*vdNyUEo+3T?QArt&lNahoo@0>6Fy63h0tc#Vm
wV~RFztjoU3&)~{_e_-gc`vShdI1X_Y9U1=f=bX-|<0o|5W}W{32Ld<O5b4N1qyPW_

diff --git a/output.json b/output.json
index 04184e617..f58ee6a7e 100644
--- a/output.json
+++ b/output.json
@@ -2,6 +2,7 @@
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 66, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-build-setup-env", "info": ""}
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 76, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-build-setup-tools-install-compiler-clang", "info": ""}
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 76, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-build-setup-tools-install-compiler-gcc", "info": ""}
+{"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 82, "status": "working", "code": 0, "uri": "https://visualstudio.microsoft.com/vs/older-downloads/", "info": ""}
 {"filename": "general/documentation/Overview.rst", "lineno": 71, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-build-process-cpu", "info": ""}
 {"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 83, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-build-setup-cuda-image", "info": ""}
 {"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 95, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-build-setup-cuda-install", "info": ""}
@@ -12,68 +13,67 @@
 {"filename": "general/documentation/Cpp.rst", "lineno": 60, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-toc-api-cpp", "info": ""}
 {"filename": "general/documentation/Python.rst", "lineno": 43, "status": "unchecked", "code": 0, "uri": "#fbgemm-gpu-toc-api-python", "info": ""}
 {"filename": "general/documentation/Cpp.rst", "lineno": 68, "status": "unchecked", "code": 0, "uri": "#general-docs-build", "info": ""}
-{"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 41, "status": "working", "code": 0, "uri": "https://github.com/asmjit/asmjit", "info": ""}
-{"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 55, "status": "working", "code": 0, "uri": "https://github.com/google/googletest", "info": ""}
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 4, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/blob/main/.github/scripts/setup_env.bash", "info": ""}
+{"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 55, "status": "working", "code": 0, "uri": "https://github.com/google/googletest", "info": ""}
+{"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 41, "status": "working", "code": 0, "uri": "https://github.com/asmjit/asmjit", "info": ""}
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 48, "status": "working", "code": 0, "uri": "https://github.com/pytorch/cpuinfo", "info": ""}
-{"filename": "general/ContactUs.rst", "lineno": 17, "status": "redirected", "code": 301, "uri": "https://bit.ly/ptslack", "info": "https://docs.google.com/forms/d/e/1FAIpQLSeADnUNW36fjKjYzyHDOzEB_abKQE9b6gqqW9NXse6O0MWh0A/viewform"}
-{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 31, "status": "working", "code": 0, "uri": "https://docs.conda.io/en/latest/miniconda.html", "info": ""}
 {"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 139, "status": "working", "code": 0, "uri": "https://developer.nvidia.com/cudnn", "info": ""}
+{"filename": "general/Contributing.rst", "lineno": 27, "status": "working", "code": 0, "uri": "https://code.facebook.com/cla", "info": ""}
+{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 31, "status": "working", "code": 0, "uri": "https://docs.conda.io/en/latest/miniconda.html", "info": ""}
 {"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/constants.html#None", "info": ""}
-{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 114, "status": "redirected", "code": 301, "uri": "https://developer.nvidia.com/nvidia-management-library-nvml", "info": "https://developer.nvidia.com/management-library-nvml"}
 {"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 40, "status": "redirected", "code": 301, "uri": "https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html", "info": "https://docs.nvidia.com/cuda/cuda-installation-guide-linux/"}
+{"filename": "general/documentation/Python.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/ctypes.html#ctypes.c_ulong", "info": ""}
 {"filename": "general/documentation/Python.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/exceptions.html#AttributeError", "info": ""}
+{"filename": "general/ContactUs.rst", "lineno": 17, "status": "redirected", "code": 301, "uri": "https://bit.ly/ptslack", "info": "https://docs.google.com/forms/d/e/1FAIpQLSeADnUNW36fjKjYzyHDOzEB_abKQE9b6gqqW9NXse6O0MWh0A/viewform"}
 {"filename": "general/documentation/Python.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/exceptions.html#ValueError", "info": ""}
 {"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/functions.html#bool", "info": ""}
+{"filename": "fbgemm_gpu-python-api/jagged_tensor_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/functions.html#float", "info": ""}
+{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 114, "status": "redirected", "code": 301, "uri": "https://developer.nvidia.com/nvidia-management-library-nvml", "info": "https://developer.nvidia.com/management-library-nvml"}
+{"filename": "fbgemm_gpu-python-api/jagged_tensor_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/functions.html#int", "info": ""}
 {"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 110, "status": "working", "code": 0, "uri": "https://docs.amd.com/bundle/ROCm-Installation-Guide-v5.5/page/How_to_Install_ROCm.html", "info": ""}
-{"filename": "general/documentation/Python.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/ctypes.html#ctypes.c_ulong", "info": ""}
-{"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/functions.html#float", "info": ""}
 {"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/stdtypes.html#str", "info": ""}
-{"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/functions.html#int", "info": ""}
-{"filename": "general/Contributing.rst", "lineno": 27, "status": "working", "code": 0, "uri": "https://code.facebook.com/cla", "info": ""}
 {"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/typing.html#typing.Dict", "info": ""}
 {"filename": "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "lineno": 172, "status": "working", "code": 0, "uri": "https://en.wikipedia.org/wiki/Hadamard_product_(matrices)", "info": ""}
 {"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/typing.html#typing.List", "info": ""}
 {"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://docs.python.org/3/library/typing.html#typing.Tuple", "info": ""}
-{"filename": "general/ContactUs.rst", "lineno": 11, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/discussions", "info": ""}
 {"filename": "general/ContactUs.rst", "lineno": 7, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/issues", "info": ""}
-{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 221, "status": "redirected", "code": 301, "uri": "https://github.com/ROCmSoftwarePlatform/MIOpen", "info": "https://github.com/ROCm/MIOpen"}
+{"filename": "general/ContactUs.rst", "lineno": 11, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/discussions", "info": ""}
 {"filename": "general/Contributing.rst", "lineno": 8, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/blob/main/CODE_OF_CONDUCT.md", "info": ""}
+{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 221, "status": "redirected", "code": 301, "uri": "https://github.com/ROCmSoftwarePlatform/MIOpen", "info": "https://github.com/ROCm/MIOpen"}
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 171, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/issues/1094", "info": ""}
-{"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 294, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/issues/1618", "info": ""}
 {"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 188, "status": "working", "code": 0, "uri": "https://github.com/pytorch/pytorch/blob/main/RELEASE.md", "info": ""}
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 171, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/issues/1666", "info": ""}
+{"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 294, "status": "working", "code": 0, "uri": "https://github.com/pytorch/FBGEMM/issues/1618", "info": ""}
 {"filename": "general/documentation/Sphinx.rst", "lineno": 149, "status": "working", "code": 0, "uri": "https://graphviz.org/documentation/", "info": ""}
 {"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 96, "status": "working", "code": 0, "uri": "https://hub.docker.com/r/nvidia/cuda", "info": ""}
 {"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 183, "status": "working", "code": 0, "uri": "https://hub.docker.com/r/rocm/dev-ubuntu-20.04", "info": ""}
-{"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 40, "status": "working", "code": 0, "uri": "https://github.com/pytorch/test-infra/blob/main/.github/actions/setup-nvidia/action.yml", "info": ""}
-{"filename": "index.rst", "lineno": 7, "status": "redirected", "code": 302, "uri": "https://github.com/pytorch/pytorch/tree/master/aten/src/ATen/native/quantized/cpu", "info": "https://github.com/pytorch/pytorch/tree/main/aten/src/ATen/native/quantized/cpu"}
-{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 174, "status": "working", "code": 0, "uri": "https://hub.docker.com/r/rocm/rocm-terminal", "info": ""}
+{"filename": "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "lineno": 7, "status": "working", "code": 0, "uri": "https://github.com/pytorch/pytorch/issues/25032", "info": ""}
 {"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 171, "status": "working", "code": 0, "uri": "https://github.com/pytorch/pytorch/issues/77939", "info": ""}
+{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 174, "status": "working", "code": 0, "uri": "https://hub.docker.com/r/rocm/rocm-terminal", "info": ""}
+{"filename": "fbgemm_gpu-development/InstallationInstructions.rst", "lineno": 40, "status": "working", "code": 0, "uri": "https://github.com/pytorch/test-infra/blob/main/.github/actions/setup-nvidia/action.yml", "info": ""}
 {"filename": "general/documentation/Python.rst", "lineno": 55, "status": "working", "code": 0, "uri": "https://peps.python.org/pep-0287/", "info": ""}
-{"filename": "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "lineno": 7, "status": "working", "code": 0, "uri": "https://github.com/pytorch/pytorch/issues/25032", "info": ""}
+{"filename": "index.rst", "lineno": 7, "status": "redirected", "code": 302, "uri": "https://github.com/pytorch/pytorch/tree/master/aten/src/ATen/native/quantized/cpu", "info": "https://github.com/pytorch/pytorch/tree/main/aten/src/ATen/native/quantized/cpu"}
 {"filename": "fbgemm_gpu-cpp-api/experimental_ops.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4N2at6TensorE", "info": ""}
 {"filename": "fbgemm_gpu-cpp-api/quantize_ops.rst", "lineno": 11, "status": "working", "code": 0, "uri": "https://pytorch.org/cppdocs/api/classc10_1_1_error.html#_CPPv4N3c105ErrorE", "info": ""}
-{"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://pytorch.org/docs/main/tensor_attributes.html#torch.device", "info": ""}
+{"filename": "fbgemm_gpu-cpp-api/memory_utils.rst", "lineno": 4, "status": "working", "code": 0, "uri": "https://man7.org/linux/man-pages/man2/madvise.2.html", "info": ""}
+{"filename": "fbgemm_gpu-cpp-api/memory_utils.rst", "lineno": 4, "status": "working", "code": 0, "uri": "https://nvidia.github.io/cuda-python/module/cudart.html#cuda.cudart.cudaMemPrefetchAsync", "info": ""}
 {"filename": "fbgemm_gpu-cpp-api/memory_utils.rst", "lineno": 4, "status": "working", "code": 0, "uri": "https://nvidia.github.io/cuda-python/module/cudart.html#cuda.cudart.cudaMemAdvise", "info": ""}
-{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 352, "status": "working", "code": 0, "uri": "https://pytorch.org/get-started/locally/", "info": ""}
+{"filename": "fbgemm_gpu-python-api/pooled_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://pytorch.org/docs/main/tensor_attributes.html#torch.device", "info": ""}
 {"filename": "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "lineno": 1, "status": "working", "code": 0, "uri": "https://pytorch.org/docs/main/tensors.html#torch.Tensor", "info": ""}
-{"filename": "fbgemm_gpu-cpp-api/memory_utils.rst", "lineno": 4, "status": "working", "code": 0, "uri": "https://nvidia.github.io/cuda-python/module/cudart.html#cuda.cudart.cudaMemPrefetchAsync", "info": ""}
+{"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 352, "status": "working", "code": 0, "uri": "https://pytorch.org/get-started/locally/", "info": ""}
 {"filename": "fbgemm_gpu-development/BuildInstructions.rst", "lineno": 197, "status": "working", "code": 0, "uri": "https://rocm.docs.amd.com/en/latest/", "info": ""}
-{"filename": "fbgemm_gpu-cpp-api/memory_utils.rst", "lineno": 4, "status": "working", "code": 0, "uri": "https://man7.org/linux/man-pages/man2/madvise.2.html", "info": ""}
-{"filename": "fbgemm-development/BuildInstructions.rst", "lineno": 82, "status": "working", "code": 0, "uri": "https://visualstudio.microsoft.com/vs/older-downloads/", "info": ""}
 {"filename": "general/documentation/Cpp.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://www.breathe-doc.org/", "info": ""}
 {"filename": "general/documentation/Overview.rst", "lineno": 142, "status": "working", "code": 0, "uri": "https://www.netlify.com/", "info": ""}
 {"filename": "general/documentation/Cpp.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://www.doxygen.nl/", "info": ""}
 {"filename": "general/documentation/Python.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/", "info": ""}
-{"filename": "general/documentation/Python.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/extensions/example_google.html", "info": ""}
+{"filename": "general/documentation/Cpp.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://www.oracle.com/java/technologies/javase/javadoc-tool.html", "info": ""}
 {"filename": "general/documentation/Cpp.rst", "lineno": 75, "status": "working", "code": 0, "uri": "https://www.doxygen.nl/manual/commands.html#cmdlink", "info": ""}
-{"filename": "general/documentation/Sphinx.rst", "lineno": 149, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/extensions/graphviz.html", "info": ""}
-{"filename": "general/documentation/Sphinx.rst", "lineno": 115, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/extensions/math.html#module-sphinx.ext.mathjax", "info": ""}
+{"filename": "general/documentation/Python.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/extensions/example_google.html", "info": ""}
 {"filename": "general/documentation/Python.rst", "lineno": 55, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/restructuredtext/basics.html", "info": ""}
+{"filename": "general/documentation/Sphinx.rst", "lineno": 115, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/extensions/math.html#module-sphinx.ext.mathjax", "info": ""}
+{"filename": "general/Contributing.rst", "lineno": 34, "status": "redirected", "code": 301, "uri": "https://www.facebook.com/whitehat/", "info": "https://bugbounty.meta.com/?utm_source=facebook.com&utm_medium=redirect"}
+{"filename": "general/documentation/Sphinx.rst", "lineno": 149, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/extensions/graphviz.html", "info": ""}
 {"filename": "general/documentation/Sphinx.rst", "lineno": 82, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/restructuredtext/directives.html#directive-literalinclude", "info": ""}
-{"filename": "general/documentation/Cpp.rst", "lineno": 6, "status": "working", "code": 0, "uri": "https://www.oracle.com/java/technologies/javase/javadoc-tool.html", "info": ""}
 {"filename": "general/documentation/Sphinx.rst", "lineno": 115, "status": "working", "code": 0, "uri": "https://www.sphinx-doc.org/en/master/usage/restructuredtext/directives.html#math", "info": ""}
-{"filename": "general/Contributing.rst", "lineno": 34, "status": "redirected", "code": 301, "uri": "https://www.facebook.com/whitehat/", "info": "https://bugbounty.meta.com/?utm_source=facebook.com&utm_medium=redirect"}
 {"filename": "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "lineno": 7, "status": "working", "code": 0, "uri": "https://www.tensorflow.org/guide/ragged_tensor", "info": ""}
 {"filename": "fbgemm-cpp-api/QuantUtils.rst", "lineno": 13, "status": "redirected", "code": 302, "uri": "https://www.jstatsoft.org/v08/i14/paper", "info": "https://www.jstatsoft.org/index.php/jss/article/download/v008i14/916"}
diff --git a/output.txt b/output.txt
index 8f8111253..8ab8eaa8d 100644
--- a/output.txt
+++ b/output.txt
@@ -1,6 +1,6 @@
+fbgemm_gpu-development/InstallationInstructions.rst:40: [redirected permanently] https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html to https://docs.nvidia.com/cuda/cuda-installation-guide-linux/
 general/ContactUs.rst:17: [redirected permanently] https://bit.ly/ptslack to https://docs.google.com/forms/d/e/1FAIpQLSeADnUNW36fjKjYzyHDOzEB_abKQE9b6gqqW9NXse6O0MWh0A/viewform
 fbgemm_gpu-development/BuildInstructions.rst:114: [redirected permanently] https://developer.nvidia.com/nvidia-management-library-nvml to https://developer.nvidia.com/management-library-nvml
-fbgemm_gpu-development/InstallationInstructions.rst:40: [redirected permanently] https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html to https://docs.nvidia.com/cuda/cuda-installation-guide-linux/
 fbgemm_gpu-development/BuildInstructions.rst:221: [redirected permanently] https://github.com/ROCmSoftwarePlatform/MIOpen to https://github.com/ROCm/MIOpen
 index.rst:7: [redirected with Found] https://github.com/pytorch/pytorch/tree/master/aten/src/ATen/native/quantized/cpu to https://github.com/pytorch/pytorch/tree/main/aten/src/ATen/native/quantized/cpu
 general/Contributing.rst:34: [redirected permanently] https://www.facebook.com/whitehat/ to https://bugbounty.meta.com/?utm_source=facebook.com&utm_medium=redirect
diff --git a/py-modindex.html b/py-modindex.html
new file mode 100644
index 000000000..991308788
--- /dev/null
+++ b/py-modindex.html
@@ -0,0 +1,754 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>Python Module Index &mdash; FBGEMM 0.8.0 documentation</title>
+  
+
+  
+  
+  
+  
+
+  
+
+  
+  
+    
+
+  
+
+  <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="_static/graphviz.css" type="text/css" />
+    <link rel="index" title="Index" href="genindex.html" />
+    <link rel="search" title="Search" href="search.html" />
+
+  <!-- Google Tag Manager -->
+    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
+    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
+    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
+    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
+    })(window,document,'script','dataLayer','UA-117752657-2');</script>
+    <!-- End Google Tag Manager -->
+  
+
+    <script>
+      DOCUMENTATION_OPTIONS.COLLAPSE_INDEX = true;
+    </script>
+
+
+
+  
+  <script src="_static/js/modernizr.min.js"></script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+
+      <div class="main-menu">
+        <ul>
+
+          <li class="main-menu-item">
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Learn
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/get-started">
+                  <span class=dropdown-title>Get Started</span>
+                  <p>Run PyTorch locally or get started quickly with one of the supported cloud platforms</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials">
+                  <span class="dropdown-title">Tutorials</span>
+                  <p>Whats new in PyTorch tutorials</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/basics/intro.html">
+                  <span class="dropdown-title">Learn the Basics</span>
+                  <p>Familiarize yourself with PyTorch concepts and modules</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/recipes/recipes_index.html">
+                  <span class="dropdown-title">PyTorch Recipes</span>
+                  <p>Bite-size, ready-to-deploy PyTorch code examples</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/tutorials/beginner/introyt.html">
+                  <span class="dropdown-title">Intro to PyTorch - YouTube Series</span>
+                  <p>Master PyTorch basics with our engaging YouTube tutorial series</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Ecosystem
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem">
+                  <span class="dropdown-title">Tools</span>
+                  <p>Learn about the tools and frameworks in the PyTorch Ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
+                  <span class=dropdown-title>Community</span>
+                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
+                  <span class=dropdown-title>Forums</span>
+                  <p>A place to discuss PyTorch code, issues, install, research</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
+                  <span class=dropdown-title>Developer Resources</span>
+                  <p>Find resources and get questions answered</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/ecosystem/contributor-awards-2023">
+                  <span class="dropdown-title">Contributor Awards - 2023</span>
+                  <p>Award winners announced at this year's PyTorch Conference</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Edge
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
+                  <span class="dropdown-title">About PyTorch Edge</span>
+                  <p>Build innovative and privacy-aware AI experiences for edge devices</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/executorch-overview">
+                  <span class="dropdown-title">ExecuTorch</span>
+                  <p>End-to-end solution for enabling on-device inference capabilities across mobile and edge devices</p>
+                </a>
+              </div>
+            </div>  
+          </li>
+
+          <li class="main-menu-item">
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Docs
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
+                  <span class="dropdown-title">PyTorch</span>
+                  <p>Explore the documentation for comprehensive guidance on how to use PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/pytorch-domains">
+                  <span class="dropdown-title">PyTorch Domains</span>
+                  <p>Read the PyTorch Domains documentation to learn more about domain-specific libraries</p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                Blogs & News 
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/blog/">
+                  <span class="dropdown-title">PyTorch Blog</span>
+                  <p>Catch up on the latest technical news and happenings</p>
+                </a>
+                 <a class="nav-dropdown-item" href="https://pytorch.org/community-blog">
+                  <span class="dropdown-title">Community Blog</span>
+                  <p>Stories from the PyTorch ecosystem</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/videos">
+                  <span class="dropdown-title">Videos</span>
+                  <p>Learn about the latest PyTorch tutorials, new, and more </p>
+                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
+                  <span class="dropdown-title">Community Stories</span>
+                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/events">
+                  <span class="dropdown-title">Events</span>
+                  <p>Find events, webinars, and podcasts</p>
+                </a>
+            </div>
+          </li>
+
+          <li>
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a class="with-down-arrow">
+                About
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
+                  <span class="dropdown-title">PyTorch Foundation</span>
+                  <p>Learn more about the PyTorch Foundation</p>
+                </a>
+                <a class="nav-dropdown-item" href="https://pytorch.org/governing-board">
+                  <span class="dropdown-title">Governing Board</span>
+                  <p></p>
+                </a>
+              </div>
+            </div>
+          </li>
+
+          <li class="main-menu-item">
+            <div class="no-dropdown">
+              <a href="https://pytorch.org/join" data-cta="join">
+                Become a Member
+              </a>
+            </div>
+          </li>
+          <li>
+           <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="github-icon">
+             </a>
+           </div>
+          </li>
+          <!--- TODO: This block adds the search icon to the nav bar. We will enable it later. 
+          <li>
+            <div class="main-menu-item">
+             <a href="https://github.com/pytorch/pytorch" class="search-icon">
+             </a>
+            </div>
+          </li>
+          --->
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+    
+
+    <div class="table-of-contents-link-wrapper">
+      <span>Table of Contents</span>
+      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+    </div>
+
+    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+      <div class="pytorch-side-scroll">
+        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+          <div class="pytorch-left-menu-search">
+            
+
+            
+              
+              
+                <div class="version">
+                  0.8
+                </div>
+              
+            
+
+            
+
+
+  
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+            
+          </div>
+
+          
+            
+            
+              
+            
+            
+              <p class="caption" role="heading"><span class="caption-text">General Info</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="general/Contributing.html">Contributing</a></li>
+<li class="toctree-l1"><a class="reference internal" href="general/documentation/Overview.html">Documentation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="general/ContactUs.html">Contact Us</a></li>
+<li class="toctree-l1"><a class="reference internal" href="general/License.html">License</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM Development</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm-development/BuildInstructions.html">Build Instructions</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Development</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-development/BuildInstructions.html">Build Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-development/InstallationInstructions.html">Installation Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-development/TestInstructions.html">Test Instructions</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Overview</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.html">Jagged Tensor Operators</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM C++ API</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm-cpp-api/QuantUtils.html">Quantization Utilities</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm-cpp-api/tbe_cpu_autovec.html">TBE CPU Autovectorization</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/quantize_ops.html">Quantization Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/merge_pooled_embeddings.html">Pooled Embeddings Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/split_table_batched_embeddings.html">Table Batched Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/memory_utils.html">CUDA Memory Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/input_combine.html">Combine Input Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/embedding_ops.html">Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/ssd_embedding_ops.html">SSD Embedding Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-cpp-api/experimental_ops.html">Experimental Operators</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
+</ul>
+
+            
+          
+        </div>
+      </div>
+    </nav>
+
+    <div class="pytorch-container">
+      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+        <div class="pytorch-breadcrumbs-wrapper">
+          
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="index.html">
+          
+            Docs
+          
+        </a> &gt;
+      </li>
+
+        
+      <li>Python Module Index</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+        </div>
+
+        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+          Shortcuts
+        </div>
+      </div>
+
+      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+        <div class="pytorch-content-left">
+
+        
+          <!-- Google Tag Manager (noscript) -->
+          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id=UA-117752657-2"
+          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
+          <!-- End Google Tag Manager (noscript) -->
+          
+          <div class="rst-content">
+          
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+              
+
+   <h1>Python Module Index</h1>
+
+   <div class="modindex-jumpbox">
+   <a href="#cap-f"><strong>f</strong></a>
+   </div>
+
+   <table class="indextable modindextable">
+     <tr class="pcap"><td></td><td>&#160;</td><td></td></tr>
+     <tr class="cap" id="cap-f"><td></td><td>
+       <strong>f</strong></td><td></td></tr>
+     <tr>
+       <td></td>
+       <td>
+       <a href="fbgemm_gpu-python-api/pooled_embedding_ops.html#module-fbgemm_gpu"><code class="xref">fbgemm_gpu</code></a></td><td>
+       <em></em></td></tr>
+   </table>
+
+
+             </article>
+             
+            </div>
+            <footer>
+  
+
+  
+
+    <hr>
+
+  
+
+  <div role="contentinfo">
+    <p>
+        &copy; Copyright 2020 - 2024, FBGEMM Team.
+
+    </p>
+  </div>
+    
+      <div>
+        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
+      </div>
+     
+
+</footer>
+
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+      </section>
+    </div>
+
+  
+
+
+  
+
+     
+       <script type="text/javascript" id="documentation_options" data-url_root="./" src="_static/documentation_options.js"></script>
+         <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js"></script>
+         <script src="_static/doctools.js"></script>
+         <script src="_static/sphinx_highlight.js"></script>
+     
+
+  
+
+  <script type="text/javascript" src="_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+    <div class="container">
+      <div class="row">
+        <div class="col-md-4 text-center">
+          <h2>Docs</h2>
+          <p>Access comprehensive developer documentation for PyTorch</p>
+          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Tutorials</h2>
+          <p>Get in-depth tutorials for beginners and advanced developers</p>
+          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
+        </div>
+
+        <div class="col-md-4 text-center">
+          <h2>Resources</h2>
+          <p>Find development resources and get your questions answered</p>
+          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
+        </div>
+      </div>
+    </div>
+  </div>
+
+  <footer class="site-footer">
+    <div class="container footer-container">
+      <div class="footer-logo-wrapper">
+        <a href="https://pytorch.org/" class="footer-logo"></a>
+      </div>
+
+      <div class="footer-links-wrapper">
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
+            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
+            <li><a href="https://pytorch.org/features">Features</a></li>
+            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
+            <li><a href="https://pytorch.org/blog/">Blog</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
+            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
+            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
+            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
+            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
+            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
+          </ul>
+        </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">Stay up to date</li>
+            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
+            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
+            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
+            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
+          </ul>  
+          </div>
+
+        <div class="footer-links-col">
+          <ul>
+            <li class="list-title">PyTorch Podcasts</li>
+            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
+            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
+            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
+            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
+          </ul>
+         </div>
+        </div>
+        
+        <div class="privacy-policy">
+          <ul>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
+            <li class="privacy-policy-links">|</li>
+            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
+          </ul>
+        </div>
+        <div class="copyright">
+        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
+          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
+          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
+          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
+          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
+      </div>
+     </div>
+
+  </footer>
+
+  <div class="cookie-banner-wrapper">
+  <div class="container">
+    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
+    <img class="close-button" src="_static/images/pytorch-x.svg">
+  </div>
+</div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+           <li class="resources-mobile-menu-title">
+             <a>Learn</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/get-started">Get Started</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials">Tutorials</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/basics/intro.html">Learn the Basics</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/recipes/recipes_index.html">PyTorch Recipes</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/tutorials/beginner/introyt.html">Introduction to PyTorch - YouTube Series</a>
+             </li>
+           </ul>
+           <li class="resources-mobile-menu-title">
+             <a>Ecosystem</a>
+           </li>
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/ecosystem">Tools</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/#community-module">Community</a>
+             </li>
+             <li>
+               <a href="https://discuss.pytorch.org/">Forums</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/resources">Developer Resources</a>
+             </li>
+             <li>
+               <a href="https://pytorch.org/ecosystem/contributor-awards-2023">Contributor Awards - 2023</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Edge</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+             <li>
+               <a href="https://pytorch.org/edge">About PyTorch Edge</a>
+             </li>
+             
+             <li>
+               <a href="https://pytorch.org/executorch-overview">ExecuTorch</a>
+             </li>
+           </ul>
+
+           <li class="resources-mobile-menu-title">
+             <a>Docs</a>
+           </li>
+
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/pytorch-domains">PyTorch Domains</a>
+            </li>
+          </ul>
+
+          <li class="resources-mobile-menu-title">
+            <a>Blog & News</a>
+          </li>
+            
+           <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/blog/">PyTorch Blog</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/community-blog">Community Blog</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/videos">Videos</a>
+            </li>
+
+            <li>
+              <a href="https://pytorch.org/community-stories">Community Stories</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/events">Events</a>
+            </li>
+          </ul>
+          
+          <li class="resources-mobile-menu-title">
+            <a>About</a>
+          </li>
+
+          <ul class="resources-mobile-menu-items">
+            <li>
+              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
+            </li>
+            <li>
+              <a href="https://pytorch.org/governing-board">Governing Board</a>
+            </li>
+          </ul>
+        </ul>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function() {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function(e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+</html>
\ No newline at end of file
diff --git a/search.html b/search.html
index 927461dbe..c8202f5a4 100644
--- a/search.html
+++ b/search.html
@@ -336,8 +336,9 @@
 </ul>
 <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Training Module</a></li>
 <li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="fbgemm_gpu-python-api/pooled_embedding_ops.html">Pooled Embedding Operators</a></li>
 </ul>
 
             
diff --git a/searchindex.js b/searchindex.js
index 38e7907b8..beacba10e 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["fbgemm-cpp-api/QuantUtils", "fbgemm-cpp-api/tbe_cpu_autovec", "fbgemm-development/BuildInstructions", "fbgemm_gpu-cpp-api/embedding_ops", "fbgemm_gpu-cpp-api/experimental_ops", "fbgemm_gpu-cpp-api/input_combine", "fbgemm_gpu-cpp-api/jagged_tensor_ops", "fbgemm_gpu-cpp-api/layout_transform_ops", "fbgemm_gpu-cpp-api/memory_utils", "fbgemm_gpu-cpp-api/merge_pooled_embeddings", "fbgemm_gpu-cpp-api/quantize_ops", "fbgemm_gpu-cpp-api/sparse_ops", "fbgemm_gpu-cpp-api/split_table_batched_embeddings", "fbgemm_gpu-cpp-api/ssd_embedding_ops", "fbgemm_gpu-development/BuildInstructions", "fbgemm_gpu-development/InstallationInstructions", "fbgemm_gpu-development/TestInstructions", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps", "fbgemm_gpu-python-api/jagged_tensor_ops", "fbgemm_gpu-python-api/table_batched_embedding_ops", "general/ContactUs", "general/Contributing", "general/License", "general/documentation/Cpp", "general/documentation/Overview", "general/documentation/Python", "general/documentation/Sphinx", "index"], "filenames": ["fbgemm-cpp-api/QuantUtils.rst", "fbgemm-cpp-api/tbe_cpu_autovec.rst", "fbgemm-development/BuildInstructions.rst", "fbgemm_gpu-cpp-api/embedding_ops.rst", "fbgemm_gpu-cpp-api/experimental_ops.rst", "fbgemm_gpu-cpp-api/input_combine.rst", "fbgemm_gpu-cpp-api/jagged_tensor_ops.rst", "fbgemm_gpu-cpp-api/layout_transform_ops.rst", "fbgemm_gpu-cpp-api/memory_utils.rst", "fbgemm_gpu-cpp-api/merge_pooled_embeddings.rst", "fbgemm_gpu-cpp-api/quantize_ops.rst", "fbgemm_gpu-cpp-api/sparse_ops.rst", "fbgemm_gpu-cpp-api/split_table_batched_embeddings.rst", "fbgemm_gpu-cpp-api/ssd_embedding_ops.rst", "fbgemm_gpu-development/BuildInstructions.rst", "fbgemm_gpu-development/InstallationInstructions.rst", "fbgemm_gpu-development/TestInstructions.rst", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "fbgemm_gpu-python-api/jagged_tensor_ops.rst", "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "general/ContactUs.rst", "general/Contributing.rst", "general/License.rst", "general/documentation/Cpp.rst", "general/documentation/Overview.rst", "general/documentation/Python.rst", "general/documentation/Sphinx.rst", "index.rst"], "titles": ["Quantization Utilities", "TBE CPU Autovectorization", "Build Instructions", "Embedding Operators", "Experimental Operators", "Combine Input Operators", "Jagged Tensor Operators", "Layout Transformation Operators", "CUDA Memory Operators", "Pooled Embeddings Operators", "Quantization Operators", "Sparse Data Operators", "Table Batched Embedding Operators", "SSD Embedding Operators", "Build Instructions", "Installation Instructions", "Test Instructions", "Jagged Tensor Operators", "Jagged Tensor Operators", "Table Batched Embedding (TBE) Operators", "Contact Us", "Contributing", "License", "Adding Documentation to C++ Code", "Documentation", "Adding Documentation to Python Code", "Sphinx Documentation Pointers", "FBGEMM and FBGEMM_GPU Documentation Homepage"], "terms": {"templat": [0, 1, 14, 23], "typenam": [0, 1, 23], "t": [0, 2, 4, 8, 11, 14, 19, 21, 23, 24], "layout_t": 0, "layout": [0, 27], "kcx": 0, "void": [0, 3, 8, 10, 12, 13], "quantizegroupwis": 0, "const": [0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 25], "float": [0, 1, 10, 19, 23, 25], "src": 0, "int": [0, 1, 10, 19, 23, 25], "k": [0, 4], "c": [0, 12, 15, 17, 22, 24, 25, 26], "x": [0, 6, 13, 17, 23, 25], "g": [0, 2, 11, 13, 14, 23, 25], "scale": [0, 1, 4, 10], "std": [0, 1, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 23, 25], "int32_t": [0, 1, 23, 25], "zero_point": 0, "dst": 0, "point": [0, 10, 23, 25], "data": [0, 1, 4, 8, 13, 17, 19, 22, 27], "type": [0, 1, 2, 4, 10, 15, 17, 19, 23], "paramet": [0, 1, 4, 8, 10, 11, 13, 19, 23, 24, 25], "output": [0, 1, 4, 6, 10, 11, 13, 19, 23, 25], "int8_t": 0, "uint8_t": [0, 1, 10, 12], "ar": [0, 2, 6, 12, 13, 14, 15, 17, 19, 22, 23, 24, 25], "support": [0, 2, 4, 13, 14, 15, 17, 19, 25, 27], "input": [0, 1, 4, 6, 8, 10, 11, 13, 17, 19, 23, 27], "tensor": [0, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 19, 24, 25, 27], "kxc": 0, "correspond": [0, 11, 12, 13, 17, 19, 23, 25], "kcr": 0, "kctr": 0, "weight": [0, 1, 3, 11, 12, 13, 19], "time": [0, 2, 14, 15, 17], "dimens": [0, 4, 6, 8, 11, 17, 19, 25], "krsc": 0, "ktrsc": 0, "channel": [0, 14, 15, 20], "number": [0, 1, 2, 4, 10, 11, 13, 14, 17, 19, 24], "r": [0, 16, 24], "": [0, 2, 8, 14, 16, 17, 19, 21, 23, 24, 25], "group": [0, 4, 17, 23], "function": [0, 2, 13, 14, 19, 23, 25], "perform": [0, 2, 10, 11, 13, 17, 19, 27], "channelwis": 0, "1": [0, 1, 2, 4, 11, 12, 13, 14, 15, 16, 17, 19, 24, 25, 26], "groupwis": 0, "per": [0, 17, 19], "size": [0, 2, 4, 8, 10, 11, 17, 19], "should": [0, 10, 11, 12, 14, 15, 17, 19, 21, 23, 24, 25], "equal": [0, 17, 25], "zero": [0, 19, 25], "reprsent": 0, "fusedquantizedequant": 0, "int64_t": [0, 1, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13], "len": [0, 17], "tensorquantizationparam": 0, "qparam": 0, "thread_id": 0, "0": [0, 2, 4, 10, 11, 12, 13, 14, 15, 17, 19, 25], "num_thread": 0, "noise_ratio": 0, "0f": 0, "fuse": [0, 10, 19], "integ": [0, 8, 10, 17], "dequant": [0, 10], "kernel": [0, 2, 8, 10, 13, 16, 27], "acceler": 0, "awar": 0, "train": [0, 13, 19, 27], "fp32": [0, 1, 10, 19], "valu": [0, 6, 8, 10, 11, 12, 13, 19, 23, 24, 25], "u": [0, 14, 26, 27], "int8": 0, "us": [0, 1, 2, 4, 8, 11, 13, 14, 15, 16, 17, 19, 20, 21, 22, 23, 24, 25, 26, 27], "provid": [0, 2, 13, 14, 15, 16, 22, 23, 24, 25, 27], "back": [0, 8, 12, 14, 15], "inputtyp": 0, "floatorhalftofusednbitrowwisequantizedsbhalf": 0, "bit_rat": [0, 10], "size_t": [0, 10, 13, 23], "input_row": 0, "input_column": 0, "convert": [0, 8, 10, 13, 17, 19, 25], "fp16": [0, 10, 19], "rowwis": [0, 10, 19], "bitrat": 0, "specifi": [0, 2, 4, 10, 11, 13, 14, 19], "bit": [0, 1, 10], "bia": [0, 1, 4, 10], "each": [0, 1, 4, 10, 11, 13, 14, 17, 19, 25], "row": [0, 1, 6, 10, 12, 13, 17, 19, 25], "store": [0, 10, 11, 12, 13], "itself": [0, 17, 19, 24], "end": [0, 1, 15, 17, 26], "can": [0, 1, 2, 10, 11, 13, 14, 15, 17, 23, 24, 25, 26], "4": [0, 10, 14, 15, 17, 19, 25], "8": [0, 10, 14, 17, 19], "uint32_t": 0, "xor128": 0, "random": 0, "gener": [0, 2, 11, 13, 14, 15, 19, 23, 26], "9": [0, 13, 14, 17, 19], "base": [0, 2, 11, 12, 13, 14, 17], "thi": [0, 2, 6, 8, 9, 10, 11, 13, 14, 15, 17, 19, 20, 21, 22, 23, 25, 26, 27], "paper": 0, "findminmax": 0, "m": [0, 14, 15, 16], "min": 0, "max": [0, 4, 19], "find": [0, 12, 14], "matrix": [0, 2, 27], "bool": [0, 1, 4, 8, 9, 10, 12, 13, 19], "a_symmetr": 0, "b_symmetr": 0, "quantizationgranular": 0, "q_gran": 0, "has_bia": 0, "fuse_relu": 0, "bias_typ": 0, "direct": [0, 12, 15, 22, 23, 25, 26], "fals": [0, 1, 8, 13, 19, 24], "requantizeoutputprocessingavx2": 0, "out": [0, 1, 14, 20, 22, 24], "inp": 0, "block_type_t": 0, "block": [0, 1, 23, 25, 26], "ld_out": 0, "ld_in": 0, "requantizationparams_t": 0, "requant": 0, "avx2": [0, 2], "i": [0, 1, 2, 4, 6, 8, 10, 11, 12, 13, 14, 15, 16, 17, 19, 21, 22, 23, 24, 25, 26, 27], "c_per_g": 0, "requantizeoutputprocessinggconvavx512": 0, "avx512": 0, "intyp": 1, "indextyp": 1, "offsettyp": 1, "outtyp": 1, "embeddingspmdm_autovec": 1, "block_siz": 1, "output_s": [1, 11], "index_s": 1, "data_s": 1, "indic": [1, 3, 12, 13, 17, 19], "offsets_or_length": 1, "normalize_by_length": 1, "is_weight_posit": 1, "use_offset": 1, "true": [1, 8, 13, 19], "output_strid": 1, "input_strid": 1, "scale_bias_last": [1, 10], "no_bag": 1, "is_bf16_out": 1, "is_bf16_in": 1, "version": [1, 2, 15], "embeddingspmdm_ref": 1, "index": [1, 11, 12, 13, 14, 15, 17, 19, 23, 25], "offset": [1, 3, 6, 11, 12, 19], "element": [1, 10, 12, 13, 17], "address": [1, 2, 13, 14], "sum": [1, 4, 11, 13, 19], "option": [1, 2, 3, 6, 8, 12, 14, 19], "null": 1, "non": [1, 4, 8, 19], "whether": [1, 4, 8, 13, 14, 22], "normal": [1, 17], "length": [1, 4, 6, 11, 13, 19, 25], "If": [1, 2, 13, 14, 15, 19, 21, 23, 24, 25], "posit": [1, 4, 11, 13, 19], "set": [1, 8, 12, 13, 16, 17, 19], "instead": [1, 14, 19, 24], "same": [1, 2, 4, 8, 11, 14, 17, 23, 24, 25], "appear": [1, 15], "embed": [1, 2, 14, 15, 24, 27], "bag": [1, 11, 19, 27], "bfloat16": [1, 10], "embeddingspmdmfp8_autovec": 1, "exponent_bit": 1, "exponent_bia": [1, 10], "expon": 1, "note": [2, 12, 14, 15, 19, 23, 24, 25, 26], "The": [2, 4, 8, 10, 11, 13, 15, 16, 17, 19, 21, 23, 24, 25, 26], "most": [2, 14, 15, 17, 24], "date": [2, 14, 15, 24], "script": [2, 14, 15, 24], "bundl": [2, 14, 15, 24], "repo": [2, 14, 15, 24, 25], "under": [2, 14, 15, 21, 22, 24, 25], "setup_env": [2, 14, 15, 24], "bash": [2, 14, 15, 24], "step": [2, 13, 14, 15, 17, 19, 24, 25], "fbgemm_gpu": [2, 8, 14, 17, 19, 20, 21, 22, 23, 25], "follow": [2, 11, 14, 15, 17, 19, 22, 23, 24, 25], "toolchain": [2, 14, 15], "run": [2, 14, 15, 19, 24], "cpu": [2, 8, 9, 16, 19, 24, 27], "higher": 2, "In": [2, 11, 13, 14, 15, 17, 19, 21, 23, 25], "doe": [2, 3, 15, 23, 24, 25], "have": [2, 10, 11, 12, 14, 17, 19, 24], "ani": [2, 11, 14, 21, 22, 24, 25], "intel": 2, "mkl": 2, "howev": [2, 14, 17, 22], "comparison": 2, "some": [2, 14, 17, 24], "benchmark": 2, "found": [2, 14, 15, 24], "path": [2, 13, 14, 16, 23, 26], "through": [2, 21, 23, 25], "intel_mkl_dir": 2, "variabl": 2, "built": [2, 14, 15, 24, 27], "report": [2, 15, 19], "otherwis": [2, 8, 13, 15, 19, 22], "subset": 2, "all": [2, 11, 12, 13, 14, 15, 17, 19, 22, 24], "three": [2, 17], "git": [2, 14], "submodul": [2, 14], "custom": [2, 26], "desir": [2, 14, 17, 23], "thei": [2, 14, 24, 26], "asmjit_src_dir": 2, "cpuinfo_src_dir": 2, "googletest_source_dir": 2, "With": 2, "inner": [2, 17], "take": [2, 14, 19], "one": [2, 4, 10, 11, 12, 14, 19, 23, 25], "doesn": 2, "fit": [2, 22], "approach": 2, "so": [2, 11, 14, 15, 16, 17], "implement": [2, 4, 10, 13, 14, 17, 19], "dynam": 2, "effici": [2, 27], "shape": [2, 4, 17, 19], "specif": [2, 11, 13, 14, 19, 22], "vector": [2, 5, 6, 7, 8, 9, 13, 25], "code": [2, 13, 14, 22, 24], "third": 2, "parti": 2, "call": [2, 8, 13, 15, 19], "detect": [2, 16], "runtim": [2, 14], "pytorch": [2, 13, 17, 19, 20, 24, 25, 27], "project": [2, 21], "dispatch": [2, 8], "optim": [2, 10, 13, 19], "test": [2, 10, 14, 15, 21, 27], "you": [2, 21, 23, 25], "don": [2, 11, 14, 24], "want": [2, 21], "togeth": [2, 23, 24], "default": [2, 11, 14, 15, 19], "turn": [2, 24], "off": [2, 15, 20], "simpli": [2, 14], "fbgemm_build_test": 2, "conda": [2, 16, 24], "For": [2, 16, 17, 20, 22, 23, 24, 25, 26], "platform": [2, 14, 22], "machin": [2, 14, 15, 16, 27], "microsoft": [2, 10], "visual": 2, "studio": 2, "2019": 2, "newer": [2, 14], "recommend": [2, 6, 10, 14, 15, 17], "here": [2, 8, 14, 15, 21, 23, 24, 25, 26], "necessari": [2, 14], "ninja": [2, 14], "etc": [2, 14, 19], "n": [2, 10, 14, 15, 26], "env_nam": [2, 14, 15], "y": [2, 6, 14, 15, 24], "doxygen": [2, 23, 24], "make": [2, 12, 14, 21, 23, 24, 25], "openbla": 2, "packag": [2, 14, 16, 24], "onli": [2, 4, 10, 11, 12, 13, 16, 17, 19, 21, 23, 24, 26], "clone": [2, 14], "along": [2, 14, 15], "its": [2, 8, 10, 11, 14, 19, 22, 24, 26], "insid": [2, 13, 14, 15, 16, 24, 26], "recurs": [2, 14], "http": [2, 14, 15, 21, 23, 24, 25], "github": [2, 14, 21], "com": [2, 14, 21], "cd": [2, 14, 16, 24], "assum": [2, 11], "process": [2, 6, 13, 15, 17, 19, 21, 25], "straightforward": 2, "creat": [2, 8, 14, 17, 19, 21, 23, 25, 26], "directori": [2, 14, 16, 21, 23, 24], "mkdir": 2, "argument": [2, 11, 23, 24, 25], "build_arg": 2, "duse_sanit": 2, "dfbgemm_library_typ": 2, "share": [2, 8], "dpython_execut": 2, "which": [2, 11, 13, 14, 15, 17, 24], "python3": [2, 15], "document": [2, 8, 21, 22], "dfbgemm_build_doc": 2, "ON": [2, 22], "j": [2, 17], "verbos": 2, "As": [2, 11, 14, 15, 17], "write": [2, 13, 14, 15, 24, 25], "fail": [2, 15, 16, 23], "due": [2, 14], "known": [2, 14, 19], "regress": 2, "To": [2, 13, 14, 16, 26], "work": [2, 14, 15, 17, 21], "around": 2, "append": [2, 14, 23, 25], "export": [2, 14, 16], "prior": [2, 14, 15, 22], "cflag": 2, "wno": 2, "error": [2, 10, 15, 19, 23, 24, 25], "mayb": 2, "uniniti": 2, "restrict": 2, "cxxflag": 2, "pleas": [2, 21, 23, 25], "see": [2, 8, 14, 15, 17, 23, 25, 26], "77939": 2, "1094": 2, "1666": 2, "more": [2, 8, 14, 19, 23, 25, 26], "detail": [2, 13, 15], "exactli": 2, "extra": 2, "need": [2, 13, 14, 15, 16, 17, 19, 21, 23, 25, 26], "ad": [2, 14, 21, 24], "invoc": [2, 14, 24], "llvm": [2, 14], "standard": [2, 14], "libc": [2, 14], "openmp": [2, 14], "libomp": 2, "locat": [2, 8, 12, 13, 14, 17], "cc_path": 2, "cxx_path": 2, "dcmake_c_compil": 2, "dcmake_cxx_compil": 2, "dcmake_c_flag": [2, 14], "fopenmp": 2, "stdlib": [2, 14], "conda_prefix": [2, 14], "includ": [2, 9, 13, 14, 22, 23, 25], "dcmake_cxx_flag": [2, 14], "likewis": 2, "also": [2, 13, 14, 19, 26], "veri": [2, 14, 23, 24, 25], "target": [2, 8, 10, 11, 14, 17, 23, 24, 25, 26], "architectur": [2, 14, 15], "bc": [2, 14], "x64": 2, "program": [2, 21], "file": [2, 14, 15, 20, 21, 23, 24, 25, 26], "x86": [2, 27], "enterpris": 2, "vc": 2, "auxiliari": 2, "vcvarsal": 2, "bat": 2, "build_dir": 2, "dfbgemm_build_benchmark": 2, "dcmake_build_typ": 2, "releas": [2, 15], "cl": 2, "ex": 2, "v": [2, 4, 6, 16], "int_nbit_split_embedding_codegen_lookup_funct": 3, "dev_weight": [3, 12], "uvm_weight": [3, 12], "weights_plac": [3, 12], "weights_offset": [3, 12], "weights_ti": [3, 12], "d_offset": [3, 10, 12], "total_d": [3, 12, 19], "max_int2_d": 3, "max_int4_d": 3, "max_int8_d": 3, "max_float16_d": 3, "max_float32_d": 3, "pooling_mod": [3, 19], "indice_weight": 3, "output_dtyp": [3, 10, 19], "lxu_cache_weight": [3, 12, 13], "lxu_cache_loc": [3, 12, 13], "row_align": [3, 12], "max_float8_d": 3, "fp8_exponent_bit": 3, "fp8_exponent_bia": 3, "int_nbit_split_embedding_uvm_caching_codegen_lookup_funct": 3, "cache_hash_size_cumsum": [3, 12], "total_cache_hash_s": [3, 12], "cache_index_table_map": [3, 12], "lxu_cache_st": [3, 12], "lxu_stat": 3, "simlar": 3, "uvm_cach": 3, "lookup": [3, 12, 13, 19], "pruned_hashmap_lookup_cuda": 3, "hash_tabl": 3, "hash_table_offset": 3, "pruned_array_lookup_cuda": 3, "index_remap": 3, "index_remappings_offset": 3, "bounds_check_indices_cuda": 3, "rows_per_t": 3, "bounds_check_mod": [3, 19], "warn": [3, 19, 23], "b_ofset": 3, "max_b": [3, 12], "int_nbit_split_embedding_codegen_lookup_function_cpu": 3, "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu": 3, "pruned_hashmap_insert_unweighted_cpu": 3, "dense_indic": 3, "pruned_hashmap_lookup_unweighted_cpu": 3, "pruned_array_lookup_cpu": 3, "tupl": [4, 5, 6, 11, 12, 13, 19], "gqa_attn_splitk": 4, "xq": 4, "cache_k": 4, "cache_v": 4, "seq_posit": 4, "doubl": [4, 6, 10, 11], "qk_scale": 4, "num_split_k": 4, "kv_cache_quant_num_group": 4, "use_tensor_cor": 4, "cache_logical_dtype_int": 4, "decod": 4, "queri": 4, "split": [4, 19], "w": [4, 16], "bf16": [4, 10], "int4": [4, 10], "kv": 4, "cuda": [4, 9, 19, 27], "gqa": 4, "cach": [4, 12, 13, 14, 19], "It": [4, 13, 14, 15, 17], "current": [4, 13, 14, 15, 17, 19], "context": 4, "16384": 4, "fix": [4, 11, 19], "head": 4, "128": 4, "an": [4, 8, 11, 13, 15, 16, 17, 19, 23, 24, 25, 26], "arbitrari": [4, 13], "b": [4, 11, 14, 17, 19, 23, 24, 25, 26], "h_q": 4, "d": [4, 17, 26], "where": [4, 6, 8, 11, 13, 17, 19], "batch": [4, 6, 11, 17, 27], "num": 4, "max_t": 4, "h_kv": 4, "sequenc": [4, 19], "contain": [4, 8, 13, 14, 17, 19, 25], "actual": [4, 14], "token": [4, 17], "appli": [4, 11, 14, 17, 19], "after": [4, 11, 13, 14, 15, 16, 17, 19, 24, 25, 26], "qk": 4, "control": [4, 19], "amount": [4, 19], "parallel": [4, 13], "wise": [4, 17, 19], "fp8": [4, 10], "quantiz": [4, 27], "singl": [4, 8, 10, 13], "now": 4, "core": 4, "wmma": 4, "instruct": [4, 21, 23, 24, 25, 27], "fast": 4, "kv_cach": 4, "2": [4, 10, 13, 14, 15, 16, 17, 19, 23, 25, 26], "return": [4, 8, 10, 11, 13, 19, 23, 24, 25], "A": [4, 8, 10, 13, 14, 15, 17, 19, 22, 23, 24, 25], "combin": [4, 27], "metadata": [4, 13, 19], "softmax": 4, "tbe_input_combine_cpu": 5, "indices_list": 5, "offsets_list": 5, "per_sample_weight": [5, 19], "include_last_offset": 5, "padding_fused_tbe_input_combine_cpu": 5, "batch_siz": 5, "solv": 6, "issu": [6, 8, 14, 15, 20], "when": [6, 11, 13, 14, 16, 17, 19, 23, 24, 26], "differ": [6, 11, 13, 17, 19], "often": 6, "occur": [6, 13, 23], "spars": [6, 17, 19, 27], "featur": [6, 11, 14, 17, 19, 20], "system": [6, 14, 15, 17], "well": [6, 11, 14, 23], "natur": [6, 17], "languag": [6, 17, 26], "jagged_to_padded_dense_forward": 6, "c10": [6, 10], "symintarrayref": 6, "max_length": 6, "padding_valu": 6, "jagged_dense_elementwise_add_jagged_output_cuda": 6, "x_valu": 6, "x_offset": [6, 25], "dens": [6, 25], "jagged_to_padded_dens": 6, "jagged_dense_elementwise_add": 6, "jagged_dense_elementwise_mul": 6, "batched_dense_vec_jagged_2d_mul": 6, "a_valu": 6, "a_offset": 6, "dense_to_jag": 6, "symint": 6, "total_l": 6, "jagged_dense_elementwise_add_jagged_output": 6, "jagged_1d_to_dens": 6, "max_l": 6, "jagged_2d_to_dens": [6, 14, 15, 24, 25], "max_sequence_length": [6, 25], "recat_embedding_grad_output_cuda": 7, "grad_output": 7, "num_features_per_rank": 7, "recat_embedding_grad_output_mixed_d_cuda": 7, "dim_sum_per_rank": 7, "recat_embedding_grad_output_mixed_d_batch_cuda": 7, "cumsum_dim_sum_per_rank": 7, "recat_embedding_grad_output_mixed_d_cpu": 7, "new_managed_tensor": 8, "self": [8, 13], "alloc": [8, 19, 23], "unifi": [8, 19], "manag": [8, 14, 15, 19], "uvm": [8, 16, 19], "Then": 8, "prefer": [8, 13, 15], "storag": [8, 10, 12, 13], "host": [8, 14, 19], "establish": 8, "map": [8, 11, 12, 13, 17, 19], "devic": [8, 9, 14, 19], "new": [8, 10, 12, 23, 24, 25], "new_managed_tensor_meta": 8, "placehold": 8, "meta": [8, 22], "kei": [8, 13, 19], "empti": [8, 17, 26], "new_host_mapped_tensor": 8, "new_unified_tensor": 8, "is_host_map": 8, "either": [8, 10, 11, 13, 14, 15], "depend": [8, 10, 14, 15, 17], "new_unified_tensor_meta": 8, "new_vanilla_managed_tensor": 8, "allow": [8, 14], "automat": [8, 11, 16, 24], "uvm_storag": 8, "check": [8, 19], "gpu": [8, 13, 14, 15, 16, 19, 27], "is_uvm_tensor": 8, "BUT": [8, 22], "uvm_to_cpu": 8, "effect": [8, 17], "move": [8, 13], "from": [8, 10, 11, 12, 13, 14, 15, 16, 17, 19, 21, 22, 23, 24, 25, 26], "uvm_to_devic": 8, "prototyp": 8, "whose": 8, "uvm_cuda_mem_advis": 8, "cuda_memory_advis": 8, "cudamemadvis": 8, "cudamemoryadvis": 8, "enum": [8, 10, 13], "avail": [8, 14, 15, 16, 19, 24], "python": [8, 13, 14, 16, 23, 24, 26], "side": [8, 13, 14, 23, 25, 27], "namespac": 8, "over": [8, 14], "valid": 8, "inform": [8, 15, 17, 25, 26], "uvm_cuda_mem_prefetch_async": 8, "device_t": 8, "cudamemprefetchasync": 8, "prefetch": [8, 13, 19], "destin": 8, "uvm_mem_advice_dont_fork": 8, "madvis": 8, "madv_dontfork": 8, "workaround": 8, "driver": [8, 14], "un": 8, "page": [8, 21, 26, 27], "tabl": [8, 11, 17, 27], "fork": [8, 21], "caus": [8, 14, 15, 22, 24], "slowdown": 8, "next": [8, 13, 17, 23, 25], "access": [8, 13, 19], "uvm_to_cpu_clon": 8, "copi": 8, "contigu": [8, 11], "thread": [8, 13], "memcpi": 8, "section": [9, 14, 15, 25], "variou": 9, "all_to_one_devic": 9, "inputtensor": 9, "target_devic": 9, "permute_pooled_embs_split_gpu": 9, "pooled_emb": 9, "offset_dim_list": 9, "permute_list": 9, "inv_offset_dim_list": 9, "inv_permute_list": 9, "permute_pooled_embs_auto_grad_split_gpu": 9, "permute_pooled_embs_auto_grad_gpu": 9, "permute_pooled_embs_cpu_impl": 9, "allow_dupl": 9, "permute_pooled_embs_split_cpu": 9, "permute_pooled_embs_auto_grad_split_cpu": 9, "permute_pooled_embs_auto_grad": 9, "permute_pooled_embs_auto_grad_cpu": 9, "model": [10, 11], "techniqu": 10, "reduc": [10, 13], "larg": [10, 14], "order": [10, 17, 21], "achiev": [10, 15], "better": [10, 13, 23], "small": 10, "loss": [10, 22], "accuraci": 10, "_float_to_bfloat16_gpu": 10, "brain": 10, "_bfloat16_to_float_gpu": 10, "_float_to_fp8rowwise_gpu": 10, "forward": [10, 19], "dtype": [10, 19], "sparsetyp": [10, 19], "throw": [10, 19, 23], "_fp8rowwise_to_float_gpu": 10, "represent": [10, 17], "_float_to_fused8bitrowwise_gpu": 10, "_half_to_fused8bitrowwise_gpu": 10, "half": 10, "_single_or_half_precision_to_fused8bitrowwise_gpu": 10, "_fused8bitrowwise_to_float_gpu": 10, "_fused8bitrowwise_to_half_gpu": 10, "_fused8bitrowwise_to_single_or_half_precision_gpu": 10, "quant_padding_float_typ": 10, "_fused8bitrowwise_to_float_mixed_dim_gpu": 10, "kfloat": 10, "khalf": 10, "_float_to_fusednbitrowwise_gpu": 10, "_half_to_fusednbitrowwise_gpu": 10, "_single_or_half_precision_to_fusednbitrowwise_gpu": 10, "_fusednbitrowwise_to_float_gpu": 10, "_fusednbitrowwise_to_half_gpu": 10, "_fusednbitrowwise_to_single_or_half_precision_gpu": 10, "_float_to_hfp8_gpu": 10, "ebit": 10, "max_po": 10, "hybrid": 10, "hfp8": 10, "_hfp8_to_float_gpu": 10, "_float_to_msfp_gpu": 10, "bounding_box_s": 10, "mbit": 10, "min_po": 10, "msfp": 10, "_msfp_to_float_gpu": 10, "_float_to_paddedfp8rowwise_gpu": 10, "row_dim": 10, "pad": [10, 13, 17, 25], "_paddedfp8rowwise_to_float_gpu": 10, "output_last_dim": 10, "_fused8bitrowwise_to_float_cpu_out": 10, "_float_to_fused8bitrowwise_cpu_out": 10, "float_to_fused8bitrowwise_cpu": 10, "half_to_fused8bitrowwise_cpu": 10, "float_or_half_to_fused8bitrowwise_cpu": 10, "fused8bitrowwise_to_float_cpu": 10, "fused8bitrowwise_to_half_cpu": 10, "fused8bitrowwise_to_float_or_half_cpu": 10, "float_to_fp8rowwise_cpu": 10, "fp8rowwise_to_float_cpu": 10, "fusednbitrowwise_to_float_cpu": 10, "fusednbitrowwise_sbfront_to_float_cpu": 10, "int2": 10, "front": 10, "float32": 10, "torch": [10, 13, 14, 15, 19, 24, 25], "quint4x2": 10, "quint2x4": 10, "quantizedcpu": 10, "backend": [10, 27], "purpos": [10, 17, 19, 22], "becaus": [10, 14, 17], "refer": [10, 14, 17, 24, 25], "rate": [10, 19], "hold": [10, 13, 17], "fusednbitrowwise_to_half_cpu": 10, "fusednbitrowwise_to_float_or_half_cpu": 10, "floattofp8quantized_ref": 10, "nrow": 10, "ncol": 10, "fp8quantizedtofloat_ref": 10, "expand_into_jagged_permute_cuda": 11, "permut": 11, "input_offset": 11, "output_offset": 11, "expand_into_jagged_permut": 11, "expand": 11, "case": [11, 14, 15, 17, 21], "ha": [11, 13, 15, 17, 21, 23, 24], "across": [11, 14], "rank": [11, 17, 19], "level": 11, "exclus": [11, 13], "op": [11, 15, 25], "sit": 11, "we": [11, 13, 14, 17, 19, 21], "deriv": [11, 17, 22], "arrai": [11, 25], "comput": [11, 14, 15, 19], "formula": 11, "output_permut": 11, "table_offset": 11, "bag_offset": 11, "histogram_binning_calibration_cpu": 11, "logit": 11, "bin_num_exampl": 11, "bin_num_posit": 11, "positive_weight": 11, "lower_bound": 11, "upper_bound": 11, "bin_ctr_in_use_aft": 11, "bin_ctr_weight_valu": 11, "divid": [11, 17], "predict": 11, "rang": [11, 13, 17], "e": [11, 13, 14, 17, 23, 25, 26], "bin": [11, 14], "two": [11, 17, 19, 24], "exampl": [11, 13, 14, 15, 16, 19, 23, 24, 25, 26], "fall": [11, 14, 15], "bucket": [11, 14], "basic": [11, 13, 25], "histogram": 11, "result": [11, 13, 14], "statist": [11, 19], "real": 11, "ctr": 11, "num_po": 11, "num_exampl": 11, "final": 11, "calibr": 11, "pre": [11, 15], "cali": 11, "wai": [11, 22], "within": [11, 19], "suffici": [11, 21, 24], "That": 11, "fine": 11, "grain": 11, "modul": [11, 14, 15, 19, 25], "theoret": 11, "layer": [11, 13], "uncalibr": 11, "befor": [11, 13, 14, 19, 26], "sigmoid": 11, "calibart": 11, "pass": [11, 19, 21, 24], "lower": 11, "bound": [11, 17, 19], "calibration_target": 11, "observ": 11, "statisct": 11, "final_calibrated_predict": 11, "bin_ctr_weight": 11, "bin_ctr": 11, "calibrated_predict": 11, "bin_id": 11, "generic_histogram_binning_calibration_by_feature_cpu": 11, "segment_valu": 11, "segment_length": 11, "num_seg": 11, "bin_boundari": 11, "extens": [11, 23, 24], "ectr": 11, "abov": [11, 13, 15, 17, 22, 23, 25, 26], "accept": [11, 21], "sort": [11, 12, 13, 14], "keyjaggedtensor": 11, "num_bin": 11, "longer": [11, 20, 23], "still": [11, 14], "parambin_ctr_weight_valu": 11, "get_unique_indices_cuda": 12, "linear_indic": 12, "max_indic": 12, "compute_count": 12, "dedupl": 12, "get_unique_indices_with_inverse_cuda": 12, "compute_inverse_indic": 12, "lru_cache_find_uncached_cuda": 12, "unique_indic": 12, "unique_indices_length": [12, 13], "time_stamp": 12, "lru_stat": 12, "gather_cache_stat": 12, "uvm_cache_stat": 12, "lock_cache_lin": 12, "lxu_cache_locking_count": 12, "lru": [12, 13, 19], "uncach": [12, 13], "them": [12, 19], "host_lxu_cache_slot": 12, "h_in": 12, "cache_set": [12, 19], "linearize_cache_indices_cuda": 12, "b_offset": 12, "indices_base_offset": 12, "linear": [12, 13], "uniqu": [12, 13, 26], "linearize_cache_indices_from_row_idx_cuda": 12, "update_table_indic": 12, "update_row_indic": 12, "format": [12, 19, 24, 25], "inplac": 12, "updat": [12, 13, 14, 15, 16, 19, 21], "lru_cache_populate_cuda": 12, "hash_size_cumsum": 12, "linear_cache_indic": 12, "stochastic_round": [12, 19], "fetch": [12, 13], "insert": [12, 13, 26], "timestep": 12, "lru_cache_populate_byte_cuda": 12, "byte": [12, 13], "direct_mapped_lru_cache_populate_byte_cuda": 12, "lxu_cache_miss_timestamp": 12, "assoc": 12, "variant": [12, 14, 15, 24], "lfu_cache_populate_cuda": 12, "lfu_stat": 12, "lfu": [12, 19], "lfu_cache_populate_byte_cuda": 12, "lxu_cache_lookup_cuda": 12, "invalid_index": 12, "num_uniq_cache_indic": 12, "lxu_cache_locations_output": 12, "look": [12, 19], "up": [12, 13, 16, 19], "slot": [12, 13], "sentinel": [12, 13], "miss": [12, 13, 14], "direct_mapped_lxu_cache_lookup_cuda": 12, "lxu_cache_flush_cuda": 12, "flush": [12, 13], "reset_weight_momentum_cuda": 12, "momentum1_dev": 12, "momentum1_uvm": 12, "momentum1_plac": 12, "momentum1_offset": 12, "pruned_indic": 12, "pruned_indices_offset": 12, "logical_table_id": 12, "buffer_id": 12, "lxu_cache_locking_counter_decrement_cuda": 12, "decrement": 12, "counter": 12, "lxu_cache_locations_update_cuda": 12, "lxu_cache_locations_new": 12, "rocksdbwritemod": 13, "rocksdb": 13, "mode": [13, 16, 19], "offload": 13, "3": [13, 14, 15, 17, 19, 22, 25], "iter": 13, "fwd_rocksdb_read": 13, "l2": [13, 19], "fwd": 13, "fwd_l1_evict": 13, "l1": 13, "eviciton": 13, "evict": 13, "bwd_l1_cnflct_miss_write_back": 13, "conflict": 13, "bwd": 13, "fill": 13, "potenti": 13, "trigger": 13, "onc": [13, 15, 21], "full": [13, 14, 15, 26], "addition": 13, "do": [13, 14, 15, 19, 21], "io": 13, "enumer": 13, "inlin": [13, 26], "hash_shard": 13, "id": [13, 15, 19], "num_shard": 13, "hash": 13, "shard": 13, "algorithm": [13, 19], "cuda_callback_func": 13, "cudastream_t": 13, "stream": [13, 14, 19], "cudaerror_t": 13, "statu": 13, "functor": 13, "callback": 13, "cudastreamaddcallback": 13, "common": [13, 14, 15, 17, 25], "cudastreamcallback_t": 13, "cast": 13, "invok": [13, 14, 24], "delet": 13, "anoth": [13, 26], "none": [13, 19], "masked_index_put_cuda": 13, "count": [13, 19], "use_pipelin": 13, "preferred_sm": 13, "similar": [13, 14, 17, 19], "index_put": 13, "ignor": [13, 16, 19, 24], "2d": [13, 17, 19, 25], "put": [13, 24], "equival": [13, 17], "filter_": 13, "indices_": 13, "nonzero": 13, "flatten": 13, "1d": [13, 19, 25], "flag": [13, 14, 19, 24], "overlap": 13, "other": [13, 15, 17, 22, 23, 24, 25], "fraction": 13, "sm": 13, "resourc": 13, "competit": 13, "masked_index_select_cuda": 13, "index_select": 13, "ssd_generate_row_addrs_cuda": 13, "assigned_cache_slot": 13, "linear_index_inverse_indic": 13, "unique_indices_count_cumsum": 13, "cache_set_inverse_indic": 13, "inserted_ssd_weight": 13, "cache_set_sorted_unique_indic": 13, "memori": [13, 15, 19, 27], "tbe": [13, 27], "retriev": 13, "scratch": [13, 15], "hbm": [13, 19], "lxu": 13, "associ": 13, "enabl": [13, 14, 16, 19], "conveni": 13, "first": [13, 14, 23, 25, 26], "pointer": [13, 24], "moreov": 13, "list": [13, 14, 17, 19, 22, 23, 25], "post": 13, "backward": [13, 19], "origin": 13, "being": [13, 14, 24], "prefix": [13, 14, 19, 26], "ssd_update_row_addrs_cuda": 13, "ssd_row_addrs_curr": 13, "inserted_ssd_weights_curr_next_map": 13, "lxu_cache_locations_curr": 13, "linear_index_inverse_indices_curr": 13, "unique_indices_count_cumsum_curr": 13, "cache_set_inverse_indices_curr": 13, "inserted_ssd_weights_next": 13, "unique_indices_length_curr": 13, "pipelin": [13, 19], "dure": [13, 14, 17, 19, 25], "reloc": 13, "correct": [13, 14], "between": [13, 17, 19, 23, 24, 26], "been": [13, 14, 23], "compact_indices_cuda": 13, "compact_indic": 13, "compact_count": 13, "mask": 13, "compact": 13, "given": [13, 14, 17, 19], "operat": 13, "remov": 13, "7": [13, 14, 15, 17, 19], "5": [13, 14, 17, 19], "repres": [13, 17, 19], "keep": [13, 14], "class": [13, 19, 24, 25], "cachelibcach": 13, "cachelib_cach": 13, "h": [13, 14, 23], "cachelib": 13, "wrapper": 13, "cachlib": 13, "interact": 13, "maintain": 13, "relat": [13, 17], "initi": 13, "state": [13, 14, 19], "logic": [13, 17, 23], "caller": [13, 19], "reset": 13, "captur": 13, "delai": 13, "markus": 13, "boost": 13, "get": [13, 19], "handl": [13, 17], "read": [13, 17, 19], "done": [13, 14, 15], "embeddingparameterserv": 13, "public": [13, 21, 24], "embeddingkvdb": 13, "ps_table_batched_embed": 13, "servic": [13, 22], "tp": 13, "client": 13, "cachecontext": 13, "kv_db_table_batched_embed": 13, "l2cach": 13, "num_miss": 13, "cached_addr_list": 13, "prealloc": 13, "invalid": [13, 19], "spot": 13, "stai": 13, "struct": 13, "queueitem": 13, "queue": 13, "item": [13, 25], "background": 13, "param": [13, 23, 25], "read_handl": 13, "abstract": 13, "pair": [13, 26], "later": [13, 14], "separ": [13, 19, 24], "get_cach": 13, "monitor": 13, "checkout": 13, "explan": 13, "enable_shared_from_thi": 13, "execut": [13, 15, 16], "dram": [13, 19], "remot": 13, "scalabl": 13, "without": [13, 14, 22], "blow": 13, "subclass": [13, 19], "embeddingrocksdb": 13, "ssd_table_batched_embed": 13, "fbgemm": [14, 15, 20, 21, 22, 24, 25], "experiment": [14, 15, 27], "reproduc": [14, 15, 21, 22], "platform_nam": 14, "unam": 14, "miniconda_prefix": 14, "home": 14, "download": [14, 15], "wget": 14, "q": 14, "anaconda": 14, "miniconda3": 14, "latest": 14, "sh": 14, "o": [14, 15], "p": 14, "load": [14, 17, 25], "shortcut": 14, "bashrc": 14, "command": [14, 15, 23, 24], "against": [14, 16], "env": [14, 15], "name": [14, 15, 19, 22, 23, 25], "python_vers": 14, "12": [14, 17, 19], "upgrad": 14, "pyopenssl": 14, "22": [14, 17], "requir": [14, 15, 16, 17, 19, 24, 25], "recent": [14, 15, 19], "nvcc": 14, "capabl": [14, 16], "bare": 14, "metal": 14, "neither": [14, 22], "nor": [14, 22], "nvidia": [14, 19], "present": [14, 25], "sinc": [14, 17, 19], "pull": [14, 15, 24], "linux": [14, 15], "distribut": [14, 22], "ubuntu": 14, "04": 14, "11": [14, 15, 17], "entrypoint": 14, "devel": 14, "ubuntu22": 14, "rest": [14, 15], "mai": [14, 15, 17, 22], "construct": [14, 15, 17], "mechan": 14, "nvml": 14, "org": [14, 15, 25], "cuda_vers": 14, "label": 14, "verifi": [14, 15, 23, 25], "cuda_runtim": 14, "libnvidia": [14, 15], "ml": [14, 15], "libnccl": [14, 16], "printenv": 14, "extract": 14, "url": [14, 15], "builder": 14, "blob": 14, "main": [14, 21], "install_cuda": 14, "cudnn_url": 14, "redist": 14, "x86_64": 14, "26_cuda12": 14, "archiv": 14, "tar": 14, "xz": 14, "unpack": 14, "xvf": 14, "applic": [14, 15, 19, 23, 25], "alreadi": [14, 15, 21, 23, 25], "repositori": [14, 21], "cmake": 14, "configur": [14, 23], "amd": [14, 15], "minim": 14, "6": [14, 15, 17], "termin": 14, "while": [14, 19, 24], "come": [14, 15], "reason": [14, 15, 24], "oper": [14, 15, 16, 27], "guid": [14, 25], "disabl": 14, "apt": 14, "prompt": 14, "debian_frontend": 14, "noninteract": 14, "db": 14, "radeon": 14, "amdgpu": 14, "focal": 14, "install_5": 14, "50601": 14, "1_all": 14, "deb": 14, "usecas": 14, "hiplibsdk": 14, "dkm": 14, "hipifi": 14, "hip": 14, "dev": 14, "20": [14, 19], "sysroot": 14, "avoid": 14, "glibcxx": 14, "fbgemm_cpu": 14, "10": [14, 15, 17, 19], "older": [14, 15], "accompani": [14, 24], "appropri": 14, "sysroot_linux": 14, "gcc_version": 14, "forg": [14, 24], "gxx_linux": 14, "64": [14, 17], "17": 14, "binari": [14, 22], "cento": 14, "librari": [14, 24, 27], "libstdc": 14, "what": [14, 24], "libcxx_path": 14, "print": [14, 15, 19, 25], "objdump": 14, "tc": 14, "grep": 14, "glibc_": 14, "sed": 14, "vu": 14, "cat": 14, "glibcxx_": 14, "possibl": [14, 17, 21, 22], "just": 14, "minimum": [14, 23, 24, 25], "llvm_version": 14, "16": [14, 17], "libcxx": 14, "outdat": 14, "aarch64": [14, 15], "cannot": 14, "explicitli": 14, "clangxx": 14, "rt": 14, "lib": [14, 15, 16], "ld_library_path": [14, 15, 16], "config": [14, 19], "var": 14, "nvcc_prepend_flag": 14, "correctli": [14, 15, 16, 23, 24], "xcompil": 14, "ccbin": 14, "clangxx_path": 14, "unsupport": 14, "even": [14, 22], "though": [14, 15], "libstd": 14, "mean": [14, 17, 19], "regardless": 14, "scenario": 14, "binpath": 14, "overrid": 14, "exist": [14, 23, 25], "ln": 14, "sf": 14, "path_to_either_gcc_or_clang": 14, "cc": 14, "These": 14, "stage": [14, 17], "click": 14, "hypothesi": [14, 15], "jinja2": 14, "ncurs": 14, "numpi": [14, 15], "scikit": [14, 15], "offici": 14, "homepag": 14, "authorit": [14, 15, 24], "how": [14, 15, 16, 25], "nightli": [14, 15], "rc": 14, "alwai": 14, "reliabl": 14, "arriv": 14, "hour": 14, "than": [14, 17, 19], "window": 14, "silent": [14, 19], "both": [14, 19, 20, 22, 24], "place": [14, 19], "artifact": 14, "select": 14, "thu": [14, 19], "import": [14, 15, 19, 25, 26], "much": [14, 23], "determinist": 14, "whl": [14, 15], "cu121": [14, 15], "rocm5": [14, 15], "ensur": [14, 15, 21], "properli": 14, "__version__": 14, "cuda_cmake_macro": 14, "gemm": 14, "via": [14, 19], "manual": [14, 15, 23], "sha": 14, "pin": 14, "ci": [14, 15], "ci_commit_pin": 14, "txt": [14, 16, 24, 26], "dedb7bdf33": 14, "tag": [14, 23, 26], "fbgemm_vers": 14, "v0": 14, "fbgemm_": 14, "addit": [14, 16, 17], "flow": [14, 19], "becom": 14, "stale": 14, "problem": 14, "re": [14, 15], "attempt": 14, "failur": [14, 15], "clear": [14, 21], "py": [14, 15, 16, 24, 25], "clean": [14, 24], "must": [14, 15, 16, 17, 19, 22, 26], "package_nam": 14, "fbgemm_gpu_": 14, "convent": 14, "major": 14, "minor": 14, "py312": 14, "python_tag": 14, "determin": [14, 17, 19], "processor": 14, "arch": 14, "python_plat_nam": 14, "manylinux2014_": 14, "maco": 14, "macosx_10_9_": 14, "arm64": 14, "macosx_11_0_": 14, "win_": 14, "cpu_onli": 14, "bdist_wheel": 14, "package_vari": 14, "plat": 14, "cxxprefix": 14, "presum": 14, "made": [14, 24], "debug": [14, 16], "assert": 14, "presenc": 14, "unabl": 14, "cudacxx": 14, "cuda_bin_path": 14, "cub": 14, "cub_dir": 14, "header": [14, 23, 26], "cudnn_include_dir": 14, "cudnn_librari": 14, "filepath": 14, "nvml_lib_path": 14, "nccl": [14, 16], "nccl_lib_path": 14, "sm70": [14, 15], "80": 14, "v100": [14, 15], "a100": [14, 15], "cuda_arch_list": 14, "unset": 14, "torch_cuda_arch_list": 14, "preced": 14, "dtorch_cuda_arch_list": 14, "By": [14, 21], "those": [14, 17, 21, 25], "rocm_path": 14, "pytorch_rocm_arch": 14, "gfx906": 14, "gfx908": 14, "gfx90a": 14, "wiki": 14, "gentoo": 14, "rocminfo": 14, "gfx": 14, "dhip_root_dir": 14, "dtorch_use_hip_dsa": 14, "complet": [14, 19, 21, 24], "lot": 14, "jinja": 14, "instanti": 14, "sure": [14, 21, 23, 25], "accident": 14, "cours": 14, "fbgemm_gpu_lib_path": 14, "fbgemm_gpu_pi": [14, 15], "defin": [14, 17, 19, 23], "nm": 14, "gdcu": 14, "referenc": 14, "certain": 14, "gdc": 14, "merge_pooled_embed": [14, 15], "isol": [15, 24], "build": [15, 16, 23, 25, 27], "sm80": 15, "respect": 15, "guarante": [15, 19], "especi": 15, "displai": [15, 26], "setup": 15, "smi": 15, "515": 15, "76": 15, "persist": 15, "bu": [15, 26], "disp": 15, "volatil": 15, "uncorr": 15, "ecc": 15, "fan": 15, "temp": 15, "perf": 15, "pwr": 15, "usag": [15, 24, 25], "cap": 15, "util": [15, 27], "mig": 15, "a10g": 15, "00000000": 15, "00": 15, "1e": [15, 19], "31c": 15, "p0": 15, "59w": 15, "300w": 15, "0mib": 15, "23028mib": 15, "gi": 15, "pid": 15, "No": [15, 19], "expos": 15, "imag": 15, "launch": 15, "toolkit": 15, "interfac": 15, "concis": 15, "info": [15, 23, 25], "dieedg": 15, "avgpwr": 15, "sclk": 15, "mclk": 15, "pwrcap": 15, "vram": 15, "33": 15, "0c": 15, "37": 15, "0w": 15, "300mhz": 15, "1200mhz": 15, "auto": [15, 24], "290": 15, "32": 15, "39": 15, "log": [15, 19], "difficult": 15, "relev": [15, 23], "genai": 15, "triton_vers": 15, "45fff310c8": 15, "about": [15, 25], "link": [15, 24], "encount": [15, 19], "signatur": [15, 24], "traceback": 15, "last": 15, "root": [15, 21], "miniconda": 15, "mycondaenv": 15, "site": 15, "_op": [15, 24], "line": [15, 25, 26], "565": 15, "__getattr__": 15, "overload_nam": 15, "_c": 15, "_jit_get_oper": 15, "qualified_op_nam": 15, "runtimeerror": 15, "except": [15, 23, 25], "wa": 15, "string": [15, 19, 26], "post47": 15, "py3": 15, "egg": 15, "__init__": [15, 25], "21": 15, "_fbgemm_gpu_doc": 15, "noqa": 15, "f401": 15, "e402": 15, "18": 15, "569": 15, "rais": [15, 25], "attributeerror": [15, 25], "_opnamespac": 15, "object": [15, 17], "attribut": [15, 25], "cli": 15, "main_run": 15, "47": 15, "_zn6fbgemm48floatorhalftofusednbitrowwisequantizedsbhalfavx2itli2eeevpkt_miph": 15, "libtorch": 15, "visibl": 15, "incorrectli": [15, 24], "declar": [15, 23], "were": 15, "pr": [15, 23, 24, 25], "1618": 15, "former": [15, 19], "resolv": 15, "latter": [15, 19], "seriou": 15, "tha": 15, "develop": [15, 24], "bench": 16, "good": [16, 22], "instal": [16, 24, 27], "pip": [16, 24], "pytest": 16, "rsx": 16, "pytestcollectionwarn": 16, "split_table_batched_embeddings_test": 16, "quantize_ops_test": 16, "sparse_ops_test": 16, "split_embedding_inference_converter_test": 16, "cuda_visible_devic": 16, "cuda_launch_block": 16, "involv": [16, 17], "rpath": 16, "fbgemm_test_with_rocm": 16, "hip_launch_block": 16, "split_table_batched_embeddings_benchmark": 16, "consecut": 17, "nestedtensor": 17, "raggedtensor": 17, "tensorflow": 17, "notabl": 17, "sentenc": 17, "maxlength": 17, "numel": 17, "greatest": 17, "divisor": 17, "smallest": 17, "sub": 17, "exclud": 17, "partit": 17, "impli": [17, 22], "denot": [17, 23, 25], "offest": 17, "outer": 17, "would": 17, "begin": 17, "maximum": [17, 25], "densor": 17, "form": [17, 22], "figur": 17, "below": 17, "show": [17, 24], "accomod": 17, "At": [17, 23, 24, 25], "multipl": [17, 19, 25, 27], "hadamard": 17, "product": [17, 22], "bmatrix": 17, "rightarrow": 17, "25": 17, "36": 17, "49": 17, "81": 17, "50": 17, "operand": 17, "word": 17, "ax": 17, "properti": 17, "elementwis": 17, "start": [17, 25, 26], "dim": 17, "onto": 17, "part": 17, "everi": [17, 19], "converson": 17, "could": 17, "lead": 17, "smaller": 17, "expect": 17, "happen": 17, "give": 17, "situat": 17, "like": 17, "dense_tensor": 17, "jagged_tensor": 17, "break": 17, "exact": 17, "usual": 17, "split_table_batched_embeddings_ops_train": 19, "splittablebatchedembeddingbagscodegen": 19, "embedding_spec": 19, "embeddingloc": 19, "computedevic": 19, "feature_table_map": 19, "cache_algorithm": 19, "cachealgorithm": 19, "cache_load_factor": 19, "cache_reserved_memori": 19, "cache_precis": 19, "weights_precis": 19, "enforce_hbm": 19, "emboptimtyp": 19, "exact_sgd": 19, "record_cache_metr": 19, "recordcachemetr": 19, "gather_uvm_cache_stat": 19, "gradient_clip": 19, "max_gradi": 19, "max_norm": 19, "learning_r": 19, "01": 19, "ep": 19, "08": 19, "momentum": 19, "weight_decai": 19, "weight_decay_mod": 19, "weightdecaymod": 19, "eta": 19, "001": 19, "beta1": 19, "beta2": 19, "999": 19, "step_ema": 19, "10000": 19, "step_swap": 19, "step_start": 19, "step_mod": 19, "stepmod": 19, "use_it": 19, "counter_based_regular": 19, "counterbasedregularizationdefinit": 19, "cowclip_regular": 19, "cowclipdefinit": 19, "poolingmod": 19, "str": 19, "boundscheckmod": 19, "uvm_non_rowwise_momentum": 19, "use_experimental_tb": 19, "prefetch_pipelin": 19, "stats_reporter_config": 19, "tbestatsreporterconfig": 19, "table_nam": 19, "optimizer_state_dtyp": 19, "dict": 19, "multipass_prefetch_config": 19, "multipassprefetchconfig": 19, "global_weight_decai": 19, "globalweightdecaydefinit": 19, "uvm_host_map": 19, "sourc": [19, 21, 22, 23, 24, 25], "spec": 19, "describ": [19, 21], "physic": 19, "placement": 19, "global": 19, "virtual": 19, "managed_cach": 19, "mtia": 19, "least": 19, "frequent": 19, "factor": 19, "capac": 19, "total": 19, "reserv": [19, 22], "optimtyp": 19, "adam": 19, "exact_adagrad": 19, "adagrad": 19, "exact_rowwise_adagrad": 19, "aadagrad": 19, "sgd": 19, "lamb": 19, "lars_sgd": 19, "lar": 19, "partial_rowwise_adam": 19, "partial": 19, "partial_rowwise_lamb": 19, "ensemble_rowwise_adagrad": 19, "ensembl": 19, "Not": 19, "gradient": 19, "record": 19, "hit": 19, "request": [19, 20, 24], "record_cache_miss_count": 19, "metric": 19, "record_tablewise_cache_miss": 19, "collect": [19, 27], "stochast": 19, "round": 19, "clip": 19, "norm": 19, "learn": 19, "0e": 19, "epsilon": 19, "nn": 19, "decai": 19, "decoupl": 19, "pool": [19, 27], "union": 19, "skip": 19, "fatal": 19, "messag": 19, "adjust": 19, "v2": 19, "polici": 19, "forward_stream": 19, "arg": [19, 25], "stat": 19, "multipass": 19, "malloc": 19, "cudahostregist": 19, "cudamallocmanag": 19, "conatin": 19, "multipli": 19, "column": 19, "feature_requires_grad": 19, "split_table_batched_embeddings_ops_common": 19, "init_embedding_weights_uniform": 19, "split_embedding_weight": 19, "9426": 19, "7046": 19, "4214": 19, "0419": 19, "1331": 19, "7856": 19, "8124": 19, "2021": 19, "5771": 19, "5911": 19, "7792": 19, "1068": 19, "6203": 19, "4813": 19, "1677": 19, "4790": 19, "5587": 19, "0941": 19, "5754": 19, "3475": 19, "8952": 19, "1964": 19, "0810": 19, "4174": 19, "2513": 19, "4039": 19, "3775": 19, "3273": 19, "5399": 19, "0229": 19, "1455": 19, "8770": 19, "9520": 19, "4593": 19, "7169": 19, "6307": 19, "1765": 19, "8757": 19, "8614": 19, "2051": 19, "0603": 19, "9980": 19, "7958": 19, "5826": 19, "long": 19, "13": 19, "5197": 19, "2957": 19, "3578": 19, "1487": 19, "4873": 19, "3044": 19, "9801": 19, "2769": 19, "7164": 19, "8528": 19, "7159": 19, "6719": 19, "0784": 19, "2016": 19, "2176": 19, "1988": 19, "3825": 19, "5008": 19, "8991": 19, "1405": 19, "2637": 19, "9427": 19, "8902": 19, "3754": 19, "5013": 19, "6105": 19, "9968": 19, "3057": 19, "7621": 19, "9821": 19, "7314": 19, "6195": 19, "grad_fn": 19, "cppnode": 19, "splitlookupfunction_sgd_op": 19, "batch_size_per_feature_per_rank": 19, "total_unique_indic": 19, "overridden": 19, "although": 19, "recip": 19, "instanc": 19, "afterward": 19, "care": [19, 23], "regist": 19, "hook": 19, "get_optimizer_st": 19, "match": 19, "oss": 19, "todo": 19, "popul": 19, "static": 19, "get_prefetch_pass": 19, "input_tensor": 19, "output_tensor": 19, "segment": 19, "start_idx": 19, "end_idx": 19, "overlappingli": 19, "cover": 19, "get_table_name_for_log": 19, "method": [19, 23, 24, 25], "msg": 19, "distinguish": 19, "prepare_input": 19, "force_cast_input_typ": 19, "vbemetadata": 19, "prepar": 19, "vbe": 19, "bounds_check_indic": 19, "sampl": 19, "forc": [19, 25], "set_learning_r": 19, "lr": 19, "set_optimizer_step": 19, "should_log": 19, "exponenti": 19, "decreas": 19, "frequenc": 19, "100": 19, "200": 19, "000": 19, "split_optimizer_st": 19, "update_hyper_paramet": 19, "params_dict": 19, "hyper": 19, "extern": [19, 26], "question": 20, "concern": 20, "discuss": 20, "kick": 20, "regard": 20, "feel": 20, "free": 20, "reach": 20, "easi": 21, "transpar": 21, "activ": 21, "welcom": [21, 27], "your": [21, 24, 25], "branch": 21, "ve": 21, "add": [21, 23, 24, 25], "chang": [21, 23, 25], "api": [21, 23, 24, 25], "suit": 21, "lint": 21, "haven": 21, "submit": [21, 23, 25], "facebook": [21, 22, 27], "open": 21, "track": 21, "bug": 21, "descript": [21, 23, 24, 25, 26], "abl": 21, "bounti": 21, "safe": 21, "disclosur": 21, "secur": 21, "go": 21, "outlin": 21, "agre": 21, "tree": 21, "claus": 22, "bsd": 22, "softwar": 22, "copyright": 22, "inc": 22, "affili": 22, "right": [22, 26], "redistribut": 22, "modif": 22, "permit": 22, "condit": 22, "met": 22, "retain": 22, "notic": 22, "disclaim": 22, "materi": 22, "contributor": 22, "endors": 22, "promot": 22, "written": 22, "permiss": 22, "BY": 22, "THE": 22, "holder": 22, "AND": 22, "AS": 22, "express": [22, 26], "OR": 22, "warranti": 22, "NOT": 22, "limit": [22, 24], "TO": 22, "OF": 22, "merchant": 22, "FOR": 22, "particular": 22, "IN": 22, "NO": 22, "event": 22, "shall": 22, "BE": 22, "liabl": 22, "indirect": 22, "incident": 22, "special": 22, "exemplari": 22, "consequenti": 22, "damag": 22, "procur": 22, "substitut": 22, "profit": 22, "busi": 22, "interrupt": 22, "theori": 22, "liabil": 22, "contract": 22, "strict": 22, "tort": 22, "neglig": 22, "aris": 22, "IF": 22, "advis": 22, "SUCH": 22, "javadoc": 23, "style": [23, 25], "comment": [23, 24, 26], "sphinx": [23, 24, 25], "breath": 23, "kept": 23, "cpp": [23, 25, 26], "cu": 23, "cuh": 23, "everyth": 23, "ifndef": 23, "doxygen_this_will_be_skip": 23, "endif": 23, "hidden": 23, "html": [23, 24, 25], "descriptionss": 23, "publish": [23, 25], "docstr": [23, 24, 25], "organ": 23, "yet": 23, "top": [23, 27], "defgroup": 23, "directli": [23, 25], "behavior": [23, 25], "tparam": 23, "thrown": [23, 25], "ingroup": 23, "brief": 23, "short": 23, "example_method": [23, 25], "def": [23, 25], "foo": [23, 25], "lst": [23, 25], "And": [23, 25], "verbatim": [23, 25], "text": [23, 25, 26], "diagram": [23, 25], "unpars": 23, "second": [23, 25], "prev": [23, 25], "usabl": [23, 25], "space": [23, 24, 25], "endcod": 23, "align": [23, 25], "param1": [23, 25], "param2": 23, "bad_alloc": 23, "logic_error": 23, "href": 23, "www": [23, 25], "nl": 23, "cmdlink": 23, "On": [23, 25], "doxygengroup": 23, "rst": [23, 25, 26], "content": [23, 26, 27], "toctre": [23, 25], "ini": 23, "taken": 23, "doc": [23, 24, 25, 26], "local": [23, 25], "netlifi": [23, 24, 25], "preview": [23, 25], "serv": 24, "yourself": 24, "shoe": 24, "who": 24, "understand": 24, "live": 24, "easier": 24, "leav": 24, "task": 24, "tool": 24, "graphviz": [24, 26], "assembl": 24, "view": 24, "prepend": 24, "sphinx_lint": 24, "technic": 24, "why": 24, "occasion": 24, "unresolv": 24, "might": 24, "opt": 24, "pycapsul": 24, "neg": 24, "silenc": 24, "nitpick": 24, "conf": 24, "domain": 24, "deploi": 24, "app": 24, "googl": 25, "c_size_t": 25, "ret": 25, "emplace_back": 25, "valueerror": 25, "14": 25, "restructuredtext": 25, "en": 25, "master": 25, "__": 25, "pep": 25, "0287": 25, "42": 25, "autofunct": 25, "c_ulong": 25, "mani": 25, "attach": 25, "fact": 25, "helper": 25, "codebas": 25, "add_doc": 25, "jag": [25, 27], "hoc": 25, "the_new_doc_modul": 25, "remain": 25, "render": [25, 26], "anchor": 26, "_doc": 26, "underscor": 26, "_": 26, "There": 26, "elsewher": 26, "ref": 26, "literalinclud": 26, "rel": 26, "enclos": 26, "bracket": 26, "skiplin": 26, "suppli": 26, "math": 26, "k_": 26, "k_n": 26, "expressino": 26, "int_a": 26, "frac": 26, "2v": 26, "dx": 26, "left": 26, "dv": 26, "_a": 26, "du": 26, "digraph": 26, "altern": 26, "dot": 26, "examplegraph": 26, "low": 27, "precis": 27, "high": 27, "convolut": 27, "server": 27, "infer": 27, "transform": 27, "contribut": 27, "contact": 27, "licens": 27, "autovector": 27, "ssd": 27}, "objects": {"": [[13, 0, 1, "_CPPv4N16RocksdbWriteMode29BWD_L1_CNFLCT_MISS_WRITE_BACKE", "BWD_L1_CNFLCT_MISS_WRITE_BACK"], [1, 1, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec"], [1, 2, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::IndexType"], [1, 2, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::OffsetType"], [1, 2, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::OutType"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::block_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::data_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::exponent_bias"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::exponent_bits"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::index_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::indices"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::input"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::input_stride"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::is_bf16_out"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::is_weight_positional"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::normalize_by_lengths"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::offsets_or_lengths"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::out"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::output_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::output_stride"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::use_offsets"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::weights"], [1, 1, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::InType"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::IndexType"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::OffsetType"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::OutType"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::block_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::data_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::index_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::indices"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::input"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::input_stride"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::is_bf16_in"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::is_bf16_out"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::is_weight_positional"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::no_bag"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::normalize_by_lengths"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::offsets_or_lengths"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::out"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::output_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::output_stride"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::scale_bias_last"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::use_offsets"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::weights"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode5FLUSHE", "FLUSH"], [10, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ebits"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::exponent_bias"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::input"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ncols"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::nrows"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::output"], [10, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu"], [10, 3, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::forward"], [10, 3, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::input"], [10, 3, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::output_dtype"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode15FWD_L1_EVICTIONE", "FWD_L1_EVICTION"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode16FWD_ROCKSDB_READE", "FWD_ROCKSDB_READ"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::len"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::m"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::max"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::min"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf"], [0, 2, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::InputType"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::bit_rate"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_columns"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_rows"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::output"], [10, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ebits"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::exponent_bias"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::input"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::max_pos"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ncols"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::nrows"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::output"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize"], [0, 2, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::T"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::dst"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::len"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::noise_ratio"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::num_threads"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::qparams"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::src"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::thread_id"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::C"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::G"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::K"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::LAYOUT"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::T"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::X"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::dst"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::scales"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::src"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::zero_points"], [13, 4, 1, "_CPPv416RocksdbWriteMode", "RocksdbWriteMode"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode29BWD_L1_CNFLCT_MISS_WRITE_BACKE", "RocksdbWriteMode::BWD_L1_CNFLCT_MISS_WRITE_BACK"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode5FLUSHE", "RocksdbWriteMode::FLUSH"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode15FWD_L1_EVICTIONE", "RocksdbWriteMode::FWD_L1_EVICTION"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode16FWD_ROCKSDB_READE", "RocksdbWriteMode::FWD_ROCKSDB_READ"], [0, 1, 1, "_CPPv46Xor128v", "Xor128"], [10, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu"], [10, 3, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::forward"], [10, 3, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::input"], [10, 3, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::output_dtype"], [10, 1, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu"], [10, 3, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu::input"], [10, 1, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu"], [10, 3, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::forward"], [10, 3, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::input"], [10, 1, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu"], [10, 3, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu::input"], [10, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out"], [10, 3, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::input"], [10, 3, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::output"], [10, 1, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu"], [10, 3, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu::input"], [10, 1, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu"], [10, 3, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::bit_rate"], [10, 3, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::input"], [10, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::ebits"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::exponent_bias"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::input"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::max_pos"], [10, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bias"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bounding_box_size"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::ebits"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::input"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::max_pos"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::mbits"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::min_pos"], [10, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu"], [10, 3, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::forward"], [10, 3, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::input"], [10, 3, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::row_dim"], [10, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out"], [10, 3, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::input"], [10, 3, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::output"], [10, 1, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu"], [10, 3, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu::input"], [10, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu"], [10, 3, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::D_offsets"], [10, 3, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::input"], [10, 3, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::output_dtype"], [10, 1, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu"], [10, 3, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu::input"], [10, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::input"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::output_dtype"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::quant_padding_float_type"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::scale_bias_last"], [10, 1, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu"], [10, 3, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::bit_rate"], [10, 3, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::input"], [10, 1, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu"], [10, 3, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::bit_rate"], [10, 3, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::input"], [10, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu"], [10, 3, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::bit_rate"], [10, 3, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::input"], [10, 3, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::output_dtype"], [10, 1, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu"], [10, 3, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu::input"], [10, 1, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu"], [10, 3, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::bit_rate"], [10, 3, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::input"], [10, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu"], [10, 3, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::ebits"], [10, 3, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::exponent_bias"], [10, 3, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::input"], [10, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::bias"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::ebits"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::input"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::mbits"], [10, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::forward"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::input"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_dtype"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_last_dim"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::row_dim"], [10, 1, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu"], [10, 3, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu::input"], [10, 1, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu"], [10, 3, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::bit_rate"], [10, 3, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::input"], [9, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device"], [9, 3, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::inputTensors"], [9, 3, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::target_device"], [6, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul"], [6, 3, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_offsets"], [6, 3, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_values"], [6, 3, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::v"], [3, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::B_ofsets"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::bounds_check_mode"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::indices"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::max_B"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::offsets"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::rows_per_table"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::warning"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::weights"], [13, 1, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::compact_count"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::compact_indices"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::count"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::indices"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::masks"], [13, 1, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func"], [13, 3, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func::functor"], [13, 3, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func::status"], [13, 3, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func::stream"], [6, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged"], [6, 3, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged::dense"], [6, 3, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged::offsets"], [6, 3, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged::total_L"], [12, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::D_offsets"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::hash_size_cumsum"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lru_state"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_miss_timestamp"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::row_alignment"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::time_stamp"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::uvm_cache_stats"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_offsets"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_tys"], [12, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::invalid_index"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::uvm_cache_stats"], [23, 1, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method"], [23, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::Alignment"], [23, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::T"], [23, 3, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param1"], [23, 3, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param2"], [11, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::input_offsets"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_offsets"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_size"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::permute"], [10, 1, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu"], [10, 3, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu::input"], [10, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu"], [10, 3, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::forward"], [10, 3, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::input"], [10, 1, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu"], [10, 3, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu::input"], [10, 1, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu"], [10, 3, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu::input"], [10, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::input"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::output_dtype"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::quant_padding_float_type"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::scale_bias_last"], [10, 1, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu"], [10, 3, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu::input"], [10, 1, 1, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_sbfront_to_float_cpu"], [10, 3, 1, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_sbfront_to_float_cpu::bit_rate"], [10, 3, 1, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_sbfront_to_float_cpu::input"], [10, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu"], [10, 3, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::bit_rate"], [10, 3, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::input"], [10, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu"], [10, 3, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::bit_rate"], [10, 3, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::input"], [10, 3, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::output_dtype"], [10, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu"], [10, 3, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::bit_rate"], [10, 3, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::input"], [11, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_boundaries"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_in_use_after"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_weight_value"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_examples"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_positives"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::logit"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::num_segments"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::positive_weight"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_lengths"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_value"], [12, 1, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda"], [12, 3, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda::compute_count"], [12, 3, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda::linear_indices"], [12, 3, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda::max_indices"], [12, 1, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::compute_count"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::compute_inverse_indices"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::linear_indices"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::max_indices"], [4, 1, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::XQ"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::cache_K"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::cache_V"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::cache_logical_dtype_int"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::kv_cache_quant_num_groups"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::num_split_ks"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::qk_scale"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::seq_positions"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::use_tensor_cores"], [10, 1, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu"], [10, 3, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu::input"], [13, 1, 1, "_CPPv410hash_shard7int64_t6size_t", "hash_shard"], [13, 3, 1, "_CPPv410hash_shard7int64_t6size_t", "hash_shard::id"], [13, 3, 1, "_CPPv410hash_shard7int64_t6size_t", "hash_shard::num_shards"], [11, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_in_use_after"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_weight_value"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_examples"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_positives"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::logit"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::lower_bound"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::positive_weight"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::upper_bound"], [12, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot"], [12, 3, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::C"], [12, 3, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::h_in"], [3, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::D_offsets"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::dev_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bias"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bits"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indice_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indices"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_locations"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float16_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float32_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float8_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int2_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int4_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int8_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::offsets"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::output_dtype"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::pooling_mode"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::row_alignment"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::total_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::uvm_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_offsets"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_placements"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_tys"], [3, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::D_offsets"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::dev_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bias"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bits"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indice_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indices"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_locations"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float16_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float32_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float8_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int2_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int4_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int8_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::offsets"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::output_dtype"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::pooling_mode"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::row_alignment"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::total_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::uvm_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_offsets"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_placements"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_tys"], [3, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::D_offsets"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_hash_size_cumsum"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_index_table_map"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::dev_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bias"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bits"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indice_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indices"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_locations"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_state"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_state"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float16_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float32_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float8_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int2_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int4_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int8_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::offsets"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::output_dtype"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::pooling_mode"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::row_alignment"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_cache_hash_size"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::uvm_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_offsets"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_placements"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_tys"], [3, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::D_offsets"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_hash_size_cumsum"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_index_table_map"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::dev_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bias"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bits"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indice_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indices"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_locations"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_state"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_state"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float16_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float32_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float8_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int2_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int4_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int8_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::offsets"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::output_dtype"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::pooling_mode"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::row_alignment"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_cache_hash_size"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::uvm_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_offsets"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_placements"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_tys"], [8, 1, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor"], [8, 3, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor::self"], [6, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::max_L"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::offsets"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::padding_value"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::values"], [6, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense"], [6, 3, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::max_sequence_length"], [6, 3, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::offsets"], [6, 3, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::values"], [6, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_offsets"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_values"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::y"], [6, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output"], [6, 3, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_offsets"], [6, 3, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_values"], [6, 3, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::y"], [6, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda"], [6, 3, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_offsets"], [6, 3, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_values"], [6, 3, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::y"], [6, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_offsets"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_values"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::y"], [6, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::max_lengths"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::offsets"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::padding_value"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::values"], [6, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::max_lengths"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::offsets"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::padding_value"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::values"], [13, 5, 1, "_CPPv4N5kv_db12CacheContextE", "kv_db::CacheContext"], [13, 5, 1, "_CPPv4N5kv_db13EmbeddingKVDBE", "kv_db::EmbeddingKVDB"], [13, 5, 1, "_CPPv4N5kv_db9QueueItemE", "kv_db::QueueItem"], [13, 5, 1, "_CPPv4N8l2_cache13CacheLibCacheE", "l2_cache::CacheLibCache"], [12, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::D_offsets"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lfu_state"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::row_alignment"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_offsets"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_tys"], [12, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::D_offsets"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lfu_state"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::stochastic_rounding"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights_offsets"], [12, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::B_offsets"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::indices"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::indices_base_offset"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::max_B"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::offsets"], [12, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda"], [12, 3, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_row_indices"], [12, 3, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_table_indices"], [12, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::compute_inverse_indices"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lock_cache_line"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lru_state"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lxu_cache_locking_counter"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::max_indices"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::time_stamp"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::unique_indices"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::unique_indices_length"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::uvm_cache_stats"], [12, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::D_offsets"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::hash_size_cumsum"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lru_state"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::row_alignment"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::time_stamp"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::uvm_cache_stats"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_offsets"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_tys"], [12, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::D_offsets"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::hash_size_cumsum"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lock_cache_line"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lru_state"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_locking_counter"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::stochastic_rounding"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::time_stamp"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::uvm_cache_stats"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights_offsets"], [12, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::D_offsets"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::stochastic_rounding"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::total_D"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::uvm_weights"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::weights_offsets"], [12, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda"], [12, 3, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations"], [12, 3, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations_new"], [12, 3, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::num_uniq_cache_indices"], [12, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda"], [12, 3, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locations"], [12, 3, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locking_counter"], [12, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::invalid_index"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_locations_output"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::num_uniq_cache_indices"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::uvm_cache_stats"], [13, 1, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::count"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::indices"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::preferred_sms"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::self"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::use_pipeline"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::values"], [13, 1, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::count"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::indices"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::preferred_sms"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::self"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::use_pipeline"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::values"], [8, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor"], [8, 3, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::self"], [8, 3, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::sizes"], [8, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor"], [8, 3, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::self"], [8, 3, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::sizes"], [8, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta"], [8, 3, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::self"], [8, 3, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::sizes"], [8, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor"], [8, 3, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::is_host_mapped"], [8, 3, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::self"], [8, 3, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::sizes"], [8, 1, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta"], [8, 3, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta::is_host_mapped"], [8, 3, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta::self"], [8, 3, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta::sizes"], [8, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor"], [8, 3, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::self"], [8, 3, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::sizes"], [5, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::batch_size"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::include_last_offsets"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::indices_list"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::offsets_list"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::per_sample_weights"], [9, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::pooled_embs"], [9, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::pooled_embs"], [9, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::pooled_embs"], [9, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::pooled_embs"], [9, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::pooled_embs"], [9, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::allow_duplicates"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_offset_dim_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_permute_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::offset_dim_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::permute_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::pooled_embs"], [9, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::pooled_embs"], [9, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::pooled_embs"], [3, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings_offsets"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::indices"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::offsets"], [3, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings_offsets"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::indices"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::offsets"], [3, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::dense_indices"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table_offsets"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::indices"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::offsets"], [3, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table_offsets"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::indices"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::offsets"], [3, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table_offsets"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::indices"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::offsets"], [13, 5, 1, "_CPPv4N2ps24EmbeddingParameterServerE", "ps::EmbeddingParameterServer"], [7, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda"], [7, 3, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::grad_output"], [7, 3, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::num_features_per_rank"], [7, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda"], [7, 3, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::cumsum_dim_sum_per_rank"], [7, 3, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::dim_sum_per_rank"], [7, 3, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::grad_output"], [7, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu"], [7, 3, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::dim_sum_per_rank"], [7, 3, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::grad_output"], [7, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda"], [7, 3, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::dim_sum_per_rank"], [7, 3, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::grad_output"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::DIRECT"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::Q_GRAN"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::block"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::inp"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_in"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::r"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::C_PER_G"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::Q_GRAN"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::block"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::inp"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_in"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::r"], [12, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::D_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::buffer_ids"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::dev_weights"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::logical_table_ids"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_dev"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_placements"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_uvm"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::uvm_weights"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_placements"], [13, 5, 1, "_CPPv4N3ssd16EmbeddingRocksDBE", "ssd::EmbeddingRocksDB"], [13, 1, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::assigned_cache_slots"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::cache_set_inverse_indices"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::cache_set_sorted_unique_indices"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::inserted_ssd_weights"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::linear_index_inverse_indices"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::lxu_cache_locations"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::lxu_cache_weights"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::unique_indices_count_cumsum"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::unique_indices_length"], [13, 1, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::cache_set_inverse_indices_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::inserted_ssd_weights_curr_next_map"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::inserted_ssd_weights_next"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::linear_index_inverse_indices_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::lxu_cache_locations_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::lxu_cache_weights"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::ssd_row_addrs_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::unique_indices_count_cumsum_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::unique_indices_length_curr"], [5, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::include_last_offsets"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::indices_list"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::offsets_list"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::per_sample_weights"], [8, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise"], [8, 3, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::cuda_memory_advise"], [8, 3, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::self"], [8, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE", "uvm_cuda_mem_prefetch_async"], [8, 3, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::device_t"], [8, 3, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::self"], [8, 1, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork"], [8, 3, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork::self"], [8, 1, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage"], [8, 3, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage::self"], [8, 1, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu"], [8, 3, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu::self"], [8, 1, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone"], [8, 3, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone::self"], [8, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device"], [8, 3, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::prototype"], [8, 3, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::self"]], "fbgemm_gpu.docs.examples": [[25, 6, 1, "", "example_method"]], "fbgemm_gpu.split_table_batched_embeddings_ops_training": [[19, 7, 1, "", "SplitTableBatchedEmbeddingBagsCodegen"]], "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen": [[19, 8, 1, "", "forward"], [19, 8, 1, "", "get_optimizer_state"], [19, 8, 1, "", "get_prefetch_passes"], [19, 8, 1, "", "get_table_name_for_logging"], [19, 8, 1, "", "log"], [19, 8, 1, "", "prepare_inputs"], [19, 8, 1, "", "set_learning_rate"], [19, 8, 1, "", "set_optimizer_step"], [19, 8, 1, "", "should_log"], [19, 8, 1, "", "split_embedding_weights"], [19, 8, 1, "", "split_optimizer_states"], [19, 8, 1, "", "update_hyper_parameters"]]}, "objtypes": {"0": "cpp:enumerator", "1": "cpp:function", "2": "cpp:templateParam", "3": "cpp:functionParam", "4": "cpp:enum", "5": "cpp:class", "6": "py:function", "7": "py:class", "8": "py:method"}, "objnames": {"0": ["cpp", "enumerator", "C++ enumerator"], "1": ["cpp", "function", "C++ function"], "2": ["cpp", "templateParam", "C++ template parameter"], "3": ["cpp", "functionParam", "C++ function parameter"], "4": ["cpp", "enum", "C++ enum"], "5": ["cpp", "class", "C++ class"], "6": ["py", "function", "Python function"], "7": ["py", "class", "Python class"], "8": ["py", "method", "Python method"]}, "titleterms": {"quantiz": [0, 10], "util": 0, "refer": [0, 26], "implement": [0, 1], "method": [0, 1], "avx": 0, "2": 0, "512": 0, "tbe": [1, 19], "cpu": [1, 3, 6, 7, 10, 11, 14, 15], "autovector": 1, "fp8": 1, "16": 1, "32": 1, "autovec": 1, "build": [2, 14, 24], "instruct": [2, 14, 15, 16], "fbgemm": [2, 27], "requir": 2, "hardwar": 2, "softwar": 2, "depend": 2, "asmjit": 2, "cpuinfo": 2, "googletest": 2, "set": [2, 14, 15, 24], "up": [2, 14, 15, 24], "an": [2, 14], "isol": [2, 14], "environ": [2, 14, 15, 16, 24], "instal": [2, 14, 15], "tool": [2, 14], "c": [2, 14, 23, 27], "compil": [2, 14], "other": [2, 14, 26], "librari": [2, 15], "prepar": [2, 14], "linux": 2, "maco": 2, "cmake": 2, "gcc": [2, 14], "issu": [2, 21], "12": 2, "clang": [2, 14], "bazel": 2, "window": 2, "embed": [3, 9, 12, 13, 19], "oper": [3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 17, 18, 19], "cuda": [3, 6, 7, 8, 10, 11, 13, 14, 15, 16], "experiment": 4, "attent": 4, "combin": [5, 17], "input": 5, "jag": [6, 17, 18], "tensor": [6, 17, 18], "layout": 7, "transform": 7, "memori": 8, "pool": 9, "merg": 9, "permut": 9, "spars": 11, "data": 11, "tabl": [12, 19], "batch": [12, 19], "ssd": 13, "miniconda": 14, "conda": [14, 15], "onli": [14, 15], "genai": 14, "docker": [14, 15], "imag": 14, "cudnn": 14, "cutlass": 14, "rocm": [14, 15, 16], "miopen": 14, "symlink": 14, "pytorch": [14, 15], "through": [14, 15], "pip": [14, 15], "post": [14, 15], "check": [14, 15], "triton": [14, 15], "pre": 14, "setup": [14, 16], "The": 14, "process": 14, "wheel": 14, "variabl": 14, "For": 14, "develop": [14, 27], "undefin": [14, 15], "symbol": [14, 15], "glibc": 14, "version": 14, "compat": 14, "nvidia": 15, "driver": 15, "contain": 15, "runtim": 15, "amdgpu": 15, "python": [15, 25, 27], "fbgemm_gpu": [15, 16, 24, 27], "packag": 15, "public": 15, "pypi": 15, "test": 16, "run": 16, "variant": 16, "benchmark": 16, "high": 17, "level": 17, "overview": [17, 27], "format": 17, "valu": 17, "offset": 17, "max": 17, "length": 17, "exampl": 17, "arithmet": 17, "convers": 17, "dens": 17, "contact": 20, "u": 20, "github": 20, "slack": 20, "contribut": 21, "code": [21, 23, 25, 26], "conduct": 21, "pull": 21, "request": 21, "contributor": 21, "licens": [21, 22], "agreement": 21, "cla": 21, "ad": [23, 25, 26], "document": [23, 24, 25, 26, 27], "gener": [24, 25, 27], "guidelin": 24, "specif": 24, "guid": 24, "toolchain": 24, "lint": 24, "deploy": 24, "preview": 24, "todo": 25, "auto": 25, "sphinx": 26, "pointer": 26, "section": 26, "referenc": 26, "sourc": 26, "latex": 26, "graph": 26, "homepag": 27, "info": 27, "api": 27}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.intersphinx": 1, "sphinx.ext.todo": 2, "sphinx.ext.viewcode": 1, "sphinx": 57}, "alltitles": {"Installation Instructions": [[15, "installation-instructions"]], "Set Up CPU-Only Environment": [[15, "set-up-cpu-only-environment"]], "Set Up CUDA Environment": [[15, "set-up-cuda-environment"]], "Install NVIDIA Drivers": [[15, "install-nvidia-drivers"]], "Set Up the CUDA Docker Container and Conda Environment": [[15, "set-up-the-cuda-docker-container-and-conda-environment"]], "Install the CUDA Runtime": [[15, "install-the-cuda-runtime"]], "Set Up ROCm Environment": [[15, "set-up-rocm-environment"]], "Install AMDGPU Drivers": [[15, "install-amdgpu-drivers"]], "Set Up the ROCm Docker Container and Conda Environment": [[15, "set-up-the-rocm-docker-container-and-conda-environment"]], "Install Python Libraries": [[15, "install-python-libraries"]], "Install PyTorch": [[15, "install-pytorch"], [14, "install-pytorch"]], "Install Triton": [[15, "install-triton"]], "Install the FBGEMM_GPU Package": [[15, "install-the-fbgemm-gpu-package"]], "Install through PyTorch PIP": [[15, "install-through-pytorch-pip"]], "Install through Public PyPI": [[15, "install-through-public-pypi"]], "Post-Installation Checks": [[15, "post-installation-checks"]], "Undefined Symbols": [[15, "undefined-symbols"]], "Jagged Tensor Operators": [[17, "jagged-tensor-operators"], [6, "jagged-tensor-operators"], [18, "jagged-tensor-operators"]], "High Level Overview": [[17, "high-level-overview"]], "Jagged Tensor Format": [[17, "jagged-tensor-format"]], "Values": [[17, "values"]], "Offsets": [[17, "offsets"]], "Max Lengths": [[17, "max-lengths"]], "Jagged Tensor Example": [[17, "jagged-tensor-example"]], "Jagged Tensor Operations": [[17, "jagged-tensor-operations"]], "Arithmetic Operations": [[17, "arithmetic-operations"]], "Conversion Operations": [[17, "conversion-operations"]], "Jagged to Dense": [[17, "jagged-to-dense"]], "Dense to Jagged": [[17, "dense-to-jagged"]], "Combined Arithmetic + Conversion Operations": [[17, "combined-arithmetic-conversion-operations"]], "Test Instructions": [[16, "test-instructions"]], "Setup the FBGEMM_GPU Test Environment": [[16, "setup-the-fbgemm-gpu-test-environment"]], "Running FBGEMM_GPU Tests": [[16, "running-fbgemm-gpu-tests"]], "Testing with the CUDA Variant": [[16, "testing-with-the-cuda-variant"]], "Testing with the ROCm Variant": [[16, "testing-with-the-rocm-variant"]], "Running FBGEMM_GPU Benchmarks": [[16, "running-fbgemm-gpu-benchmarks"]], "FBGEMM and FBGEMM_GPU Documentation Homepage": [[27, "fbgemm-and-fbgemm-gpu-documentation-homepage"]], "General Info": [[27, null]], "FBGEMM Development": [[27, null]], "FBGEMM_GPU Development": [[27, null]], "FBGEMM_GPU Overview": [[27, null]], "FBGEMM C++ API": [[27, null]], "FBGEMM_GPU C++ API": [[27, null]], "FBGEMM_GPU Python API": [[27, null]], "Contact Us": [[20, "contact-us"]], "GitHub": [[20, "github"]], "Slack": [[20, "slack"]], "Table Batched Embedding (TBE) Operators": [[19, "table-batched-embedding-tbe-operators"]], "Adding Documentation to Python Code": [[25, "adding-documentation-to-python-code"]], "Todo": [[25, "id1"]], "Adding Documentation to Auto-Generated Python Code": [[25, "adding-documentation-to-auto-generated-python-code"]], "Sphinx Documentation Pointers": [[26, "sphinx-documentation-pointers"]], "References Other Sections of the Documentation": [[26, "references-other-sections-of-the-documentation"]], "Referencing the Source Code": [[26, "referencing-the-source-code"]], "Adding LaTeX": [[26, "adding-latex"]], "Adding Graphs": [[26, "adding-graphs"]], "Documentation": [[24, "documentation"]], "General Documentation Guidelines": [[24, "general-documentation-guidelines"]], "Specific Documentation Guides": [[24, "specific-documentation-guides"]], "Building the Documentation": [[24, "building-the-documentation"]], "Set Up Build Environment": [[24, "set-up-build-environment"]], "Build FBGEMM_GPU": [[24, "build-fbgemm-gpu"]], "Set Up the Documentation Toolchain": [[24, "set-up-the-documentation-toolchain"]], "Build the Documentation": [[24, "build-the-documentation"]], "Linting the Documentation": [[24, "linting-the-documentation"]], "Deployment Preview": [[24, "deployment-preview"]], "Sparse Data Operators": [[11, "sparse-data-operators"]], "CUDA Operators": [[11, "cuda-operators"], [10, "cuda-operators"], [3, "cuda-operators"], [6, "cuda-operators"], [7, "cuda-operators"], [13, "cuda-operators"]], "CPU Operators": [[11, "cpu-operators"], [10, "cpu-operators"], [3, "cpu-operators"], [6, "cpu-operators"], [7, "cpu-operators"]], "Quantization Operators": [[10, "quantization-operators"]], "Pooled Embeddings Operators": [[9, "pooled-embeddings-operators"]], "Merge Operators": [[9, "merge-operators"]], "Permutation Operators": [[9, "permutation-operators"]], "Combine Input Operators": [[5, "combine-input-operators"]], "Embedding Operators": [[3, "embedding-operators"]], "Experimental Operators": [[4, "experimental-operators"]], "Attention Operators": [[4, "attention-operators"]], "TBE CPU Autovectorization": [[1, "tbe-cpu-autovectorization"]], "FP8/16/32 Autovec Implementation Methods": [[1, "fp8-16-32-autovec-implementation-methods"]], "Build Instructions": [[2, "build-instructions"], [14, "build-instructions"]], "FBGEMM Requirements": [[2, "fbgemm-requirements"]], "Hardware Requirements": [[2, "hardware-requirements"]], "Software Dependencies": [[2, "software-dependencies"]], "asmjit": [[2, "asmjit"]], "cpuinfo": [[2, "cpuinfo"]], "GoogleTest": [[2, "googletest"]], "Set Up an Isolated Build Environment": [[2, "set-up-an-isolated-build-environment"], [14, "set-up-an-isolated-build-environment"]], "Install the Build Tools": [[2, "install-the-build-tools"], [14, "install-the-build-tools"]], "C/C++ Compiler": [[2, "c-c-compiler"]], "Other Build Tools": [[2, "other-build-tools"], [14, "other-build-tools"]], "Build the FBGEMM Library": [[2, "build-the-fbgemm-library"]], "Preparing the Build": [[2, "preparing-the-build"], [14, "preparing-the-build"]], "Building on Linux and macOS (CMake + GCC)": [[2, "building-on-linux-and-macos-cmake-gcc"]], "Build Issues with GCC 12+": [[2, "build-issues-with-gcc-12"]], "Building on Linux and macOS (CMake + Clang)": [[2, "building-on-linux-and-macos-cmake-clang"]], "Building on Linux (Bazel)": [[2, "building-on-linux-bazel"]], "Building on Windows": [[2, "building-on-windows"]], "Quantization Utilities": [[0, "quantization-utilities"]], "Reference Implementation Methods": [[0, "reference-implementation-methods"]], "AVX-2 Implementation Methods": [[0, "avx-2-implementation-methods"]], "AVX-512 Implementation Methods": [[0, "avx-512-implementation-methods"]], "Adding Documentation to C++ Code": [[23, "adding-documentation-to-c-code"]], "License": [[22, "license"], [21, "license"]], "Contributing": [[21, "contributing"]], "Code of Conduct": [[21, "code-of-conduct"]], "Pull Requests": [[21, "pull-requests"]], "Contributor License Agreement (\u201cCLA\u201d)": [[21, "contributor-license-agreement-cla"]], "Issues": [[21, "issues"]], "CUDA Memory Operators": [[8, "cuda-memory-operators"]], "Layout Transformation Operators": [[7, "layout-transformation-operators"]], "Table Batched Embedding Operators": [[12, "table-batched-embedding-operators"]], "SSD Embedding Operators": [[13, "ssd-embedding-operators"]], "Install Miniconda": [[14, "install-miniconda"]], "Set Up the Conda Environment": [[14, "set-up-the-conda-environment"]], "Set Up for CPU-Only Build": [[14, "set-up-for-cpu-only-build"]], "Set Up for CUDA / GenAI-Only Build": [[14, "set-up-for-cuda-genai-only-build"]], "CUDA Docker Image": [[14, "cuda-docker-image"]], "Install CUDA": [[14, "install-cuda"]], "Install cuDNN": [[14, "install-cudnn"]], "Install CUTLASS": [[14, "install-cutlass"]], "Set Up for ROCm Build": [[14, "set-up-for-rocm-build"]], "ROCm Docker Image": [[14, "rocm-docker-image"]], "Install ROCm": [[14, "install-rocm"]], "Install MIOpen": [[14, "install-miopen"]], "C/C++ Compiler (GCC)": [[14, "c-c-compiler-gcc"]], "C/C++ Compiler (Clang)": [[14, "c-c-compiler-clang"]], "Compiler Symlinks": [[14, "compiler-symlinks"]], "Installation Through Conda": [[14, "installation-through-conda"]], "Installation Through PyTorch PIP": [[14, "installation-through-pytorch-pip"]], "Post-Install Checks": [[14, "post-install-checks"]], "Install PyTorch-Triton": [[14, "install-pytorch-triton"]], "Other Pre-Build Setup": [[14, "other-pre-build-setup"]], "The Build Process": [[14, "the-build-process"]], "Set Wheel Build Variables": [[14, "set-wheel-build-variables"]], "CPU-Only Build": [[14, "cpu-only-build"]], "CUDA Build": [[14, "cuda-build"]], "GenAI-Only Build": [[14, "genai-only-build"]], "ROCm Build": [[14, "rocm-build"]], "Post-Build Checks (For Developers)": [[14, "post-build-checks-for-developers"]], "Undefined Symbols Check": [[14, "undefined-symbols-check"]], "GLIBC Version Compatibility Check": [[14, "glibc-version-compatibility-check"]]}, "indexentries": {"findminmax (c++ function)": [[0, "_CPPv410FindMinMaxPKfPfPf7int64_t"]], "floatorhalftofusednbitrowwisequantizedsbhalf (c++ function)": [[0, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE"]], "fusedquantizedequantize (c++ function)": [[0, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif"]], "quantizegroupwise (c++ function)": [[0, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T"]], "xor128 (c++ function)": [[0, "_CPPv46Xor128v"]], "requantizeoutputprocessingavx2 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "requantizeoutputprocessinggconvavx512 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "embeddingspmdmfp8_autovec (c++ function)": [[1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib"]], "embeddingspmdm_autovec (c++ function)": [[1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb"]], "bounds_check_indices_cuda (c++ function)": [[3, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t"]], "int_nbit_split_embedding_codegen_lookup_function (c++ function)": [[3, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE"]], "int_nbit_split_embedding_codegen_lookup_function_cpu (c++ function)": [[3, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function (c++ function)": [[3, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu (c++ function)": [[3, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE"]], "pruned_array_lookup_cpu (c++ function)": [[3, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"]], "pruned_array_lookup_cuda (c++ function)": [[3, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_insert_unweighted_cpu (c++ function)": [[3, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_cuda (c++ function)": [[3, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_unweighted_cpu (c++ function)": [[3, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"]], "gqa_attn_splitk (c++ function)": [[4, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t"]], "padding_fused_tbe_input_combine_cpu (c++ function)": [[5, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"]], "tbe_input_combine_cpu (c++ function)": [[5, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"]], "batched_dense_vec_jagged_2d_mul (c++ function)": [[6, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"]], "dense_to_jagged (c++ function)": [[6, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE"]], "jagged_1d_to_dense (c++ function)": [[6, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"]], "jagged_2d_to_dense (c++ function)": [[6, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"]], "jagged_dense_elementwise_add (c++ function)": [[6, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output (c++ function)": [[6, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output_cuda (c++ function)": [[6, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_mul (c++ function)": [[6, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_to_padded_dense (c++ function)": [[6, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"]], "jagged_to_padded_dense_forward (c++ function)": [[6, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"]], "recat_embedding_grad_output_cuda (c++ function)": [[7, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_batch_cuda (c++ function)": [[7, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"]], "recat_embedding_grad_output_mixed_d_cpu (c++ function)": [[7, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_cuda (c++ function)": [[7, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"]], "is_uvm_tensor (c++ function)": [[8, "_CPPv413is_uvm_tensorRK6Tensor"]], "new_host_mapped_tensor (c++ function)": [[8, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor (c++ function)": [[8, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor_meta (c++ function)": [[8, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_unified_tensor (c++ function)": [[8, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb"]], "new_unified_tensor_meta (c++ function)": [[8, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb"]], "new_vanilla_managed_tensor (c++ function)": [[8, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "uvm_cuda_mem_advise (c++ function)": [[8, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t"]], "uvm_cuda_mem_prefetch_async (c++ function)": [[8, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE"]], "uvm_mem_advice_dont_fork (c++ function)": [[8, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor"]], "uvm_storage (c++ function)": [[8, "_CPPv411uvm_storageRK6Tensor"]], "uvm_to_cpu (c++ function)": [[8, "_CPPv410uvm_to_cpuRK6Tensor"]], "uvm_to_cpu_clone (c++ function)": [[8, "_CPPv416uvm_to_cpu_cloneRK6Tensor"]], "uvm_to_device (c++ function)": [[8, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor"]], "all_to_one_device (c++ function)": [[9, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"]], "permute_pooled_embs_auto_grad (c++ function)": [[9, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_cpu (c++ function)": [[9, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_gpu (c++ function)": [[9, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_split_cpu (c++ function)": [[9, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_auto_grad_split_gpu (c++ function)": [[9, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_cpu_impl (c++ function)": [[9, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb"]], "permute_pooled_embs_split_cpu (c++ function)": [[9, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_split_gpu (c++ function)": [[9, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "fp8quantizedtofloat_ref (c++ function)": [[10, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"]], "fp8rowwise_to_float_cpu (c++ function)": [[10, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"]], "floattofp8quantized_ref (c++ function)": [[10, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"]], "_fp8rowwise_to_float_gpu (c++ function)": [[10, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t"]], "_bfloat16_to_float_gpu (c++ function)": [[10, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE"]], "_float_to_fp8rowwise_gpu (c++ function)": [[10, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb"]], "_float_to_bfloat16_gpu (c++ function)": [[10, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE"]], "_float_to_fused8bitrowwise_cpu_out (c++ function)": [[10, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"]], "_float_to_fused8bitrowwise_gpu (c++ function)": [[10, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor"]], "_float_to_fusednbitrowwise_gpu (c++ function)": [[10, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "_float_to_hfp8_gpu (c++ function)": [[10, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd"]], "_float_to_msfp_gpu (c++ function)": [[10, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd"]], "_float_to_paddedfp8rowwise_gpu (c++ function)": [[10, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t"]], "_fused8bitrowwise_to_float_cpu_out (c++ function)": [[10, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"]], "_fused8bitrowwise_to_float_gpu (c++ function)": [[10, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_float_mixed_dim_gpu (c++ function)": [[10, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t"]], "_fused8bitrowwise_to_half_gpu (c++ function)": [[10, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_single_or_half_precision_gpu (c++ function)": [[10, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb"]], "_fusednbitrowwise_to_float_gpu (c++ function)": [[10, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_half_gpu (c++ function)": [[10, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_single_or_half_precision_gpu (c++ function)": [[10, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_half_to_fused8bitrowwise_gpu (c++ function)": [[10, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor"]], "_half_to_fusednbitrowwise_gpu (c++ function)": [[10, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t"]], "_hfp8_to_float_gpu (c++ function)": [[10, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_msfp_to_float_gpu (c++ function)": [[10, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t"]], "_paddedfp8rowwise_to_float_gpu (c++ function)": [[10, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t"]], "_single_or_half_precision_to_fused8bitrowwise_gpu (c++ function)": [[10, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor"]], "_single_or_half_precision_to_fusednbitrowwise_gpu (c++ function)": [[10, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "float_or_half_to_fused8bitrowwise_cpu (c++ function)": [[10, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor"]], "float_to_fp8rowwise_cpu (c++ function)": [[10, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"]], "float_to_fused8bitrowwise_cpu (c++ function)": [[10, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor"]], "fused8bitrowwise_to_float_cpu (c++ function)": [[10, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor"]], "fused8bitrowwise_to_float_or_half_cpu (c++ function)": [[10, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb"]], "fused8bitrowwise_to_half_cpu (c++ function)": [[10, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor"]], "fusednbitrowwise_sbfront_to_float_cpu (c++ function)": [[10, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t"]], "fusednbitrowwise_to_float_cpu (c++ function)": [[10, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"]], "fusednbitrowwise_to_float_or_half_cpu (c++ function)": [[10, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"]], "fusednbitrowwise_to_half_cpu (c++ function)": [[10, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"]], "half_to_fused8bitrowwise_cpu (c++ function)": [[10, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor"]], "expand_into_jagged_permute_cuda (c++ function)": [[11, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"]], "generic_histogram_binning_calibration_by_feature_cpu (c++ function)": [[11, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"]], "histogram_binning_calibration_cpu (c++ function)": [[11, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"]], "direct_mapped_lru_cache_populate_byte_cuda (c++ function)": [[12, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE"]], "direct_mapped_lxu_cache_lookup_cuda (c++ function)": [[12, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE"]], "get_unique_indices_cuda (c++ function)": [[12, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb"]], "get_unique_indices_with_inverse_cuda (c++ function)": [[12, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb"]], "host_lxu_cache_slot (c++ function)": [[12, "_CPPv419host_lxu_cache_slot7int64_t7int64_t"]], "lfu_cache_populate_byte_cuda (c++ function)": [[12, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "lfu_cache_populate_cuda (c++ function)": [[12, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"]], "linearize_cache_indices_cuda (c++ function)": [[12, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t"]], "linearize_cache_indices_from_row_idx_cuda (c++ function)": [[12, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"]], "lru_cache_find_uncached_cuda (c++ function)": [[12, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb"]], "lru_cache_populate_byte_cuda (c++ function)": [[12, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE"]], "lru_cache_populate_cuda (c++ function)": [[12, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE"]], "lxu_cache_flush_cuda (c++ function)": [[12, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"]], "lxu_cache_locations_update_cuda (c++ function)": [[12, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE"]], "lxu_cache_locking_counter_decrement_cuda (c++ function)": [[12, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"]], "lxu_cache_lookup_cuda (c++ function)": [[12, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE"]], "reset_weight_momentum_cuda (c++ function)": [[12, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "rocksdbwritemode (c++ enum)": [[13, "_CPPv416RocksdbWriteMode"]], "rocksdbwritemode::bwd_l1_cnflct_miss_write_back (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode29BWD_L1_CNFLCT_MISS_WRITE_BACKE"]], "rocksdbwritemode::flush (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode5FLUSHE"]], "rocksdbwritemode::fwd_l1_eviction (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode15FWD_L1_EVICTIONE"]], "rocksdbwritemode::fwd_rocksdb_read (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode16FWD_ROCKSDB_READE"]], "compact_indices_cuda (c++ function)": [[13, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor"]], "cuda_callback_func (c++ function)": [[13, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv"]], "hash_shard (c++ function)": [[13, "_CPPv410hash_shard7int64_t6size_t"]], "kv_db::cachecontext (c++ class)": [[13, "_CPPv4N5kv_db12CacheContextE"]], "kv_db::embeddingkvdb (c++ class)": [[13, "_CPPv4N5kv_db13EmbeddingKVDBE"]], "kv_db::queueitem (c++ struct)": [[13, "_CPPv4N5kv_db9QueueItemE"]], "l2_cache::cachelibcache (c++ class)": [[13, "_CPPv4N8l2_cache13CacheLibCacheE"]], "masked_index_put_cuda (c++ function)": [[13, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t"]], "masked_index_select_cuda (c++ function)": [[13, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t"]], "ps::embeddingparameterserver (c++ class)": [[13, "_CPPv4N2ps24EmbeddingParameterServerE"]], "ssd::embeddingrocksdb (c++ class)": [[13, "_CPPv4N3ssd16EmbeddingRocksDBE"]], "ssd_generate_row_addrs_cuda (c++ function)": [[13, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "ssd_update_row_addrs_cuda (c++ function)": [[13, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "splittablebatchedembeddingbagscodegen (class in fbgemm_gpu.split_table_batched_embeddings_ops_training)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen"]], "forward() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward"]], "get_optimizer_state() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_optimizer_state"]], "get_prefetch_passes() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen static method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_prefetch_passes"]], "get_table_name_for_logging() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen static method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.get_table_name_for_logging"]], "log() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.log"]], "prepare_inputs() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.prepare_inputs"]], "set_learning_rate() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate"]], "set_optimizer_step() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step"]], "should_log() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.should_log"]], "split_embedding_weights() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights"]], "split_optimizer_states() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states"]], "update_hyper_parameters() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[19, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.update_hyper_parameters"]], "example_method (c++ function)": [[23, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf"]], "example_method() (in module fbgemm_gpu.docs.examples)": [[25, "fbgemm_gpu.docs.examples.example_method"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["fbgemm-cpp-api/QuantUtils", "fbgemm-cpp-api/tbe_cpu_autovec", "fbgemm-development/BuildInstructions", "fbgemm_gpu-cpp-api/embedding_ops", "fbgemm_gpu-cpp-api/experimental_ops", "fbgemm_gpu-cpp-api/input_combine", "fbgemm_gpu-cpp-api/jagged_tensor_ops", "fbgemm_gpu-cpp-api/layout_transform_ops", "fbgemm_gpu-cpp-api/memory_utils", "fbgemm_gpu-cpp-api/merge_pooled_embeddings", "fbgemm_gpu-cpp-api/quantize_ops", "fbgemm_gpu-cpp-api/sparse_ops", "fbgemm_gpu-cpp-api/split_table_batched_embeddings", "fbgemm_gpu-cpp-api/ssd_embedding_ops", "fbgemm_gpu-development/BuildInstructions", "fbgemm_gpu-development/InstallationInstructions", "fbgemm_gpu-development/TestInstructions", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps", "fbgemm_gpu-python-api/jagged_tensor_ops", "fbgemm_gpu-python-api/pooled_embedding_ops", "fbgemm_gpu-python-api/table_batched_embedding_ops", "general/ContactUs", "general/Contributing", "general/License", "general/documentation/Cpp", "general/documentation/Overview", "general/documentation/Python", "general/documentation/Sphinx", "index"], "filenames": ["fbgemm-cpp-api/QuantUtils.rst", "fbgemm-cpp-api/tbe_cpu_autovec.rst", "fbgemm-development/BuildInstructions.rst", "fbgemm_gpu-cpp-api/embedding_ops.rst", "fbgemm_gpu-cpp-api/experimental_ops.rst", "fbgemm_gpu-cpp-api/input_combine.rst", "fbgemm_gpu-cpp-api/jagged_tensor_ops.rst", "fbgemm_gpu-cpp-api/layout_transform_ops.rst", "fbgemm_gpu-cpp-api/memory_utils.rst", "fbgemm_gpu-cpp-api/merge_pooled_embeddings.rst", "fbgemm_gpu-cpp-api/quantize_ops.rst", "fbgemm_gpu-cpp-api/sparse_ops.rst", "fbgemm_gpu-cpp-api/split_table_batched_embeddings.rst", "fbgemm_gpu-cpp-api/ssd_embedding_ops.rst", "fbgemm_gpu-development/BuildInstructions.rst", "fbgemm_gpu-development/InstallationInstructions.rst", "fbgemm_gpu-development/TestInstructions.rst", "fbgemm_gpu-overview/jagged-tensor-ops/JaggedTensorOps.rst", "fbgemm_gpu-python-api/jagged_tensor_ops.rst", "fbgemm_gpu-python-api/pooled_embedding_ops.rst", "fbgemm_gpu-python-api/table_batched_embedding_ops.rst", "general/ContactUs.rst", "general/Contributing.rst", "general/License.rst", "general/documentation/Cpp.rst", "general/documentation/Overview.rst", "general/documentation/Python.rst", "general/documentation/Sphinx.rst", "index.rst"], "titles": ["Quantization Utilities", "TBE CPU Autovectorization", "Build Instructions", "Embedding Operators", "Experimental Operators", "Combine Input Operators", "Jagged Tensor Operators", "Layout Transformation Operators", "CUDA Memory Operators", "Pooled Embeddings Operators", "Quantization Operators", "Sparse Data Operators", "Table Batched Embedding Operators", "SSD Embedding Operators", "Build Instructions", "Installation Instructions", "Test Instructions", "Jagged Tensor Operators", "Jagged Tensor Operators", "Pooled Embedding Operators", "Table Batched Embedding (TBE) Training Module", "Contact Us", "Contributing", "License", "Adding Documentation to C++ Code", "Documentation", "Adding Documentation to Python Code", "Sphinx Documentation Pointers", "FBGEMM and FBGEMM_GPU Documentation Homepage"], "terms": {"templat": [0, 1, 14, 24], "typenam": [0, 1, 24], "t": [0, 2, 4, 8, 11, 14, 20, 22, 24, 25], "layout_t": 0, "layout": [0, 28], "kcx": 0, "void": [0, 3, 8, 10, 12, 13], "quantizegroupwis": 0, "const": [0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 26], "float": [0, 1, 10, 18, 20, 24, 26], "src": 0, "int": [0, 1, 10, 18, 19, 20, 24, 26], "k": [0, 4], "c": [0, 12, 15, 17, 23, 25, 26, 27], "x": [0, 6, 13, 17, 24, 26], "g": [0, 2, 11, 13, 14, 24, 26], "scale": [0, 1, 4, 10], "std": [0, 1, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 24, 26], "int32_t": [0, 1, 24, 26], "zero_point": 0, "dst": 0, "point": [0, 10, 18, 24, 26], "data": [0, 1, 4, 8, 13, 17, 20, 23, 28], "type": [0, 1, 2, 4, 10, 15, 17, 18, 20, 24], "paramet": [0, 1, 4, 8, 10, 11, 13, 18, 19, 20, 24, 25, 26], "output": [0, 1, 4, 6, 10, 11, 13, 18, 19, 20, 24, 26], "int8_t": 0, "uint8_t": [0, 1, 10, 12], "ar": [0, 2, 6, 12, 13, 14, 15, 17, 18, 19, 20, 23, 24, 25, 26], "support": [0, 2, 4, 13, 14, 15, 17, 20, 26, 28], "input": [0, 1, 4, 6, 8, 10, 11, 13, 17, 18, 20, 24, 28], "tensor": [0, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 19, 20, 25, 26, 28], "kxc": 0, "correspond": [0, 11, 12, 13, 17, 20, 24, 26], "kcr": 0, "kctr": 0, "weight": [0, 1, 3, 11, 12, 13, 20], "time": [0, 2, 14, 15, 17], "dimens": [0, 4, 6, 8, 11, 17, 18, 19, 20, 26], "krsc": 0, "ktrsc": 0, "channel": [0, 14, 15, 21], "number": [0, 1, 2, 4, 10, 11, 13, 14, 17, 18, 20, 25], "r": [0, 16, 20, 25], "": [0, 2, 8, 14, 16, 17, 22, 24, 25, 26], "group": [0, 4, 17, 24], "function": [0, 2, 13, 14, 20, 24, 26], "perform": [0, 2, 10, 11, 13, 17, 20, 28], "channelwis": 0, "1": [0, 1, 2, 4, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 26, 27], "groupwis": 0, "per": [0, 17, 20], "size": [0, 2, 4, 8, 10, 11, 17, 18, 19, 20], "should": [0, 10, 11, 12, 14, 15, 17, 22, 24, 25, 26], "equal": [0, 17, 20, 26], "zero": [0, 18, 20, 26], "reprsent": 0, "fusedquantizedequant": 0, "int64_t": [0, 1, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13], "len": [0, 17, 20], "tensorquantizationparam": 0, "qparam": 0, "thread_id": 0, "0": [0, 2, 4, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, 26], "num_thread": 0, "noise_ratio": 0, "0f": 0, "fuse": [0, 10, 20], "integ": [0, 8, 10, 17, 20], "dequant": [0, 10], "kernel": [0, 2, 8, 10, 13, 16, 28], "acceler": 0, "awar": 0, "train": [0, 13, 28], "fp32": [0, 1, 10, 20], "valu": [0, 6, 8, 10, 11, 12, 13, 18, 20, 24, 25, 26], "u": [0, 14, 27, 28], "int8": 0, "us": [0, 1, 2, 4, 8, 11, 13, 14, 15, 16, 17, 20, 21, 22, 23, 24, 25, 26, 27, 28], "provid": [0, 2, 13, 14, 15, 16, 23, 24, 25, 26, 28], "back": [0, 8, 12, 14, 15], "inputtyp": 0, "floatorhalftofusednbitrowwisequantizedsbhalf": 0, "bit_rat": [0, 10], "size_t": [0, 10, 13, 24], "input_row": 0, "input_column": 0, "convert": [0, 8, 10, 13, 17, 18, 26], "fp16": [0, 10, 20], "rowwis": [0, 10, 20], "bitrat": 0, "specifi": [0, 2, 4, 10, 11, 13, 14, 18, 20], "bit": [0, 1, 10], "bia": [0, 1, 4, 10], "each": [0, 1, 4, 10, 11, 13, 14, 17, 18, 19, 20, 26], "row": [0, 1, 6, 10, 12, 13, 17, 18, 20, 26], "store": [0, 10, 11, 12, 13], "itself": [0, 17, 25], "end": [0, 1, 15, 17, 27], "can": [0, 1, 2, 10, 11, 13, 14, 15, 17, 20, 24, 25, 26, 27], "4": [0, 10, 14, 15, 17, 18, 20, 26], "8": [0, 10, 14, 17, 20], "uint32_t": 0, "xor128": 0, "random": 0, "gener": [0, 2, 11, 13, 14, 15, 20, 24, 27], "9": [0, 13, 14, 17, 20], "base": [0, 2, 11, 12, 13, 14, 17, 20], "thi": [0, 2, 6, 8, 9, 10, 11, 13, 14, 15, 17, 20, 21, 22, 23, 24, 26, 27, 28], "paper": 0, "findminmax": 0, "m": [0, 14, 15, 16], "min": 0, "max": [0, 4, 20], "find": [0, 12, 14], "matrix": [0, 2, 18, 28], "bool": [0, 1, 4, 8, 9, 10, 12, 13, 20], "a_symmetr": 0, "b_symmetr": 0, "quantizationgranular": 0, "q_gran": 0, "has_bia": 0, "fuse_relu": 0, "bias_typ": 0, "direct": [0, 12, 15, 23, 24, 26, 27], "fals": [0, 1, 8, 13, 20, 25], "requantizeoutputprocessingavx2": 0, "out": [0, 1, 14, 21, 23, 25], "inp": 0, "block_type_t": 0, "block": [0, 1, 24, 26, 27], "ld_out": 0, "ld_in": 0, "requantizationparams_t": 0, "requant": 0, "avx2": [0, 2], "i": [0, 1, 2, 4, 6, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 24, 25, 26, 27, 28], "c_per_g": 0, "requantizeoutputprocessinggconvavx512": 0, "avx512": 0, "intyp": 1, "indextyp": 1, "offsettyp": 1, "outtyp": 1, "embeddingspmdm_autovec": 1, "block_siz": 1, "output_s": [1, 11], "index_s": 1, "data_s": 1, "indic": [1, 3, 12, 13, 17, 20], "offsets_or_length": 1, "normalize_by_length": 1, "is_weight_posit": 1, "use_offset": 1, "true": [1, 8, 13, 20], "output_strid": 1, "input_strid": 1, "scale_bias_last": [1, 10], "no_bag": 1, "is_bf16_out": 1, "is_bf16_in": 1, "version": [1, 2, 15], "embeddingspmdm_ref": 1, "index": [1, 11, 12, 13, 14, 15, 17, 20, 24, 26], "offset": [1, 3, 6, 11, 12, 18, 20], "element": [1, 10, 12, 13, 17, 20], "address": [1, 2, 13, 14], "sum": [1, 4, 11, 13, 18, 20], "option": [1, 2, 3, 6, 8, 12, 14, 18, 20], "null": 1, "non": [1, 4, 8, 20], "whether": [1, 4, 8, 13, 14, 23], "normal": [1, 17], "length": [1, 4, 6, 11, 13, 18, 20, 26], "If": [1, 2, 13, 14, 15, 20, 22, 24, 25, 26], "posit": [1, 4, 11, 13], "set": [1, 8, 12, 13, 16, 17, 18, 20], "instead": [1, 14, 25], "same": [1, 2, 4, 8, 11, 14, 17, 18, 19, 20, 24, 25, 26], "appear": [1, 15], "embed": [1, 2, 14, 15, 25, 28], "bag": [1, 11, 20, 28], "bfloat16": [1, 10], "embeddingspmdmfp8_autovec": 1, "exponent_bit": 1, "exponent_bia": [1, 10], "expon": 1, "note": [2, 12, 14, 15, 20, 24, 25, 26, 27], "The": [2, 4, 8, 10, 11, 13, 15, 16, 17, 18, 19, 20, 22, 24, 25, 26, 27], "most": [2, 14, 15, 17, 25], "date": [2, 14, 15, 25], "script": [2, 14, 15, 25], "bundl": [2, 14, 15, 25], "repo": [2, 14, 15, 25, 26], "under": [2, 14, 15, 22, 23, 25, 26], "setup_env": [2, 14, 15, 25], "bash": [2, 14, 15, 25], "step": [2, 13, 14, 15, 17, 20, 25, 26], "fbgemm_gpu": [2, 8, 14, 17, 20, 21, 22, 23, 24, 26], "follow": [2, 11, 14, 15, 17, 20, 23, 24, 25, 26], "toolchain": [2, 14, 15], "run": [2, 14, 15, 25], "cpu": [2, 8, 9, 16, 20, 25, 28], "higher": 2, "In": [2, 11, 13, 14, 15, 17, 22, 24, 26], "doe": [2, 3, 15, 24, 25, 26], "have": [2, 10, 11, 12, 14, 17, 20, 25], "ani": [2, 11, 14, 18, 22, 23, 25, 26], "intel": 2, "mkl": 2, "howev": [2, 14, 17, 23], "comparison": 2, "some": [2, 14, 17, 25], "benchmark": 2, "found": [2, 14, 15, 25], "path": [2, 13, 14, 16, 24, 27], "through": [2, 22, 24, 26], "intel_mkl_dir": 2, "variabl": [2, 20], "built": [2, 14, 15, 25, 28], "report": [2, 15, 20], "otherwis": [2, 8, 13, 15, 20, 23], "subset": 2, "all": [2, 11, 12, 13, 14, 15, 17, 19, 20, 23, 25], "three": [2, 17], "git": [2, 14], "submodul": [2, 14], "custom": [2, 27], "desir": [2, 14, 17, 18, 24], "thei": [2, 14, 25, 27], "asmjit_src_dir": 2, "cpuinfo_src_dir": 2, "googletest_source_dir": 2, "With": 2, "inner": [2, 17], "take": [2, 14], "one": [2, 4, 10, 11, 12, 14, 18, 20, 24, 26], "doesn": 2, "fit": [2, 23], "approach": 2, "so": [2, 11, 14, 15, 16, 17], "implement": [2, 4, 10, 13, 14, 17, 20], "dynam": 2, "effici": [2, 28], "shape": [2, 4, 17, 20], "specif": [2, 11, 13, 14, 20, 23], "vector": [2, 5, 6, 7, 8, 9, 13, 18, 26], "code": [2, 13, 14, 23, 25], "third": 2, "parti": 2, "call": [2, 8, 13, 15], "detect": [2, 16], "runtim": [2, 14], "pytorch": [2, 13, 17, 21, 25, 26, 28], "project": [2, 22], "dispatch": [2, 8], "optim": [2, 10, 13, 20], "test": [2, 10, 14, 15, 22, 28], "you": [2, 22, 24, 26], "don": [2, 11, 14, 25], "want": [2, 22], "togeth": [2, 24, 25], "default": [2, 11, 14, 15, 20], "turn": [2, 25], "off": [2, 15, 21], "simpli": [2, 14], "fbgemm_build_test": 2, "conda": [2, 16, 25], "For": [2, 16, 17, 21, 23, 24, 25, 26, 27], "platform": [2, 14, 23], "machin": [2, 14, 15, 16, 28], "microsoft": [2, 10], "visual": 2, "studio": 2, "2019": 2, "newer": [2, 14], "recommend": [2, 6, 10, 14, 15, 17], "here": [2, 8, 14, 15, 22, 24, 25, 26, 27], "necessari": [2, 14, 20], "ninja": [2, 14], "etc": [2, 14, 20], "n": [2, 10, 14, 15, 27], "env_nam": [2, 14, 15], "y": [2, 6, 14, 15, 18, 25], "doxygen": [2, 24, 25], "make": [2, 12, 14, 22, 24, 25, 26], "openbla": 2, "packag": [2, 14, 16, 25], "onli": [2, 4, 10, 11, 12, 13, 16, 17, 20, 22, 24, 25, 27], "clone": [2, 14], "along": [2, 14, 15], "its": [2, 8, 10, 11, 14, 23, 25, 27], "insid": [2, 13, 14, 15, 16, 25, 27], "recurs": [2, 14], "http": [2, 14, 15, 22, 24, 25, 26], "github": [2, 14, 22], "com": [2, 14, 22], "cd": [2, 14, 16, 25], "assum": [2, 11, 20], "process": [2, 6, 13, 15, 17, 22, 26], "straightforward": 2, "creat": [2, 8, 14, 17, 22, 24, 26, 27], "directori": [2, 14, 16, 22, 24, 25], "mkdir": 2, "argument": [2, 11, 24, 25, 26], "build_arg": 2, "duse_sanit": 2, "dfbgemm_library_typ": 2, "share": [2, 8], "dpython_execut": 2, "which": [2, 11, 13, 14, 15, 17, 25], "python3": [2, 15], "document": [2, 8, 22, 23], "dfbgemm_build_doc": 2, "ON": [2, 23], "j": [2, 17], "verbos": 2, "As": [2, 11, 14, 15, 17], "write": [2, 13, 14, 15, 25, 26], "fail": [2, 15, 16, 24], "due": [2, 14], "known": [2, 14, 20], "regress": 2, "To": [2, 13, 14, 16, 27], "work": [2, 14, 15, 17, 22], "around": 2, "append": [2, 14, 24, 26], "export": [2, 14, 16], "prior": [2, 14, 15, 23], "cflag": 2, "wno": 2, "error": [2, 10, 15, 20, 24, 25, 26], "mayb": 2, "uniniti": 2, "restrict": 2, "cxxflag": 2, "pleas": [2, 22, 24, 26], "see": [2, 8, 14, 15, 17, 24, 26, 27], "77939": 2, "1094": 2, "1666": 2, "more": [2, 8, 14, 20, 24, 26, 27], "detail": [2, 13, 15], "exactli": 2, "extra": 2, "need": [2, 13, 14, 15, 16, 17, 22, 24, 26, 27], "ad": [2, 14, 22, 25], "invoc": [2, 14, 25], "llvm": [2, 14], "standard": [2, 14], "libc": [2, 14], "openmp": [2, 14], "libomp": 2, "locat": [2, 8, 12, 13, 14, 17], "cc_path": 2, "cxx_path": 2, "dcmake_c_compil": 2, "dcmake_cxx_compil": 2, "dcmake_c_flag": [2, 14], "fopenmp": 2, "stdlib": [2, 14], "conda_prefix": [2, 14], "includ": [2, 9, 13, 14, 23, 24, 26], "dcmake_cxx_flag": [2, 14], "likewis": 2, "also": [2, 13, 14, 20, 27], "veri": [2, 14, 24, 25, 26], "target": [2, 8, 10, 11, 14, 17, 19, 24, 25, 26, 27], "architectur": [2, 14, 15], "bc": [2, 14], "x64": 2, "program": [2, 22], "file": [2, 14, 15, 21, 22, 24, 25, 26, 27], "x86": [2, 28], "enterpris": 2, "vc": 2, "auxiliari": 2, "vcvarsal": 2, "bat": 2, "build_dir": 2, "dfbgemm_build_benchmark": 2, "dcmake_build_typ": 2, "releas": [2, 15], "cl": 2, "ex": 2, "v": [2, 4, 6, 16, 18], "int_nbit_split_embedding_codegen_lookup_funct": 3, "dev_weight": [3, 12], "uvm_weight": [3, 12], "weights_plac": [3, 12], "weights_offset": [3, 12], "weights_ti": [3, 12], "d_offset": [3, 10, 12], "total_d": [3, 12, 20], "max_int2_d": 3, "max_int4_d": 3, "max_int8_d": 3, "max_float16_d": 3, "max_float32_d": 3, "pooling_mod": [3, 20], "indice_weight": 3, "output_dtyp": [3, 10, 20], "lxu_cache_weight": [3, 12, 13], "lxu_cache_loc": [3, 12, 13], "row_align": [3, 12], "max_float8_d": 3, "fp8_exponent_bit": 3, "fp8_exponent_bia": 3, "int_nbit_split_embedding_uvm_caching_codegen_lookup_funct": 3, "cache_hash_size_cumsum": [3, 12], "total_cache_hash_s": [3, 12], "cache_index_table_map": [3, 12], "lxu_cache_st": [3, 12], "lxu_stat": 3, "simlar": 3, "uvm_cach": 3, "lookup": [3, 12, 13, 20], "pruned_hashmap_lookup_cuda": 3, "hash_tabl": 3, "hash_table_offset": 3, "pruned_array_lookup_cuda": 3, "index_remap": 3, "index_remappings_offset": 3, "bounds_check_indices_cuda": 3, "rows_per_t": 3, "bounds_check_mod": [3, 20], "warn": [3, 20, 24], "b_ofset": 3, "max_b": [3, 12], "int_nbit_split_embedding_codegen_lookup_function_cpu": 3, "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu": 3, "pruned_hashmap_insert_unweighted_cpu": 3, "dense_indic": 3, "pruned_hashmap_lookup_unweighted_cpu": 3, "pruned_array_lookup_cpu": 3, "tupl": [4, 5, 6, 11, 12, 13, 20], "gqa_attn_splitk": 4, "xq": 4, "cache_k": 4, "cache_v": 4, "seq_posit": 4, "doubl": [4, 6, 10, 11], "qk_scale": 4, "num_split_k": 4, "kv_cache_quant_num_group": 4, "use_tensor_cor": 4, "cache_logical_dtype_int": 4, "decod": 4, "queri": 4, "split": [4, 20], "w": [4, 16], "bf16": [4, 10], "int4": [4, 10], "kv": 4, "cuda": [4, 9, 20, 28], "gqa": 4, "cach": [4, 12, 13, 14, 20], "It": [4, 13, 14, 15, 17], "current": [4, 13, 14, 15, 17, 20], "context": 4, "16384": 4, "fix": [4, 11, 20], "head": 4, "128": 4, "an": [4, 8, 11, 13, 15, 16, 17, 20, 24, 25, 26, 27], "arbitrari": [4, 13], "b": [4, 11, 14, 17, 18, 20, 24, 25, 26, 27], "h_q": 4, "d": [4, 17, 18, 27], "where": [4, 6, 8, 11, 13, 17, 18, 20], "batch": [4, 6, 11, 17, 18, 28], "num": 4, "max_t": 4, "h_kv": 4, "sequenc": [4, 20], "contain": [4, 8, 13, 14, 17, 18, 20, 26], "actual": [4, 14], "token": [4, 17], "appli": [4, 11, 14, 17, 20], "after": [4, 11, 13, 14, 15, 16, 17, 25, 26, 27], "qk": 4, "control": [4, 20], "amount": [4, 20], "parallel": [4, 13], "wise": [4, 17, 20], "fp8": [4, 10], "quantiz": [4, 28], "singl": [4, 8, 10, 13], "now": 4, "core": 4, "wmma": 4, "instruct": [4, 22, 24, 25, 26, 28], "fast": 4, "kv_cach": 4, "2": [4, 10, 13, 14, 15, 16, 17, 18, 19, 20, 24, 26, 27], "return": [4, 8, 10, 11, 13, 18, 19, 20, 24, 25, 26], "A": [4, 8, 10, 13, 14, 15, 17, 18, 19, 20, 23, 24, 25, 26], "combin": [4, 28], "metadata": [4, 13, 20], "softmax": 4, "tbe_input_combine_cpu": 5, "indices_list": 5, "offsets_list": 5, "per_sample_weight": [5, 20], "include_last_offset": 5, "padding_fused_tbe_input_combine_cpu": 5, "batch_siz": 5, "solv": 6, "issu": [6, 8, 14, 15, 21], "when": [6, 11, 13, 14, 16, 17, 20, 24, 25, 27], "differ": [6, 11, 13, 17, 19, 20], "often": 6, "occur": [6, 13, 24], "spars": [6, 17, 20, 28], "featur": [6, 11, 14, 17, 20, 21], "system": [6, 14, 15, 17], "well": [6, 11, 14, 24], "natur": [6, 17], "languag": [6, 17, 27], "jagged_to_padded_dense_forward": 6, "c10": [6, 10], "symintarrayref": 6, "max_length": [6, 18], "padding_valu": [6, 18], "jagged_dense_elementwise_add_jagged_output_cuda": 6, "x_valu": [6, 18], "x_offset": [6, 18, 26], "dens": [6, 18, 26], "jagged_to_padded_dens": [6, 18], "jagged_dense_elementwise_add": [6, 18], "jagged_dense_elementwise_mul": [6, 18], "batched_dense_vec_jagged_2d_mul": [6, 18], "a_valu": [6, 18], "a_offset": [6, 18], "dense_to_jag": [6, 18], "symint": 6, "total_l": [6, 18], "jagged_dense_elementwise_add_jagged_output": [6, 18], "jagged_1d_to_dens": [6, 18], "max_l": 6, "jagged_2d_to_dens": [6, 14, 15, 18, 25, 26], "max_sequence_length": [6, 18, 26], "recat_embedding_grad_output_cuda": 7, "grad_output": 7, "num_features_per_rank": 7, "recat_embedding_grad_output_mixed_d_cuda": 7, "dim_sum_per_rank": 7, "recat_embedding_grad_output_mixed_d_batch_cuda": 7, "cumsum_dim_sum_per_rank": 7, "recat_embedding_grad_output_mixed_d_cpu": 7, "new_managed_tensor": 8, "self": [8, 13], "alloc": [8, 20, 24], "unifi": [8, 20], "manag": [8, 14, 15, 20], "uvm": [8, 16, 20], "Then": 8, "prefer": [8, 13, 15], "storag": [8, 10, 12, 13], "host": [8, 14, 19, 20], "establish": 8, "map": [8, 11, 12, 13, 17, 20], "devic": [8, 9, 14, 19, 20], "new": [8, 10, 12, 24, 25, 26], "new_managed_tensor_meta": 8, "placehold": 8, "meta": [8, 23], "kei": [8, 13, 20], "empti": [8, 17, 18, 27], "new_host_mapped_tensor": 8, "new_unified_tensor": 8, "is_host_map": 8, "either": [8, 10, 11, 13, 14, 15], "depend": [8, 10, 14, 15, 17], "new_unified_tensor_meta": 8, "new_vanilla_managed_tensor": 8, "allow": [8, 14], "automat": [8, 11, 16, 25], "uvm_storag": 8, "check": [8, 20], "gpu": [8, 13, 14, 15, 16, 20, 28], "is_uvm_tensor": 8, "BUT": [8, 23], "uvm_to_cpu": 8, "effect": [8, 17], "move": [8, 13], "from": [8, 10, 11, 12, 13, 14, 15, 16, 17, 19, 20, 22, 23, 24, 25, 26, 27], "uvm_to_devic": 8, "prototyp": 8, "whose": 8, "uvm_cuda_mem_advis": 8, "cuda_memory_advis": 8, "cudamemadvis": 8, "cudamemoryadvis": 8, "enum": [8, 10, 13], "avail": [8, 14, 15, 16, 20, 25], "python": [8, 13, 14, 16, 24, 25, 27], "side": [8, 13, 14, 24, 26, 28], "namespac": 8, "over": [8, 14], "valid": 8, "inform": [8, 15, 17, 20, 26, 27], "uvm_cuda_mem_prefetch_async": 8, "device_t": 8, "cudamemprefetchasync": 8, "prefetch": [8, 13, 20], "destin": 8, "uvm_mem_advice_dont_fork": 8, "madvis": 8, "madv_dontfork": 8, "workaround": 8, "driver": [8, 14], "un": 8, "page": [8, 22, 27, 28], "tabl": [8, 11, 17, 28], "fork": [8, 22], "caus": [8, 14, 15, 23, 25], "slowdown": 8, "next": [8, 13, 17, 24, 26], "access": [8, 13, 20], "uvm_to_cpu_clon": 8, "copi": 8, "contigu": [8, 11], "thread": [8, 13], "memcpi": 8, "section": [9, 14, 15, 26], "variou": 9, "all_to_one_devic": 9, "inputtensor": 9, "target_devic": [9, 19], "permute_pooled_embs_split_gpu": 9, "pooled_emb": 9, "offset_dim_list": 9, "permute_list": 9, "inv_offset_dim_list": 9, "inv_permute_list": 9, "permute_pooled_embs_auto_grad_split_gpu": 9, "permute_pooled_embs_auto_grad_gpu": 9, "permute_pooled_embs_cpu_impl": 9, "allow_dupl": 9, "permute_pooled_embs_split_cpu": 9, "permute_pooled_embs_auto_grad_split_cpu": 9, "permute_pooled_embs_auto_grad": 9, "permute_pooled_embs_auto_grad_cpu": 9, "model": [10, 11], "techniqu": 10, "reduc": [10, 13], "larg": [10, 14], "order": [10, 17, 20, 22], "achiev": [10, 15], "better": [10, 13, 24], "small": 10, "loss": [10, 23], "accuraci": 10, "_float_to_bfloat16_gpu": 10, "brain": 10, "_bfloat16_to_float_gpu": 10, "_float_to_fp8rowwise_gpu": 10, "forward": [10, 20], "dtype": [10, 20], "sparsetyp": [10, 20], "throw": [10, 20, 24], "_fp8rowwise_to_float_gpu": 10, "represent": [10, 17], "_float_to_fused8bitrowwise_gpu": 10, "_half_to_fused8bitrowwise_gpu": 10, "half": 10, "_single_or_half_precision_to_fused8bitrowwise_gpu": 10, "_fused8bitrowwise_to_float_gpu": 10, "_fused8bitrowwise_to_half_gpu": 10, "_fused8bitrowwise_to_single_or_half_precision_gpu": 10, "quant_padding_float_typ": 10, "_fused8bitrowwise_to_float_mixed_dim_gpu": 10, "kfloat": 10, "khalf": 10, "_float_to_fusednbitrowwise_gpu": 10, "_half_to_fusednbitrowwise_gpu": 10, "_single_or_half_precision_to_fusednbitrowwise_gpu": 10, "_fusednbitrowwise_to_float_gpu": 10, "_fusednbitrowwise_to_half_gpu": 10, "_fusednbitrowwise_to_single_or_half_precision_gpu": 10, "_float_to_hfp8_gpu": 10, "ebit": 10, "max_po": 10, "hybrid": 10, "hfp8": 10, "_hfp8_to_float_gpu": 10, "_float_to_msfp_gpu": 10, "bounding_box_s": 10, "mbit": 10, "min_po": 10, "msfp": 10, "_msfp_to_float_gpu": 10, "_float_to_paddedfp8rowwise_gpu": 10, "row_dim": 10, "pad": [10, 13, 17, 18, 26], "_paddedfp8rowwise_to_float_gpu": 10, "output_last_dim": 10, "_fused8bitrowwise_to_float_cpu_out": 10, "_float_to_fused8bitrowwise_cpu_out": 10, "float_to_fused8bitrowwise_cpu": 10, "half_to_fused8bitrowwise_cpu": 10, "float_or_half_to_fused8bitrowwise_cpu": 10, "fused8bitrowwise_to_float_cpu": 10, "fused8bitrowwise_to_half_cpu": 10, "fused8bitrowwise_to_float_or_half_cpu": 10, "float_to_fp8rowwise_cpu": 10, "fp8rowwise_to_float_cpu": 10, "fusednbitrowwise_to_float_cpu": 10, "fusednbitrowwise_sbfront_to_float_cpu": 10, "int2": 10, "front": 10, "float32": 10, "torch": [10, 13, 14, 15, 18, 19, 20, 25, 26], "quint4x2": 10, "quint2x4": 10, "quantizedcpu": 10, "backend": [10, 28], "purpos": [10, 17, 18, 20, 23], "becaus": [10, 14, 17, 20], "refer": [10, 14, 17, 25, 26], "rate": [10, 20], "hold": [10, 13, 17], "fusednbitrowwise_to_half_cpu": 10, "fusednbitrowwise_to_float_or_half_cpu": 10, "floattofp8quantized_ref": 10, "nrow": 10, "ncol": 10, "fp8quantizedtofloat_ref": 10, "expand_into_jagged_permute_cuda": 11, "permut": 11, "input_offset": 11, "output_offset": 11, "expand_into_jagged_permut": 11, "expand": 11, "case": [11, 14, 15, 17, 22], "ha": [11, 13, 15, 17, 19, 20, 22, 24, 25], "across": [11, 14], "rank": [11, 17, 20], "level": 11, "exclus": [11, 13], "op": [11, 15, 18, 19, 26], "sit": 11, "we": [11, 13, 14, 17, 22], "deriv": [11, 17, 23], "arrai": [11, 18, 26], "comput": [11, 14, 15, 20], "formula": 11, "output_permut": 11, "table_offset": 11, "bag_offset": 11, "histogram_binning_calibration_cpu": 11, "logit": 11, "bin_num_exampl": 11, "bin_num_posit": 11, "positive_weight": 11, "lower_bound": 11, "upper_bound": 11, "bin_ctr_in_use_aft": 11, "bin_ctr_weight_valu": 11, "divid": [11, 17], "predict": 11, "rang": [11, 13, 17], "e": [11, 13, 14, 17, 19, 24, 26, 27], "bin": [11, 14], "two": [11, 17, 18, 20, 25], "exampl": [11, 13, 14, 15, 16, 18, 20, 24, 25, 26, 27], "fall": [11, 14, 15], "bucket": [11, 14], "basic": [11, 13, 26], "histogram": 11, "result": [11, 13, 14, 18], "statist": [11, 20], "real": 11, "ctr": 11, "num_po": 11, "num_exampl": 11, "final": 11, "calibr": 11, "pre": [11, 15], "cali": 11, "wai": [11, 23], "within": [11, 20], "suffici": [11, 22, 25], "That": 11, "fine": 11, "grain": 11, "modul": [11, 14, 15, 26, 28], "theoret": 11, "layer": [11, 13], "uncalibr": 11, "befor": [11, 13, 14, 27], "sigmoid": 11, "calibart": 11, "pass": [11, 20, 22, 25], "lower": 11, "bound": [11, 17, 20], "calibration_target": 11, "observ": 11, "statisct": 11, "final_calibrated_predict": 11, "bin_ctr_weight": 11, "bin_ctr": 11, "calibrated_predict": 11, "bin_id": 11, "generic_histogram_binning_calibration_by_feature_cpu": 11, "segment_valu": 11, "segment_length": 11, "num_seg": 11, "bin_boundari": 11, "extens": [11, 24, 25], "ectr": 11, "abov": [11, 13, 15, 17, 23, 24, 26, 27], "accept": [11, 22], "sort": [11, 12, 13, 14], "keyjaggedtensor": 11, "num_bin": 11, "longer": [11, 21, 24], "still": [11, 14], "parambin_ctr_weight_valu": 11, "get_unique_indices_cuda": 12, "linear_indic": 12, "max_indic": 12, "compute_count": 12, "dedupl": 12, "get_unique_indices_with_inverse_cuda": 12, "compute_inverse_indic": 12, "lru_cache_find_uncached_cuda": 12, "unique_indic": 12, "unique_indices_length": [12, 13], "time_stamp": 12, "lru_stat": 12, "gather_cache_stat": 12, "uvm_cache_stat": 12, "lock_cache_lin": 12, "lxu_cache_locking_count": 12, "lru": [12, 13, 20], "uncach": [12, 13], "them": 12, "host_lxu_cache_slot": 12, "h_in": 12, "cache_set": [12, 20], "linearize_cache_indices_cuda": 12, "b_offset": 12, "indices_base_offset": 12, "linear": [12, 13], "uniqu": [12, 13, 20, 27], "linearize_cache_indices_from_row_idx_cuda": 12, "update_table_indic": 12, "update_row_indic": 12, "format": [12, 25, 26], "inplac": 12, "updat": [12, 13, 14, 15, 16, 20, 22], "lru_cache_populate_cuda": 12, "hash_size_cumsum": 12, "linear_cache_indic": 12, "stochastic_round": [12, 20], "fetch": [12, 13], "insert": [12, 13, 27], "timestep": 12, "lru_cache_populate_byte_cuda": 12, "byte": [12, 13], "direct_mapped_lru_cache_populate_byte_cuda": 12, "lxu_cache_miss_timestamp": 12, "assoc": 12, "variant": [12, 14, 15, 25], "lfu_cache_populate_cuda": 12, "lfu_stat": 12, "lfu": [12, 20], "lfu_cache_populate_byte_cuda": 12, "lxu_cache_lookup_cuda": 12, "invalid_index": 12, "num_uniq_cache_indic": 12, "lxu_cache_locations_output": 12, "look": [12, 20], "up": [12, 13, 16, 20], "slot": [12, 13], "sentinel": [12, 13], "miss": [12, 13, 14], "direct_mapped_lxu_cache_lookup_cuda": 12, "lxu_cache_flush_cuda": 12, "flush": [12, 13], "reset_weight_momentum_cuda": 12, "momentum1_dev": 12, "momentum1_uvm": 12, "momentum1_plac": 12, "momentum1_offset": 12, "pruned_indic": 12, "pruned_indices_offset": 12, "logical_table_id": 12, "buffer_id": 12, "lxu_cache_locking_counter_decrement_cuda": 12, "decrement": 12, "counter": [12, 20], "lxu_cache_locations_update_cuda": 12, "lxu_cache_locations_new": 12, "rocksdbwritemod": 13, "rocksdb": 13, "mode": [13, 16, 20], "offload": 13, "3": [13, 14, 15, 17, 18, 20, 23, 26], "iter": 13, "fwd_rocksdb_read": 13, "l2": [13, 20], "fwd": 13, "fwd_l1_evict": 13, "l1": 13, "eviciton": 13, "evict": 13, "bwd_l1_cnflct_miss_write_back": 13, "conflict": 13, "bwd": 13, "fill": 13, "potenti": 13, "trigger": 13, "onc": [13, 15, 22], "full": [13, 14, 15, 27], "addition": 13, "do": [13, 14, 15, 20, 22], "io": 13, "enumer": 13, "inlin": [13, 27], "hash_shard": 13, "id": [13, 15], "num_shard": 13, "hash": 13, "shard": 13, "algorithm": [13, 20], "cuda_callback_func": 13, "cudastream_t": 13, "stream": [13, 14, 20], "cudaerror_t": 13, "statu": 13, "functor": 13, "callback": 13, "cudastreamaddcallback": 13, "common": [13, 14, 15, 17, 26], "cudastreamcallback_t": 13, "cast": 13, "invok": [13, 14, 20, 25], "delet": 13, "anoth": [13, 27], "none": [13, 20], "masked_index_put_cuda": 13, "count": 13, "use_pipelin": 13, "preferred_sm": 13, "similar": [13, 14, 17, 20], "index_put": 13, "ignor": [13, 16, 20, 25], "2d": [13, 17, 18, 19, 20, 26], "put": [13, 25], "equival": [13, 17], "filter_": 13, "indices_": 13, "nonzero": 13, "flatten": 13, "1d": [13, 18, 20, 26], "flag": [13, 14, 25], "overlap": 13, "other": [13, 15, 17, 23, 24, 25, 26], "fraction": 13, "sm": 13, "resourc": 13, "competit": 13, "masked_index_select_cuda": 13, "index_select": 13, "ssd_generate_row_addrs_cuda": 13, "assigned_cache_slot": 13, "linear_index_inverse_indic": 13, "unique_indices_count_cumsum": 13, "cache_set_inverse_indic": 13, "inserted_ssd_weight": 13, "cache_set_sorted_unique_indic": 13, "memori": [13, 15, 20, 28], "tbe": [13, 28], "retriev": 13, "scratch": [13, 15], "hbm": [13, 20], "lxu": 13, "associ": 13, "enabl": [13, 14, 16, 20], "conveni": 13, "first": [13, 14, 24, 26, 27], "pointer": [13, 25], "moreov": 13, "list": [13, 14, 17, 18, 19, 20, 23, 24, 26], "post": 13, "backward": [13, 20], "origin": 13, "being": [13, 14, 25], "prefix": [13, 14, 27], "ssd_update_row_addrs_cuda": 13, "ssd_row_addrs_curr": 13, "inserted_ssd_weights_curr_next_map": 13, "lxu_cache_locations_curr": 13, "linear_index_inverse_indices_curr": 13, "unique_indices_count_cumsum_curr": 13, "cache_set_inverse_indices_curr": 13, "inserted_ssd_weights_next": 13, "unique_indices_length_curr": 13, "pipelin": [13, 20], "dure": [13, 14, 17, 20, 26], "reloc": 13, "correct": [13, 14], "between": [13, 17, 24, 25, 27], "been": [13, 14, 24], "compact_indices_cuda": 13, "compact_indic": 13, "compact_count": 13, "mask": 13, "compact": 13, "given": [13, 14, 17, 18], "operat": 13, "remov": 13, "7": [13, 14, 15, 17, 18, 20], "5": [13, 14, 17, 20], "repres": [13, 17, 20], "keep": [13, 14], "class": [13, 20, 25, 26], "cachelibcach": 13, "cachelib_cach": 13, "h": [13, 14, 18, 24], "cachelib": 13, "wrapper": 13, "cachlib": 13, "interact": 13, "maintain": 13, "relat": [13, 17], "initi": 13, "state": [13, 14, 20], "logic": [13, 17, 24], "caller": 13, "reset": 13, "captur": 13, "delai": 13, "markus": 13, "boost": 13, "get": 13, "handl": [13, 17], "read": [13, 17], "done": [13, 14, 15], "embeddingparameterserv": 13, "public": [13, 22, 25], "embeddingkvdb": 13, "ps_table_batched_embed": 13, "servic": [13, 23], "tp": 13, "client": 13, "cachecontext": 13, "kv_db_table_batched_embed": 13, "l2cach": 13, "num_miss": 13, "cached_addr_list": 13, "prealloc": 13, "invalid": [13, 20], "spot": 13, "stai": 13, "struct": 13, "queueitem": 13, "queue": 13, "item": [13, 26], "background": 13, "param": [13, 24, 26], "read_handl": 13, "abstract": 13, "pair": [13, 27], "later": [13, 14], "separ": [13, 20, 25], "get_cach": 13, "monitor": 13, "checkout": 13, "explan": 13, "enable_shared_from_thi": 13, "execut": [13, 15, 16], "dram": [13, 20], "remot": 13, "scalabl": 13, "without": [13, 14, 23], "blow": 13, "subclass": 13, "embeddingrocksdb": 13, "ssd_table_batched_embed": 13, "fbgemm": [14, 15, 18, 19, 21, 22, 23, 25, 26], "experiment": [14, 15, 28], "reproduc": [14, 15, 22, 23], "platform_nam": 14, "unam": 14, "miniconda_prefix": 14, "home": 14, "download": [14, 15], "wget": 14, "q": 14, "anaconda": 14, "miniconda3": 14, "latest": 14, "sh": 14, "o": [14, 15], "p": 14, "load": [14, 17, 26], "shortcut": 14, "bashrc": 14, "command": [14, 15, 24, 25], "against": [14, 16], "env": [14, 15], "name": [14, 15, 20, 23, 24, 26], "python_vers": 14, "12": [14, 17, 20], "upgrad": 14, "pyopenssl": 14, "22": [14, 17], "requir": [14, 15, 16, 17, 20, 25, 26], "recent": [14, 15, 20], "nvcc": 14, "capabl": [14, 16], "bare": 14, "metal": 14, "neither": [14, 23], "nor": [14, 23], "nvidia": [14, 20], "present": [14, 26], "sinc": [14, 17], "pull": [14, 15, 25], "linux": [14, 15], "distribut": [14, 23], "ubuntu": 14, "04": 14, "11": [14, 15, 17], "entrypoint": 14, "devel": 14, "ubuntu22": 14, "rest": [14, 15], "mai": [14, 15, 17, 23], "construct": [14, 15, 17], "mechan": 14, "nvml": 14, "org": [14, 15, 26], "cuda_vers": 14, "label": 14, "verifi": [14, 15, 24, 26], "cuda_runtim": 14, "libnvidia": [14, 15], "ml": [14, 15], "libnccl": [14, 16], "printenv": 14, "extract": 14, "url": [14, 15], "builder": 14, "blob": 14, "main": [14, 22], "install_cuda": 14, "cudnn_url": 14, "redist": 14, "x86_64": 14, "26_cuda12": 14, "archiv": 14, "tar": 14, "xz": 14, "unpack": 14, "xvf": 14, "applic": [14, 15, 20, 24, 26], "alreadi": [14, 15, 22, 24, 26], "repositori": [14, 22], "cmake": 14, "configur": [14, 24], "amd": [14, 15], "minim": 14, "6": [14, 15, 17], "termin": 14, "while": [14, 25], "come": [14, 15], "reason": [14, 15, 25], "oper": [14, 15, 16, 20, 28], "guid": [14, 26], "disabl": 14, "apt": 14, "prompt": 14, "debian_frontend": 14, "noninteract": 14, "db": 14, "radeon": 14, "amdgpu": 14, "focal": 14, "install_5": 14, "50601": 14, "1_all": 14, "deb": 14, "usecas": 14, "hiplibsdk": 14, "dkm": 14, "hipifi": 14, "hip": 14, "dev": 14, "20": 14, "sysroot": 14, "avoid": 14, "glibcxx": 14, "fbgemm_cpu": 14, "10": [14, 15, 17, 20], "older": [14, 15], "accompani": [14, 25], "appropri": 14, "sysroot_linux": 14, "gcc_version": 14, "forg": [14, 25], "gxx_linux": 14, "64": [14, 17], "17": 14, "binari": [14, 23], "cento": 14, "librari": [14, 25, 28], "libstdc": 14, "what": [14, 25], "libcxx_path": 14, "print": [14, 15, 20, 26], "objdump": 14, "tc": 14, "grep": 14, "glibc_": 14, "sed": 14, "vu": 14, "cat": 14, "glibcxx_": 14, "possibl": [14, 17, 22, 23], "just": 14, "minimum": [14, 24, 25, 26], "llvm_version": 14, "16": [14, 17], "libcxx": 14, "outdat": 14, "aarch64": [14, 15], "cannot": 14, "explicitli": [14, 20], "clangxx": 14, "rt": 14, "lib": [14, 15, 16], "ld_library_path": [14, 15, 16], "config": [14, 20], "var": 14, "nvcc_prepend_flag": 14, "correctli": [14, 15, 16, 24, 25], "xcompil": 14, "ccbin": 14, "clangxx_path": 14, "unsupport": 14, "even": [14, 23], "though": [14, 15], "libstd": 14, "mean": [14, 17, 20], "regardless": 14, "scenario": 14, "binpath": 14, "overrid": 14, "exist": [14, 24, 26], "ln": 14, "sf": 14, "path_to_either_gcc_or_clang": 14, "cc": 14, "These": 14, "stage": [14, 17], "click": 14, "hypothesi": [14, 15], "jinja2": 14, "ncurs": 14, "numpi": [14, 15], "scikit": [14, 15], "offici": 14, "homepag": 14, "authorit": [14, 15, 25], "how": [14, 15, 16, 26], "nightli": [14, 15], "rc": 14, "alwai": 14, "reliabl": 14, "arriv": 14, "hour": 14, "than": [14, 17], "window": 14, "silent": [14, 20], "both": [14, 20, 21, 23, 25], "place": [14, 20], "artifact": 14, "select": 14, "thu": [14, 20], "import": [14, 15, 20, 26, 27], "much": [14, 24], "determinist": 14, "whl": [14, 15], "cu121": [14, 15], "rocm5": [14, 15], "ensur": [14, 15, 22], "properli": 14, "__version__": 14, "cuda_cmake_macro": 14, "gemm": 14, "via": [14, 20], "manual": [14, 15, 24], "sha": 14, "pin": 14, "ci": [14, 15], "ci_commit_pin": 14, "txt": [14, 16, 25, 27], "dedb7bdf33": 14, "tag": [14, 24, 27], "fbgemm_vers": 14, "v0": 14, "fbgemm_": 14, "addit": [14, 16, 17, 18], "flow": [14, 20], "becom": 14, "stale": 14, "problem": 14, "re": [14, 15], "attempt": 14, "failur": [14, 15], "clear": [14, 22], "py": [14, 15, 16, 25, 26], "clean": [14, 25], "must": [14, 15, 16, 17, 20, 23, 27], "package_nam": 14, "fbgemm_gpu_": 14, "convent": 14, "major": 14, "minor": 14, "py312": 14, "python_tag": 14, "determin": [14, 17, 20], "processor": 14, "arch": 14, "python_plat_nam": 14, "manylinux2014_": 14, "maco": 14, "macosx_10_9_": 14, "arm64": 14, "macosx_11_0_": 14, "win_": 14, "cpu_onli": 14, "bdist_wheel": 14, "package_vari": 14, "plat": 14, "cxxprefix": 14, "presum": 14, "made": [14, 25], "debug": [14, 16], "assert": 14, "presenc": 14, "unabl": 14, "cudacxx": 14, "cuda_bin_path": 14, "cub": 14, "cub_dir": 14, "header": [14, 24, 27], "cudnn_include_dir": 14, "cudnn_librari": 14, "filepath": 14, "nvml_lib_path": 14, "nccl": [14, 16], "nccl_lib_path": 14, "sm70": [14, 15], "80": 14, "v100": [14, 15], "a100": [14, 15], "cuda_arch_list": 14, "unset": 14, "torch_cuda_arch_list": 14, "preced": 14, "dtorch_cuda_arch_list": 14, "By": [14, 22], "those": [14, 17, 18, 22, 26], "rocm_path": 14, "pytorch_rocm_arch": 14, "gfx906": 14, "gfx908": 14, "gfx90a": 14, "wiki": 14, "gentoo": 14, "rocminfo": 14, "gfx": 14, "dhip_root_dir": 14, "dtorch_use_hip_dsa": 14, "complet": [14, 22, 25], "lot": 14, "jinja": 14, "instanti": 14, "sure": [14, 22, 24, 26], "accident": 14, "cours": 14, "fbgemm_gpu_lib_path": 14, "fbgemm_gpu_pi": [14, 15], "defin": [14, 17, 24], "nm": 14, "gdcu": 14, "referenc": 14, "certain": 14, "gdc": 14, "merge_pooled_embed": [14, 15, 19], "isol": [15, 25], "build": [15, 16, 24, 26, 28], "sm80": 15, "respect": 15, "guarante": 15, "especi": 15, "displai": [15, 27], "setup": 15, "smi": 15, "515": 15, "76": 15, "persist": 15, "bu": [15, 27], "disp": 15, "volatil": 15, "uncorr": 15, "ecc": 15, "fan": 15, "temp": 15, "perf": 15, "pwr": 15, "usag": [15, 25, 26], "cap": 15, "util": [15, 28], "mig": 15, "a10g": 15, "00000000": 15, "00": 15, "1e": [15, 20], "31c": 15, "p0": 15, "59w": 15, "300w": 15, "0mib": 15, "23028mib": 15, "gi": 15, "pid": 15, "No": [15, 20], "expos": 15, "imag": 15, "launch": 15, "toolkit": 15, "interfac": 15, "concis": 15, "info": [15, 24, 26], "dieedg": 15, "avgpwr": 15, "sclk": 15, "mclk": 15, "pwrcap": 15, "vram": 15, "33": 15, "0c": 15, "37": 15, "0w": 15, "300mhz": 15, "1200mhz": 15, "auto": [15, 25], "290": 15, "32": 15, "39": 15, "log": 15, "difficult": 15, "relev": [15, 24], "genai": 15, "triton_vers": 15, "45fff310c8": 15, "about": [15, 26], "link": [15, 25], "encount": [15, 20], "signatur": [15, 25], "traceback": 15, "last": 15, "root": [15, 22], "miniconda": 15, "mycondaenv": 15, "site": 15, "_op": [15, 25], "line": [15, 26, 27], "565": 15, "__getattr__": 15, "overload_nam": 15, "_c": 15, "_jit_get_oper": 15, "qualified_op_nam": 15, "runtimeerror": 15, "except": [15, 24, 26], "wa": 15, "string": [15, 27], "post47": 15, "py3": 15, "egg": 15, "__init__": [15, 26], "21": 15, "_fbgemm_gpu_doc": 15, "noqa": 15, "f401": 15, "e402": 15, "18": 15, "569": 15, "rais": [15, 26], "attributeerror": [15, 26], "_opnamespac": 15, "object": [15, 17], "attribut": [15, 26], "cli": 15, "main_run": 15, "47": 15, "_zn6fbgemm48floatorhalftofusednbitrowwisequantizedsbhalfavx2itli2eeevpkt_miph": 15, "libtorch": 15, "visibl": 15, "incorrectli": [15, 25], "declar": [15, 24], "were": [15, 18], "pr": [15, 24, 25, 26], "1618": 15, "former": 15, "resolv": 15, "latter": 15, "seriou": 15, "tha": 15, "develop": [15, 25], "bench": 16, "good": [16, 23], "instal": [16, 25, 28], "pip": [16, 25], "pytest": 16, "rsx": 16, "pytestcollectionwarn": 16, "split_table_batched_embeddings_test": 16, "quantize_ops_test": 16, "sparse_ops_test": 16, "split_embedding_inference_converter_test": 16, "cuda_visible_devic": 16, "cuda_launch_block": 16, "involv": [16, 17], "rpath": 16, "fbgemm_test_with_rocm": 16, "hip_launch_block": 16, "split_table_batched_embeddings_benchmark": 16, "consecut": 17, "nestedtensor": 17, "raggedtensor": 17, "tensorflow": 17, "notabl": 17, "sentenc": 17, "maxlength": 17, "numel": 17, "greatest": 17, "divisor": 17, "smallest": 17, "sub": 17, "exclud": 17, "partit": 17, "impli": [17, 23], "denot": [17, 24, 26], "offest": 17, "outer": 17, "would": 17, "begin": 17, "maximum": [17, 18, 26], "densor": 17, "form": [17, 23], "figur": 17, "below": 17, "show": [17, 20, 25], "accomod": 17, "At": [17, 24, 25, 26], "multipl": [17, 18, 20, 26, 28], "hadamard": 17, "product": [17, 23], "bmatrix": 17, "rightarrow": 17, "25": 17, "36": 17, "49": 17, "81": 17, "50": 17, "operand": 17, "word": 17, "ax": 17, "properti": 17, "elementwis": [17, 18], "start": [17, 18, 26, 27], "dim": [17, 19], "onto": 17, "part": 17, "everi": [17, 20], "converson": 17, "could": 17, "lead": 17, "smaller": 17, "expect": 17, "happen": 17, "give": 17, "situat": 17, "like": 17, "dense_tensor": 17, "jagged_tensor": 17, "break": 17, "exact": 17, "usual": 17, "area": 18, "outsid": 18, "coverag": 18, "total": [18, 20], "identit": 18, "add": [18, 22, 24, 25, 26], "structur": 18, "jagged_dense_dense_elementwise_add_jagged_output": 18, "y_0": 18, "y_1": 18, "multipli": [18, 20], "max_n": 18, "matmul": 18, "stacked_jagged_1d_to_dens": 18, "arg": [18, 20, 26], "kwarg": 18, "stacked_jagged_2d_to_dens": 18, "pooled_embed": 19, "uncat_dim_s": 19, "cat_dim": 19, "concaten": 19, "vice": 19, "versa": 19, "aggreg": 19, "split_table_batched_embeddings_ops_train": 20, "splittablebatchedembeddingbagscodegen": 20, "embedding_spec": 20, "embeddingloc": 20, "computedevic": 20, "feature_table_map": 20, "cache_algorithm": 20, "cachealgorithm": 20, "cache_load_factor": 20, "cache_reserved_memori": 20, "cache_precis": 20, "weights_precis": 20, "enforce_hbm": 20, "emboptimtyp": 20, "exact_sgd": 20, "record_cache_metr": 20, "recordcachemetr": 20, "gather_uvm_cache_stat": 20, "gradient_clip": 20, "max_gradi": 20, "max_norm": 20, "learning_r": 20, "01": 20, "ep": 20, "08": 20, "momentum": 20, "weight_decai": 20, "weight_decay_mod": 20, "weightdecaymod": 20, "eta": 20, "001": 20, "beta1": 20, "beta2": 20, "999": 20, "step_ema": 20, "10000": 20, "step_swap": 20, "step_start": 20, "step_mod": 20, "stepmod": 20, "use_it": 20, "counter_based_regular": 20, "counterbasedregularizationdefinit": 20, "cowclip_regular": 20, "cowclipdefinit": 20, "poolingmod": 20, "str": 20, "boundscheckmod": 20, "uvm_non_rowwise_momentum": 20, "use_experimental_tb": 20, "prefetch_pipelin": 20, "stats_reporter_config": 20, "tbestatsreporterconfig": 20, "table_nam": 20, "optimizer_state_dtyp": 20, "dict": 20, "multipass_prefetch_config": 20, "multipassprefetchconfig": 20, "global_weight_decai": 20, "globalweightdecaydefinit": 20, "uvm_host_map": 20, "sourc": [20, 22, 23, 24, 25, 26], "spec": 20, "describ": [20, 22], "physic": 20, "placement": 20, "global": 20, "virtual": 20, "managed_cach": 20, "mtia": 20, "least": 20, "frequent": 20, "factor": 20, "capac": 20, "reserv": [20, 23], "optimtyp": 20, "adam": 20, "exact_adagrad": 20, "adagrad": 20, "exact_rowwise_adagrad": 20, "aadagrad": 20, "sgd": 20, "lamb": 20, "lars_sgd": 20, "lar": 20, "partial_rowwise_adam": 20, "partial": 20, "partial_rowwise_lamb": 20, "ensemble_rowwise_adagrad": 20, "ensembl": 20, "Not": 20, "gradient": 20, "record": 20, "hit": 20, "request": [20, 21, 25], "record_cache_miss_count": 20, "metric": 20, "record_tablewise_cache_miss": 20, "collect": [20, 28], "stochast": 20, "round": 20, "clip": 20, "norm": 20, "learn": 20, "0e": 20, "epsilon": 20, "nn": 20, "decai": 20, "decoupl": 20, "pool": [20, 28], "union": 20, "skip": 20, "fatal": 20, "messag": 20, "adjust": 20, "v2": 20, "polici": 20, "forward_stream": 20, "stat": 20, "multipass": 20, "malloc": 20, "cudahostregist": 20, "cudamallocmanag": 20, "feature_requires_grad": 20, "batch_size_per_feature_per_rank": 20, "total_unique_indic": 20, "vbe": 20, "user": 20, "autograd": 20, "chosen": 20, "conatin": 20, "sampl": 20, "unweight": 20, "f": 20, "split_table_batched_embeddings_ops_common": 20, "init_embedding_weights_uniform": 20, "split_embedding_weight": 20, "9426": 20, "7046": 20, "4214": 20, "0419": 20, "1331": 20, "7856": 20, "8124": 20, "2021": 20, "5771": 20, "5911": 20, "7792": 20, "1068": 20, "6203": 20, "4813": 20, "1677": 20, "4790": 20, "5587": 20, "0941": 20, "5754": 20, "3475": 20, "8952": 20, "1964": 20, "0810": 20, "4174": 20, "2513": 20, "4039": 20, "3775": 20, "3273": 20, "5399": 20, "0229": 20, "1455": 20, "8770": 20, "9520": 20, "4593": 20, "7169": 20, "6307": 20, "1765": 20, "8757": 20, "8614": 20, "2051": 20, "0603": 20, "9980": 20, "7958": 20, "5826": 20, "long": 20, "13": 20, "5197": 20, "2957": 20, "3578": 20, "1487": 20, "4873": 20, "3044": 20, "9801": 20, "2769": 20, "7164": 20, "8528": 20, "7159": 20, "6719": 20, "0784": 20, "2016": 20, "2176": 20, "1988": 20, "3825": 20, "5008": 20, "8991": 20, "1405": 20, "2637": 20, "9427": 20, "8902": 20, "3754": 20, "5013": 20, "6105": 20, "9968": 20, "3057": 20, "7621": 20, "9821": 20, "7314": 20, "6195": 20, "grad_fn": 20, "cppnode": 20, "splitlookupfunction_sgd_op": 20, "set_learning_r": 20, "lr": 20, "set_optimizer_step": 20, "setp": 20, "view": [20, 25], "split_optimizer_st": 20, "momentum1": 20, "momentum2": 20, "prev_it": 20, "cowclip": 20, "row_count": 20, "update_hyper_paramet": 20, "params_dict": 20, "hyper": 20, "extern": [20, 27], "question": 21, "concern": 21, "discuss": 21, "kick": 21, "regard": 21, "feel": 21, "free": 21, "reach": 21, "easi": 22, "transpar": 22, "activ": 22, "welcom": [22, 28], "your": [22, 25, 26], "branch": 22, "ve": 22, "chang": [22, 24, 26], "api": [22, 24, 25, 26], "suit": 22, "lint": 22, "haven": 22, "submit": [22, 24, 26], "facebook": [22, 23, 28], "open": 22, "track": 22, "bug": 22, "descript": [22, 24, 25, 26, 27], "abl": 22, "bounti": 22, "safe": 22, "disclosur": 22, "secur": 22, "go": 22, "outlin": 22, "agre": 22, "tree": 22, "claus": 23, "bsd": 23, "softwar": 23, "copyright": 23, "inc": 23, "affili": 23, "right": [23, 27], "redistribut": 23, "modif": 23, "permit": 23, "condit": 23, "met": 23, "retain": 23, "notic": 23, "disclaim": 23, "materi": 23, "contributor": 23, "endors": 23, "promot": 23, "written": 23, "permiss": 23, "BY": 23, "THE": 23, "holder": 23, "AND": 23, "AS": 23, "express": [23, 27], "OR": 23, "warranti": 23, "NOT": 23, "limit": [23, 25], "TO": 23, "OF": 23, "merchant": 23, "FOR": 23, "particular": 23, "IN": 23, "NO": 23, "event": 23, "shall": 23, "BE": 23, "liabl": 23, "indirect": 23, "incident": 23, "special": 23, "exemplari": 23, "consequenti": 23, "damag": 23, "procur": 23, "substitut": 23, "profit": 23, "busi": 23, "interrupt": 23, "theori": 23, "liabil": 23, "contract": 23, "strict": 23, "tort": 23, "neglig": 23, "aris": 23, "IF": 23, "advis": 23, "SUCH": 23, "javadoc": 24, "style": [24, 26], "comment": [24, 25, 27], "sphinx": [24, 25, 26], "breath": 24, "kept": 24, "cpp": [24, 26, 27], "cu": 24, "cuh": 24, "everyth": 24, "ifndef": 24, "doxygen_this_will_be_skip": 24, "endif": 24, "hidden": 24, "html": [24, 25, 26], "descriptionss": 24, "publish": [24, 26], "docstr": [24, 25, 26], "method": [24, 25, 26], "organ": 24, "yet": 24, "top": [24, 28], "defgroup": 24, "directli": [24, 26], "behavior": [24, 26], "tparam": 24, "thrown": [24, 26], "ingroup": 24, "brief": 24, "short": 24, "example_method": [24, 26], "def": [24, 26], "foo": [24, 26], "lst": [24, 26], "And": [24, 26], "verbatim": [24, 26], "text": [24, 26, 27], "diagram": [24, 26], "unpars": 24, "second": [24, 26], "prev": [24, 26], "usabl": [24, 26], "space": [24, 25, 26], "endcod": 24, "align": [24, 26], "param1": [24, 26], "param2": 24, "bad_alloc": 24, "logic_error": 24, "href": 24, "www": [24, 26], "nl": 24, "cmdlink": 24, "On": [24, 26], "doxygengroup": 24, "rst": [24, 26, 27], "content": [24, 27, 28], "toctre": [24, 26], "ini": 24, "taken": 24, "care": 24, "doc": [24, 25, 26, 27], "local": [24, 26], "netlifi": [24, 25, 26], "preview": [24, 26], "serv": 25, "yourself": 25, "shoe": 25, "who": 25, "understand": 25, "live": 25, "easier": 25, "leav": 25, "task": 25, "tool": 25, "graphviz": [25, 27], "assembl": 25, "prepend": 25, "sphinx_lint": 25, "technic": 25, "why": 25, "occasion": 25, "unresolv": 25, "might": 25, "opt": 25, "pycapsul": 25, "neg": 25, "silenc": 25, "nitpick": 25, "conf": 25, "domain": 25, "deploi": 25, "app": 25, "googl": 26, "c_size_t": 26, "ret": 26, "emplace_back": 26, "valueerror": 26, "14": 26, "restructuredtext": 26, "en": 26, "master": 26, "__": 26, "pep": 26, "0287": 26, "42": 26, "autofunct": 26, "c_ulong": 26, "mani": 26, "attach": 26, "fact": 26, "helper": 26, "codebas": 26, "add_doc": 26, "jag": [26, 28], "forc": 26, "hoc": 26, "the_new_doc_modul": 26, "remain": 26, "render": [26, 27], "anchor": 27, "_doc": 27, "underscor": 27, "_": 27, "There": 27, "elsewher": 27, "ref": 27, "literalinclud": 27, "rel": 27, "enclos": 27, "bracket": 27, "skiplin": 27, "suppli": 27, "math": 27, "k_": 27, "k_n": 27, "expressino": 27, "int_a": 27, "frac": 27, "2v": 27, "dx": 27, "left": 27, "dv": 27, "_a": 27, "du": 27, "digraph": 27, "altern": 27, "dot": 27, "examplegraph": 27, "low": 28, "precis": 28, "high": 28, "convolut": 28, "server": 28, "infer": 28, "transform": 28, "contribut": 28, "contact": 28, "licens": 28, "autovector": 28, "ssd": 28}, "objects": {"": [[13, 0, 1, "_CPPv4N16RocksdbWriteMode29BWD_L1_CNFLCT_MISS_WRITE_BACKE", "BWD_L1_CNFLCT_MISS_WRITE_BACK"], [1, 1, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec"], [1, 2, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::IndexType"], [1, 2, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::OffsetType"], [1, 2, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::OutType"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::block_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::data_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::exponent_bias"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::exponent_bits"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::index_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::indices"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::input"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::input_stride"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::is_bf16_out"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::is_weight_positional"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::normalize_by_lengths"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::offsets_or_lengths"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::out"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::output_size"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::output_stride"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::use_offsets"], [1, 3, 1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib", "EmbeddingSpMDMFP8_autovec::weights"], [1, 1, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::InType"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::IndexType"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::OffsetType"], [1, 2, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::OutType"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::block_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::data_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::index_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::indices"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::input"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::input_stride"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::is_bf16_in"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::is_bf16_out"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::is_weight_positional"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::no_bag"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::normalize_by_lengths"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::offsets_or_lengths"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::out"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::output_size"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::output_stride"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::scale_bias_last"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::use_offsets"], [1, 3, 1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb", "EmbeddingSpMDM_autovec::weights"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode5FLUSHE", "FLUSH"], [10, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ebits"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::exponent_bias"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::input"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ncols"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::nrows"], [10, 3, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::output"], [10, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu"], [10, 3, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::forward"], [10, 3, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::input"], [10, 3, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::output_dtype"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode15FWD_L1_EVICTIONE", "FWD_L1_EVICTION"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode16FWD_ROCKSDB_READE", "FWD_ROCKSDB_READ"], [0, 1, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::len"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::m"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::max"], [0, 3, 1, "_CPPv410FindMinMaxPKfPfPf7int64_t", "FindMinMax::min"], [0, 1, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf"], [0, 2, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::InputType"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::bit_rate"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_columns"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::input_rows"], [0, 3, 1, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE", "FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf::output"], [10, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ebits"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::exponent_bias"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::input"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::max_pos"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ncols"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::nrows"], [10, 3, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::output"], [0, 1, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize"], [0, 2, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::T"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::dst"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::len"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::noise_ratio"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::num_threads"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::qparams"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::src"], [0, 3, 1, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif", "FusedQuantizeDequantize::thread_id"], [0, 1, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::C"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::G"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::K"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::LAYOUT"], [0, 2, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::T"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::X"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::dst"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::scales"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::src"], [0, 3, 1, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T", "QuantizeGroupwise::zero_points"], [13, 4, 1, "_CPPv416RocksdbWriteMode", "RocksdbWriteMode"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode29BWD_L1_CNFLCT_MISS_WRITE_BACKE", "RocksdbWriteMode::BWD_L1_CNFLCT_MISS_WRITE_BACK"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode5FLUSHE", "RocksdbWriteMode::FLUSH"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode15FWD_L1_EVICTIONE", "RocksdbWriteMode::FWD_L1_EVICTION"], [13, 0, 1, "_CPPv4N16RocksdbWriteMode16FWD_ROCKSDB_READE", "RocksdbWriteMode::FWD_ROCKSDB_READ"], [0, 1, 1, "_CPPv46Xor128v", "Xor128"], [10, 1, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu"], [10, 3, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::forward"], [10, 3, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::input"], [10, 3, 1, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t", "_FP8rowwise_to_float_gpu::output_dtype"], [10, 1, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu"], [10, 3, 1, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE", "_bfloat16_to_float_gpu::input"], [10, 1, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu"], [10, 3, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::forward"], [10, 3, 1, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb", "_float_to_FP8rowwise_gpu::input"], [10, 1, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu"], [10, 3, 1, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE", "_float_to_bfloat16_gpu::input"], [10, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out"], [10, 3, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::input"], [10, 3, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::output"], [10, 1, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu"], [10, 3, 1, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor", "_float_to_fused8bitrowwise_gpu::input"], [10, 1, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu"], [10, 3, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::bit_rate"], [10, 3, 1, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu::input"], [10, 1, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::ebits"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::exponent_bias"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::input"], [10, 3, 1, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd", "_float_to_hfp8_gpu::max_pos"], [10, 1, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bias"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::bounding_box_size"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::ebits"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::input"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::max_pos"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::mbits"], [10, 3, 1, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd", "_float_to_msfp_gpu::min_pos"], [10, 1, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu"], [10, 3, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::forward"], [10, 3, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::input"], [10, 3, 1, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t", "_float_to_paddedFP8rowwise_gpu::row_dim"], [10, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out"], [10, 3, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::input"], [10, 3, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::output"], [10, 1, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu"], [10, 3, 1, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE", "_fused8bitrowwise_to_float_gpu::input"], [10, 1, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu"], [10, 3, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::D_offsets"], [10, 3, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::input"], [10, 3, 1, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t", "_fused8bitrowwise_to_float_mixed_dim_gpu::output_dtype"], [10, 1, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu"], [10, 3, 1, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE", "_fused8bitrowwise_to_half_gpu::input"], [10, 1, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::input"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::output_dtype"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::quant_padding_float_type"], [10, 3, 1, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb", "_fused8bitrowwise_to_single_or_half_precision_gpu::scale_bias_last"], [10, 1, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu"], [10, 3, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::bit_rate"], [10, 3, 1, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_float_gpu::input"], [10, 1, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu"], [10, 3, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::bit_rate"], [10, 3, 1, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t", "_fusednbitrowwise_to_half_gpu::input"], [10, 1, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu"], [10, 3, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::bit_rate"], [10, 3, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::input"], [10, 3, 1, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t", "_fusednbitrowwise_to_single_or_half_precision_gpu::output_dtype"], [10, 1, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu"], [10, 3, 1, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor", "_half_to_fused8bitrowwise_gpu::input"], [10, 1, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu"], [10, 3, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::bit_rate"], [10, 3, 1, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t", "_half_to_fusednbitrowwise_gpu::input"], [10, 1, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu"], [10, 3, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::ebits"], [10, 3, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::exponent_bias"], [10, 3, 1, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t", "_hfp8_to_float_gpu::input"], [10, 1, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::bias"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::ebits"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::input"], [10, 3, 1, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t", "_msfp_to_float_gpu::mbits"], [10, 1, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::forward"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::input"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_dtype"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::output_last_dim"], [10, 3, 1, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t", "_paddedFP8rowwise_to_float_gpu::row_dim"], [10, 1, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu"], [10, 3, 1, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor", "_single_or_half_precision_to_fused8bitrowwise_gpu::input"], [10, 1, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu"], [10, 3, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::bit_rate"], [10, 3, 1, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t", "_single_or_half_precision_to_fusednbitrowwise_gpu::input"], [9, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device"], [9, 3, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::inputTensors"], [9, 3, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::target_device"], [6, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul"], [6, 3, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_offsets"], [6, 3, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_values"], [6, 3, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::v"], [3, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::B_ofsets"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::bounds_check_mode"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::indices"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::max_B"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::offsets"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::rows_per_table"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::warning"], [3, 3, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::weights"], [13, 1, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::compact_count"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::compact_indices"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::count"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::indices"], [13, 3, 1, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor", "compact_indices_cuda::masks"], [13, 1, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func"], [13, 3, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func::functor"], [13, 3, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func::status"], [13, 3, 1, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv", "cuda_callback_func::stream"], [6, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged"], [6, 3, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged::dense"], [6, 3, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged::offsets"], [6, 3, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE", "dense_to_jagged::total_L"], [12, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::D_offsets"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::hash_size_cumsum"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lru_state"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_miss_timestamp"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::row_alignment"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::time_stamp"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::uvm_cache_stats"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_offsets"], [12, 3, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_tys"], [12, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::invalid_index"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::uvm_cache_stats"], [24, 1, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method"], [24, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::Alignment"], [24, 2, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::T"], [24, 3, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param1"], [24, 3, 1, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf", "example_method::param2"], [11, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::input_offsets"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_offsets"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_size"], [11, 3, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::permute"], [10, 1, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu"], [10, 3, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu::input"], [10, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu"], [10, 3, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::forward"], [10, 3, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::input"], [10, 1, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu"], [10, 3, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu::input"], [10, 1, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu"], [10, 3, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu::input"], [10, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::input"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::output_dtype"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::quant_padding_float_type"], [10, 3, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb", "fused8bitrowwise_to_float_or_half_cpu::scale_bias_last"], [10, 1, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu"], [10, 3, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu::input"], [10, 1, 1, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_sbfront_to_float_cpu"], [10, 3, 1, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_sbfront_to_float_cpu::bit_rate"], [10, 3, 1, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_sbfront_to_float_cpu::input"], [10, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu"], [10, 3, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::bit_rate"], [10, 3, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::input"], [10, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu"], [10, 3, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::bit_rate"], [10, 3, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::input"], [10, 3, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::output_dtype"], [10, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu"], [10, 3, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::bit_rate"], [10, 3, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::input"], [11, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_boundaries"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_in_use_after"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_weight_value"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_examples"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_positives"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::logit"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::num_segments"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::positive_weight"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_lengths"], [11, 3, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_value"], [12, 1, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda"], [12, 3, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda::compute_count"], [12, 3, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda::linear_indices"], [12, 3, 1, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb", "get_unique_indices_cuda::max_indices"], [12, 1, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::compute_count"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::compute_inverse_indices"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::linear_indices"], [12, 3, 1, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb", "get_unique_indices_with_inverse_cuda::max_indices"], [4, 1, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::XQ"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::cache_K"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::cache_V"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::cache_logical_dtype_int"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::kv_cache_quant_num_groups"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::num_split_ks"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::qk_scale"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::seq_positions"], [4, 3, 1, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t", "gqa_attn_splitk::use_tensor_cores"], [10, 1, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu"], [10, 3, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu::input"], [13, 1, 1, "_CPPv410hash_shard7int64_t6size_t", "hash_shard"], [13, 3, 1, "_CPPv410hash_shard7int64_t6size_t", "hash_shard::id"], [13, 3, 1, "_CPPv410hash_shard7int64_t6size_t", "hash_shard::num_shards"], [11, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_in_use_after"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_weight_value"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_examples"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_positives"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::logit"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::lower_bound"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::positive_weight"], [11, 3, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::upper_bound"], [12, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot"], [12, 3, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::C"], [12, 3, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::h_in"], [3, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::D_offsets"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::dev_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bias"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bits"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indice_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indices"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_locations"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float16_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float32_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float8_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int2_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int4_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int8_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::offsets"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::output_dtype"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::pooling_mode"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::row_alignment"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::total_D"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::uvm_weights"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_offsets"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_placements"], [3, 3, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_tys"], [3, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::D_offsets"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::dev_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bias"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bits"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indice_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indices"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_locations"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float16_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float32_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float8_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int2_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int4_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int8_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::offsets"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::output_dtype"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::pooling_mode"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::row_alignment"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::total_D"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::uvm_weights"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_offsets"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_placements"], [3, 3, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_tys"], [3, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::D_offsets"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_hash_size_cumsum"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_index_table_map"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::dev_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bias"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bits"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indice_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indices"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_locations"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_state"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_state"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float16_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float32_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float8_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int2_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int4_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int8_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::offsets"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::output_dtype"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::pooling_mode"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::row_alignment"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_D"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_cache_hash_size"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::uvm_weights"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_offsets"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_placements"], [3, 3, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_tys"], [3, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::D_offsets"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_hash_size_cumsum"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_index_table_map"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::dev_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bias"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bits"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indice_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indices"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_locations"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_state"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_state"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float16_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float32_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float8_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int2_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int4_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int8_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::offsets"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::output_dtype"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::pooling_mode"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::row_alignment"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_D"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_cache_hash_size"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::uvm_weights"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_offsets"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_placements"], [3, 3, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_tys"], [8, 1, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor"], [8, 3, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor::self"], [6, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::max_L"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::offsets"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::padding_value"], [6, 3, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::values"], [6, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense"], [6, 3, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::max_sequence_length"], [6, 3, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::offsets"], [6, 3, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::values"], [6, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_offsets"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_values"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::y"], [6, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output"], [6, 3, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_offsets"], [6, 3, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_values"], [6, 3, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::y"], [6, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda"], [6, 3, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_offsets"], [6, 3, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_values"], [6, 3, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::y"], [6, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_offsets"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_values"], [6, 3, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::y"], [6, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::max_lengths"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::offsets"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::padding_value"], [6, 3, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::values"], [6, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::max_lengths"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::offsets"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::padding_value"], [6, 3, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::values"], [13, 5, 1, "_CPPv4N5kv_db12CacheContextE", "kv_db::CacheContext"], [13, 5, 1, "_CPPv4N5kv_db13EmbeddingKVDBE", "kv_db::EmbeddingKVDB"], [13, 5, 1, "_CPPv4N5kv_db9QueueItemE", "kv_db::QueueItem"], [13, 5, 1, "_CPPv4N8l2_cache13CacheLibCacheE", "l2_cache::CacheLibCache"], [12, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::D_offsets"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lfu_state"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::row_alignment"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_offsets"], [12, 3, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_tys"], [12, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::D_offsets"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lfu_state"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::stochastic_rounding"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights"], [12, 3, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights_offsets"], [12, 1, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::B_offsets"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::indices"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::indices_base_offset"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::max_B"], [12, 3, 1, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t", "linearize_cache_indices_cuda::offsets"], [12, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda"], [12, 3, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_row_indices"], [12, 3, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_table_indices"], [12, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::compute_inverse_indices"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lock_cache_line"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lru_state"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lxu_cache_locking_counter"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::max_indices"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::time_stamp"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::unique_indices"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::unique_indices_length"], [12, 3, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb", "lru_cache_find_uncached_cuda::uvm_cache_stats"], [12, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::D_offsets"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::hash_size_cumsum"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lru_state"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::row_alignment"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::time_stamp"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::uvm_cache_stats"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_offsets"], [12, 3, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_tys"], [12, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::D_offsets"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::hash_size_cumsum"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lock_cache_line"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lru_state"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_locking_counter"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::stochastic_rounding"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::time_stamp"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::uvm_cache_stats"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights"], [12, 3, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights_offsets"], [12, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::D_offsets"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_index_table_map"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::stochastic_rounding"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::total_D"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::uvm_weights"], [12, 3, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::weights_offsets"], [12, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda"], [12, 3, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations"], [12, 3, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations_new"], [12, 3, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::num_uniq_cache_indices"], [12, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda"], [12, 3, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locations"], [12, 3, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locking_counter"], [12, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::gather_cache_stats"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::invalid_index"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::linear_cache_indices"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_locations_output"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::num_uniq_cache_indices"], [12, 3, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::uvm_cache_stats"], [13, 1, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::count"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::indices"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::preferred_sms"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::self"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::use_pipeline"], [13, 3, 1, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_put_cuda::values"], [13, 1, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::count"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::indices"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::preferred_sms"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::self"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::use_pipeline"], [13, 3, 1, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t", "masked_index_select_cuda::values"], [8, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor"], [8, 3, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::self"], [8, 3, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::sizes"], [8, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor"], [8, 3, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::self"], [8, 3, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::sizes"], [8, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta"], [8, 3, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::self"], [8, 3, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::sizes"], [8, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor"], [8, 3, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::is_host_mapped"], [8, 3, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::self"], [8, 3, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::sizes"], [8, 1, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta"], [8, 3, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta::is_host_mapped"], [8, 3, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta::self"], [8, 3, 1, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor_meta::sizes"], [8, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor"], [8, 3, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::self"], [8, 3, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::sizes"], [5, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::batch_size"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::include_last_offsets"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::indices_list"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::offsets_list"], [5, 3, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::per_sample_weights"], [9, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::pooled_embs"], [9, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::pooled_embs"], [9, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::offset_dim_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::permute_list"], [9, 3, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::pooled_embs"], [9, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::pooled_embs"], [9, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::offset_dim_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::permute_list"], [9, 3, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::pooled_embs"], [9, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::allow_duplicates"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_offset_dim_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_permute_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::offset_dim_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::permute_list"], [9, 3, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::pooled_embs"], [9, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::pooled_embs"], [9, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::offset_dim_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::permute_list"], [9, 3, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::pooled_embs"], [3, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings_offsets"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::indices"], [3, 3, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::offsets"], [3, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings_offsets"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::indices"], [3, 3, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::offsets"], [3, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::dense_indices"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table_offsets"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::indices"], [3, 3, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::offsets"], [3, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table_offsets"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::indices"], [3, 3, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::offsets"], [3, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table_offsets"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::indices"], [3, 3, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::offsets"], [13, 5, 1, "_CPPv4N2ps24EmbeddingParameterServerE", "ps::EmbeddingParameterServer"], [7, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda"], [7, 3, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::grad_output"], [7, 3, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::num_features_per_rank"], [7, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda"], [7, 3, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::cumsum_dim_sum_per_rank"], [7, 3, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::dim_sum_per_rank"], [7, 3, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::grad_output"], [7, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu"], [7, 3, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::dim_sum_per_rank"], [7, 3, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::grad_output"], [7, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda"], [7, 3, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::dim_sum_per_rank"], [7, 3, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::grad_output"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::DIRECT"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::Q_GRAN"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::block"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::inp"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_in"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::ld_out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingAvx2::r"], [0, 1, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::A_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::BIAS_TYPE"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::B_SYMMETRIC"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::C_PER_G"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::FUSE_RELU"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::HAS_BIAS"], [0, 2, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::Q_GRAN"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::block"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::inp"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_in"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::ld_out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::out"], [0, 3, 1, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE", "requantizeOutputProcessingGConvAvx512::r"], [12, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::D_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::buffer_ids"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::cache_hash_size_cumsum"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::dev_weights"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::logical_table_ids"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_state"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_weights"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_dev"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_placements"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_uvm"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::total_cache_hash_size"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::uvm_weights"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_offsets"], [12, 3, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_placements"], [13, 5, 1, "_CPPv4N3ssd16EmbeddingRocksDBE", "ssd::EmbeddingRocksDB"], [13, 1, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::assigned_cache_slots"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::cache_set_inverse_indices"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::cache_set_sorted_unique_indices"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::inserted_ssd_weights"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::linear_index_inverse_indices"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::lxu_cache_locations"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::lxu_cache_weights"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::unique_indices_count_cumsum"], [13, 3, 1, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_generate_row_addrs_cuda::unique_indices_length"], [13, 1, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::cache_set_inverse_indices_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::inserted_ssd_weights_curr_next_map"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::inserted_ssd_weights_next"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::linear_index_inverse_indices_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::lxu_cache_locations_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::lxu_cache_weights"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::ssd_row_addrs_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::unique_indices_count_cumsum_curr"], [13, 3, 1, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "ssd_update_row_addrs_cuda::unique_indices_length_curr"], [5, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::include_last_offsets"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::indices_list"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::offsets_list"], [5, 3, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::per_sample_weights"], [8, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise"], [8, 3, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::cuda_memory_advise"], [8, 3, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::self"], [8, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE", "uvm_cuda_mem_prefetch_async"], [8, 3, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::device_t"], [8, 3, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::self"], [8, 1, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork"], [8, 3, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork::self"], [8, 1, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage"], [8, 3, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage::self"], [8, 1, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu"], [8, 3, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu::self"], [8, 1, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone"], [8, 3, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone::self"], [8, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device"], [8, 3, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::prototype"], [8, 3, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::self"], [19, 6, 0, "-", "fbgemm_gpu"]], "fbgemm_gpu.docs.examples": [[26, 7, 1, "", "example_method"]], "fbgemm_gpu.split_table_batched_embeddings_ops_training": [[20, 8, 1, "", "SplitTableBatchedEmbeddingBagsCodegen"]], "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen": [[20, 9, 1, "", "forward"], [20, 9, 1, "", "set_learning_rate"], [20, 9, 1, "", "set_optimizer_step"], [20, 9, 1, "", "split_embedding_weights"], [20, 9, 1, "", "split_optimizer_states"], [20, 9, 1, "", "update_hyper_parameters"]], "torch.ops.fbgemm": [[18, 7, 1, "", "batched_dense_vec_jagged_2d_mul"], [18, 7, 1, "", "dense_to_jagged"], [18, 7, 1, "", "jagged_1d_to_dense"], [18, 7, 1, "", "jagged_2d_to_dense"], [18, 7, 1, "", "jagged_dense_dense_elementwise_add_jagged_output"], [18, 7, 1, "", "jagged_dense_elementwise_add"], [18, 7, 1, "", "jagged_dense_elementwise_add_jagged_output"], [18, 7, 1, "", "jagged_dense_elementwise_mul"], [18, 7, 1, "", "jagged_to_padded_dense"], [19, 7, 1, "", "merge_pooled_embeddings"], [18, 7, 1, "", "stacked_jagged_1d_to_dense"], [18, 7, 1, "", "stacked_jagged_2d_to_dense"]]}, "objtypes": {"0": "cpp:enumerator", "1": "cpp:function", "2": "cpp:templateParam", "3": "cpp:functionParam", "4": "cpp:enum", "5": "cpp:class", "6": "py:module", "7": "py:function", "8": "py:class", "9": "py:method"}, "objnames": {"0": ["cpp", "enumerator", "C++ enumerator"], "1": ["cpp", "function", "C++ function"], "2": ["cpp", "templateParam", "C++ template parameter"], "3": ["cpp", "functionParam", "C++ function parameter"], "4": ["cpp", "enum", "C++ enum"], "5": ["cpp", "class", "C++ class"], "6": ["py", "module", "Python module"], "7": ["py", "function", "Python function"], "8": ["py", "class", "Python class"], "9": ["py", "method", "Python method"]}, "titleterms": {"quantiz": [0, 10], "util": 0, "refer": [0, 27], "implement": [0, 1], "method": [0, 1], "avx": 0, "2": 0, "512": 0, "tbe": [1, 20], "cpu": [1, 3, 6, 7, 10, 11, 14, 15], "autovector": 1, "fp8": 1, "16": 1, "32": 1, "autovec": 1, "build": [2, 14, 25], "instruct": [2, 14, 15, 16], "fbgemm": [2, 28], "requir": 2, "hardwar": 2, "softwar": 2, "depend": 2, "asmjit": 2, "cpuinfo": 2, "googletest": 2, "set": [2, 14, 15, 25], "up": [2, 14, 15, 25], "an": [2, 14], "isol": [2, 14], "environ": [2, 14, 15, 16, 25], "instal": [2, 14, 15], "tool": [2, 14], "c": [2, 14, 24, 28], "compil": [2, 14], "other": [2, 14, 27], "librari": [2, 15], "prepar": [2, 14], "linux": 2, "maco": 2, "cmake": 2, "gcc": [2, 14], "issu": [2, 22], "12": 2, "clang": [2, 14], "bazel": 2, "window": 2, "embed": [3, 9, 12, 13, 19, 20], "oper": [3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 17, 18, 19], "cuda": [3, 6, 7, 8, 10, 11, 13, 14, 15, 16], "experiment": 4, "attent": 4, "combin": [5, 17], "input": 5, "jag": [6, 17, 18], "tensor": [6, 17, 18], "layout": 7, "transform": 7, "memori": 8, "pool": [9, 19], "merg": 9, "permut": 9, "spars": 11, "data": 11, "tabl": [12, 20], "batch": [12, 20], "ssd": 13, "miniconda": 14, "conda": [14, 15], "onli": [14, 15], "genai": 14, "docker": [14, 15], "imag": 14, "cudnn": 14, "cutlass": 14, "rocm": [14, 15, 16], "miopen": 14, "symlink": 14, "pytorch": [14, 15], "through": [14, 15], "pip": [14, 15], "post": [14, 15], "check": [14, 15], "triton": [14, 15], "pre": 14, "setup": [14, 16], "The": 14, "process": 14, "wheel": 14, "variabl": 14, "For": 14, "develop": [14, 28], "undefin": [14, 15], "symbol": [14, 15], "glibc": 14, "version": 14, "compat": 14, "nvidia": 15, "driver": 15, "contain": 15, "runtim": 15, "amdgpu": 15, "python": [15, 26, 28], "fbgemm_gpu": [15, 16, 25, 28], "packag": 15, "public": 15, "pypi": 15, "test": 16, "run": 16, "variant": 16, "benchmark": 16, "high": 17, "level": 17, "overview": [17, 28], "format": 17, "valu": 17, "offset": 17, "max": 17, "length": 17, "exampl": 17, "arithmet": 17, "convers": 17, "dens": 17, "train": 20, "modul": 20, "contact": 21, "u": 21, "github": 21, "slack": 21, "contribut": 22, "code": [22, 24, 26, 27], "conduct": 22, "pull": 22, "request": 22, "contributor": 22, "licens": [22, 23], "agreement": 22, "cla": 22, "ad": [24, 26, 27], "document": [24, 25, 26, 27, 28], "gener": [25, 26, 28], "guidelin": 25, "specif": 25, "guid": 25, "toolchain": 25, "lint": 25, "deploy": 25, "preview": 25, "todo": 26, "auto": 26, "sphinx": 27, "pointer": 27, "section": 27, "referenc": 27, "sourc": 27, "latex": 27, "graph": 27, "homepag": 28, "info": 28, "api": 28}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.intersphinx": 1, "sphinx.ext.todo": 2, "sphinx.ext.viewcode": 1, "sphinx": 57}, "alltitles": {"Contributing": [[22, "contributing"]], "Code of Conduct": [[22, "code-of-conduct"]], "Pull Requests": [[22, "pull-requests"]], "Contributor License Agreement (\u201cCLA\u201d)": [[22, "contributor-license-agreement-cla"]], "Issues": [[22, "issues"]], "License": [[22, "license"], [23, "license"]], "Contact Us": [[21, "contact-us"]], "GitHub": [[21, "github"]], "Slack": [[21, "slack"]], "Test Instructions": [[16, "test-instructions"]], "Setup the FBGEMM_GPU Test Environment": [[16, "setup-the-fbgemm-gpu-test-environment"]], "Running FBGEMM_GPU Tests": [[16, "running-fbgemm-gpu-tests"]], "Testing with the CUDA Variant": [[16, "testing-with-the-cuda-variant"]], "Testing with the ROCm Variant": [[16, "testing-with-the-rocm-variant"]], "Running FBGEMM_GPU Benchmarks": [[16, "running-fbgemm-gpu-benchmarks"]], "Installation Instructions": [[15, "installation-instructions"]], "Set Up CPU-Only Environment": [[15, "set-up-cpu-only-environment"]], "Set Up CUDA Environment": [[15, "set-up-cuda-environment"]], "Install NVIDIA Drivers": [[15, "install-nvidia-drivers"]], "Set Up the CUDA Docker Container and Conda Environment": [[15, "set-up-the-cuda-docker-container-and-conda-environment"]], "Install the CUDA Runtime": [[15, "install-the-cuda-runtime"]], "Set Up ROCm Environment": [[15, "set-up-rocm-environment"]], "Install AMDGPU Drivers": [[15, "install-amdgpu-drivers"]], "Set Up the ROCm Docker Container and Conda Environment": [[15, "set-up-the-rocm-docker-container-and-conda-environment"]], "Install Python Libraries": [[15, "install-python-libraries"]], "Install PyTorch": [[15, "install-pytorch"], [14, "install-pytorch"]], "Install Triton": [[15, "install-triton"]], "Install the FBGEMM_GPU Package": [[15, "install-the-fbgemm-gpu-package"]], "Install through PyTorch PIP": [[15, "install-through-pytorch-pip"]], "Install through Public PyPI": [[15, "install-through-public-pypi"]], "Post-Installation Checks": [[15, "post-installation-checks"]], "Undefined Symbols": [[15, "undefined-symbols"]], "Jagged Tensor Operators": [[17, "jagged-tensor-operators"], [6, "jagged-tensor-operators"], [18, "module-fbgemm_gpu"]], "High Level Overview": [[17, "high-level-overview"]], "Jagged Tensor Format": [[17, "jagged-tensor-format"]], "Values": [[17, "values"]], "Offsets": [[17, "offsets"]], "Max Lengths": [[17, "max-lengths"]], "Jagged Tensor Example": [[17, "jagged-tensor-example"]], "Jagged Tensor Operations": [[17, "jagged-tensor-operations"]], "Arithmetic Operations": [[17, "arithmetic-operations"]], "Conversion Operations": [[17, "conversion-operations"]], "Jagged to Dense": [[17, "jagged-to-dense"]], "Dense to Jagged": [[17, "dense-to-jagged"]], "Combined Arithmetic + Conversion Operations": [[17, "combined-arithmetic-conversion-operations"]], "FBGEMM and FBGEMM_GPU Documentation Homepage": [[28, "fbgemm-and-fbgemm-gpu-documentation-homepage"]], "General Info": [[28, null]], "FBGEMM Development": [[28, null]], "FBGEMM_GPU Development": [[28, null]], "FBGEMM_GPU Overview": [[28, null]], "FBGEMM C++ API": [[28, null]], "FBGEMM_GPU C++ API": [[28, null]], "FBGEMM_GPU Python API": [[28, null]], "Sphinx Documentation Pointers": [[27, "sphinx-documentation-pointers"]], "References Other Sections of the Documentation": [[27, "references-other-sections-of-the-documentation"]], "Referencing the Source Code": [[27, "referencing-the-source-code"]], "Adding LaTeX": [[27, "adding-latex"]], "Adding Graphs": [[27, "adding-graphs"]], "Table Batched Embedding (TBE) Training Module": [[20, "table-batched-embedding-tbe-training-module"]], "TBE CPU Autovectorization": [[1, "tbe-cpu-autovectorization"]], "FP8/16/32 Autovec Implementation Methods": [[1, "fp8-16-32-autovec-implementation-methods"]], "Quantization Utilities": [[0, "quantization-utilities"]], "Reference Implementation Methods": [[0, "reference-implementation-methods"]], "AVX-2 Implementation Methods": [[0, "avx-2-implementation-methods"]], "AVX-512 Implementation Methods": [[0, "avx-512-implementation-methods"]], "Build Instructions": [[2, "build-instructions"], [14, "build-instructions"]], "FBGEMM Requirements": [[2, "fbgemm-requirements"]], "Hardware Requirements": [[2, "hardware-requirements"]], "Software Dependencies": [[2, "software-dependencies"]], "asmjit": [[2, "asmjit"]], "cpuinfo": [[2, "cpuinfo"]], "GoogleTest": [[2, "googletest"]], "Set Up an Isolated Build Environment": [[2, "set-up-an-isolated-build-environment"], [14, "set-up-an-isolated-build-environment"]], "Install the Build Tools": [[2, "install-the-build-tools"], [14, "install-the-build-tools"]], "C/C++ Compiler": [[2, "c-c-compiler"]], "Other Build Tools": [[2, "other-build-tools"], [14, "other-build-tools"]], "Build the FBGEMM Library": [[2, "build-the-fbgemm-library"]], "Preparing the Build": [[2, "preparing-the-build"], [14, "preparing-the-build"]], "Building on Linux and macOS (CMake + GCC)": [[2, "building-on-linux-and-macos-cmake-gcc"]], "Build Issues with GCC 12+": [[2, "build-issues-with-gcc-12"]], "Building on Linux and macOS (CMake + Clang)": [[2, "building-on-linux-and-macos-cmake-clang"]], "Building on Linux (Bazel)": [[2, "building-on-linux-bazel"]], "Building on Windows": [[2, "building-on-windows"]], "Quantization Operators": [[10, "quantization-operators"]], "CUDA Operators": [[10, "cuda-operators"], [11, "cuda-operators"], [7, "cuda-operators"], [6, "cuda-operators"], [3, "cuda-operators"], [13, "cuda-operators"]], "CPU Operators": [[10, "cpu-operators"], [11, "cpu-operators"], [7, "cpu-operators"], [6, "cpu-operators"], [3, "cpu-operators"]], "Pooled Embeddings Operators": [[9, "pooled-embeddings-operators"]], "Merge Operators": [[9, "merge-operators"]], "Permutation Operators": [[9, "permutation-operators"]], "Sparse Data Operators": [[11, "sparse-data-operators"]], "CUDA Memory Operators": [[8, "cuda-memory-operators"]], "Layout Transformation Operators": [[7, "layout-transformation-operators"]], "Embedding Operators": [[3, "embedding-operators"]], "Experimental Operators": [[4, "experimental-operators"]], "Attention Operators": [[4, "attention-operators"]], "Combine Input Operators": [[5, "combine-input-operators"]], "SSD Embedding Operators": [[13, "ssd-embedding-operators"]], "Table Batched Embedding Operators": [[12, "table-batched-embedding-operators"]], "Install Miniconda": [[14, "install-miniconda"]], "Set Up the Conda Environment": [[14, "set-up-the-conda-environment"]], "Set Up for CPU-Only Build": [[14, "set-up-for-cpu-only-build"]], "Set Up for CUDA / GenAI-Only Build": [[14, "set-up-for-cuda-genai-only-build"]], "CUDA Docker Image": [[14, "cuda-docker-image"]], "Install CUDA": [[14, "install-cuda"]], "Install cuDNN": [[14, "install-cudnn"]], "Install CUTLASS": [[14, "install-cutlass"]], "Set Up for ROCm Build": [[14, "set-up-for-rocm-build"]], "ROCm Docker Image": [[14, "rocm-docker-image"]], "Install ROCm": [[14, "install-rocm"]], "Install MIOpen": [[14, "install-miopen"]], "C/C++ Compiler (GCC)": [[14, "c-c-compiler-gcc"]], "C/C++ Compiler (Clang)": [[14, "c-c-compiler-clang"]], "Compiler Symlinks": [[14, "compiler-symlinks"]], "Installation Through Conda": [[14, "installation-through-conda"]], "Installation Through PyTorch PIP": [[14, "installation-through-pytorch-pip"]], "Post-Install Checks": [[14, "post-install-checks"]], "Install PyTorch-Triton": [[14, "install-pytorch-triton"]], "Other Pre-Build Setup": [[14, "other-pre-build-setup"]], "The Build Process": [[14, "the-build-process"]], "Set Wheel Build Variables": [[14, "set-wheel-build-variables"]], "CPU-Only Build": [[14, "cpu-only-build"]], "CUDA Build": [[14, "cuda-build"]], "GenAI-Only Build": [[14, "genai-only-build"]], "ROCm Build": [[14, "rocm-build"]], "Post-Build Checks (For Developers)": [[14, "post-build-checks-for-developers"]], "Undefined Symbols Check": [[14, "undefined-symbols-check"]], "GLIBC Version Compatibility Check": [[14, "glibc-version-compatibility-check"]], "Adding Documentation to Python Code": [[26, "adding-documentation-to-python-code"]], "Todo": [[26, "id1"]], "Adding Documentation to Auto-Generated Python Code": [[26, "adding-documentation-to-auto-generated-python-code"]], "Adding Documentation to C++ Code": [[24, "adding-documentation-to-c-code"]], "Documentation": [[25, "documentation"]], "General Documentation Guidelines": [[25, "general-documentation-guidelines"]], "Specific Documentation Guides": [[25, "specific-documentation-guides"]], "Building the Documentation": [[25, "building-the-documentation"]], "Set Up Build Environment": [[25, "set-up-build-environment"]], "Build FBGEMM_GPU": [[25, "build-fbgemm-gpu"]], "Set Up the Documentation Toolchain": [[25, "set-up-the-documentation-toolchain"]], "Build the Documentation": [[25, "build-the-documentation"]], "Linting the Documentation": [[25, "linting-the-documentation"]], "Deployment Preview": [[25, "deployment-preview"]], "Pooled Embedding Operators": [[19, "module-fbgemm_gpu"]]}, "indexentries": {"findminmax (c++ function)": [[0, "_CPPv410FindMinMaxPKfPfPf7int64_t"]], "floatorhalftofusednbitrowwisequantizedsbhalf (c++ function)": [[0, "_CPPv4I0E44FloatOrHalfToFusedNBitRowwiseQuantizedSBHalfviPK9InputType6size_tiPNSt7uint8_tE"]], "fusedquantizedequantize (c++ function)": [[0, "_CPPv4I0E23FusedQuantizeDequantizevPKfPfNSt7int64_tERK24TensorQuantizationParamsiif"]], "quantizegroupwise (c++ function)": [[0, "_CPPv4I0_8layout_tE17QuantizeGroupwisevPKfiiiiPKfPKNSt7int32_tEP1T"]], "xor128 (c++ function)": [[0, "_CPPv46Xor128v"]], "requantizeoutputprocessingavx2 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b0_bE30requantizeOutputProcessingAvx2vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "requantizeoutputprocessinggconvavx512 (c++ function)": [[0, "_CPPv4I_b_b_23QuantizationGranularity_b_b_i0E37requantizeOutputProcessingGConvAvx512vPNSt7uint8_tEPKNSt7int32_tERK12block_type_tiiRK22requantizationParams_tI9BIAS_TYPEE"]], "embeddingspmdmfp8_autovec (c++ function)": [[1, "_CPPv4I000E25EmbeddingSpMDMFP8_autovecbK7int64_tK7int64_tK7int64_tK7int64_tPK7uint8_tPK9IndexTypePK10OffsetTypePKfbP7OutTypebb7int64_t7int64_tiib"]], "embeddingspmdm_autovec (c++ function)": [[1, "_CPPv4I0000E22EmbeddingSpMDM_autovecbKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEKNSt7int64_tEPK6InTypePK9IndexTypePK10OffsetTypePKfbP7OutTypebbNSt7int64_tENSt7int64_tEbbbb"]], "bounds_check_indices_cuda (c++ function)": [[3, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKNSt8optionalI6TensorEERKNSt8optionalI6TensorEEK7int64_t"]], "int_nbit_split_embedding_codegen_lookup_function (c++ function)": [[3, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE"]], "int_nbit_split_embedding_codegen_lookup_function_cpu (c++ function)": [[3, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function (c++ function)": [[3, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu (c++ function)": [[3, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tNSt8optionalI6TensorEE7int64_tNSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI7int64_tEENSt8optionalI6TensorEENSt8optionalI6TensorEENSt8optionalI6TensorEE"]], "pruned_array_lookup_cpu (c++ function)": [[3, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"]], "pruned_array_lookup_cuda (c++ function)": [[3, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_insert_unweighted_cpu (c++ function)": [[3, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_cuda (c++ function)": [[3, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_unweighted_cpu (c++ function)": [[3, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"]], "gqa_attn_splitk (c++ function)": [[4, "_CPPv415gqa_attn_splitkRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorEKdK7int64_tK7int64_tKbK7int64_t"]], "padding_fused_tbe_input_combine_cpu (c++ function)": [[5, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"]], "tbe_input_combine_cpu (c++ function)": [[5, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"]], "batched_dense_vec_jagged_2d_mul (c++ function)": [[6, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"]], "dense_to_jagged (c++ function)": [[6, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEENSt8optionalIN2at6SymIntEEE"]], "jagged_1d_to_dense (c++ function)": [[6, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"]], "jagged_2d_to_dense (c++ function)": [[6, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"]], "jagged_dense_elementwise_add (c++ function)": [[6, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output (c++ function)": [[6, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output_cuda (c++ function)": [[6, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_mul (c++ function)": [[6, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_to_padded_dense (c++ function)": [[6, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"]], "jagged_to_padded_dense_forward (c++ function)": [[6, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"]], "recat_embedding_grad_output_cuda (c++ function)": [[7, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_batch_cuda (c++ function)": [[7, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"]], "recat_embedding_grad_output_mixed_d_cpu (c++ function)": [[7, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_cuda (c++ function)": [[7, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"]], "is_uvm_tensor (c++ function)": [[8, "_CPPv413is_uvm_tensorRK6Tensor"]], "new_host_mapped_tensor (c++ function)": [[8, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor (c++ function)": [[8, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor_meta (c++ function)": [[8, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_unified_tensor (c++ function)": [[8, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb"]], "new_unified_tensor_meta (c++ function)": [[8, "_CPPv423new_unified_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEEb"]], "new_vanilla_managed_tensor (c++ function)": [[8, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "uvm_cuda_mem_advise (c++ function)": [[8, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t"]], "uvm_cuda_mem_prefetch_async (c++ function)": [[8, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorNSt8optionalI6TensorEE"]], "uvm_mem_advice_dont_fork (c++ function)": [[8, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor"]], "uvm_storage (c++ function)": [[8, "_CPPv411uvm_storageRK6Tensor"]], "uvm_to_cpu (c++ function)": [[8, "_CPPv410uvm_to_cpuRK6Tensor"]], "uvm_to_cpu_clone (c++ function)": [[8, "_CPPv416uvm_to_cpu_cloneRK6Tensor"]], "uvm_to_device (c++ function)": [[8, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor"]], "all_to_one_device (c++ function)": [[9, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"]], "permute_pooled_embs_auto_grad (c++ function)": [[9, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_cpu (c++ function)": [[9, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_gpu (c++ function)": [[9, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_split_cpu (c++ function)": [[9, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_auto_grad_split_gpu (c++ function)": [[9, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_cpu_impl (c++ function)": [[9, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb"]], "permute_pooled_embs_split_cpu (c++ function)": [[9, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_split_gpu (c++ function)": [[9, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "fp8quantizedtofloat_ref (c++ function)": [[10, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"]], "fp8rowwise_to_float_cpu (c++ function)": [[10, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"]], "floattofp8quantized_ref (c++ function)": [[10, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"]], "_fp8rowwise_to_float_gpu (c++ function)": [[10, "_CPPv424_FP8rowwise_to_float_gpuRKN2at6TensorEbK7int64_t"]], "_bfloat16_to_float_gpu (c++ function)": [[10, "_CPPv422_bfloat16_to_float_gpuRKN2at6TensorE"]], "_float_to_fp8rowwise_gpu (c++ function)": [[10, "_CPPv424_float_to_FP8rowwise_gpuRK6TensorKb"]], "_float_to_bfloat16_gpu (c++ function)": [[10, "_CPPv422_float_to_bfloat16_gpuRKN2at6TensorE"]], "_float_to_fused8bitrowwise_cpu_out (c++ function)": [[10, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"]], "_float_to_fused8bitrowwise_gpu (c++ function)": [[10, "_CPPv430_float_to_fused8bitrowwise_gpuRK6Tensor"]], "_float_to_fusednbitrowwise_gpu (c++ function)": [[10, "_CPPv430_float_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "_float_to_hfp8_gpu (c++ function)": [[10, "_CPPv418_float_to_hfp8_gpuRKN2at6TensorEK7int64_tK7int64_tKd"]], "_float_to_msfp_gpu (c++ function)": [[10, "_CPPv418_float_to_msfp_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_tK7int64_tKdKd"]], "_float_to_paddedfp8rowwise_gpu (c++ function)": [[10, "_CPPv430_float_to_paddedFP8rowwise_gpuRK6TensorKbK7int64_t"]], "_fused8bitrowwise_to_float_cpu_out (c++ function)": [[10, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"]], "_fused8bitrowwise_to_float_gpu (c++ function)": [[10, "_CPPv430_fused8bitrowwise_to_float_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_float_mixed_dim_gpu (c++ function)": [[10, "_CPPv440_fused8bitrowwise_to_float_mixed_dim_gpuRKN2at6TensorERKN2at6TensorEK7int64_t"]], "_fused8bitrowwise_to_half_gpu (c++ function)": [[10, "_CPPv429_fused8bitrowwise_to_half_gpuRKN2at6TensorE"]], "_fused8bitrowwise_to_single_or_half_precision_gpu (c++ function)": [[10, "_CPPv449_fused8bitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tKbKb"]], "_fusednbitrowwise_to_float_gpu (c++ function)": [[10, "_CPPv430_fusednbitrowwise_to_float_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_half_gpu (c++ function)": [[10, "_CPPv429_fusednbitrowwise_to_half_gpuRKN2at6TensorEK7int64_t"]], "_fusednbitrowwise_to_single_or_half_precision_gpu (c++ function)": [[10, "_CPPv449_fusednbitrowwise_to_single_or_half_precision_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_half_to_fused8bitrowwise_gpu (c++ function)": [[10, "_CPPv429_half_to_fused8bitrowwise_gpuRK6Tensor"]], "_half_to_fusednbitrowwise_gpu (c++ function)": [[10, "_CPPv429_half_to_fusednbitrowwise_gpuRKN2at6TensorEK7int64_t"]], "_hfp8_to_float_gpu (c++ function)": [[10, "_CPPv418_hfp8_to_float_gpuRKN2at6TensorEK7int64_tK7int64_t"]], "_msfp_to_float_gpu (c++ function)": [[10, "_CPPv418_msfp_to_float_gpuRKN2at6TensorEK7int64_tK7int64_tK7int64_t"]], "_paddedfp8rowwise_to_float_gpu (c++ function)": [[10, "_CPPv430_paddedFP8rowwise_to_float_gpuRKN2at6TensorEKbK7int64_tK7int64_tK7int64_t"]], "_single_or_half_precision_to_fused8bitrowwise_gpu (c++ function)": [[10, "_CPPv449_single_or_half_precision_to_fused8bitrowwise_gpuRK6Tensor"]], "_single_or_half_precision_to_fusednbitrowwise_gpu (c++ function)": [[10, "_CPPv449_single_or_half_precision_to_fusednbitrowwise_gpuRK6TensorK7int64_t"]], "float_or_half_to_fused8bitrowwise_cpu (c++ function)": [[10, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor"]], "float_to_fp8rowwise_cpu (c++ function)": [[10, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"]], "float_to_fused8bitrowwise_cpu (c++ function)": [[10, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor"]], "fused8bitrowwise_to_float_cpu (c++ function)": [[10, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor"]], "fused8bitrowwise_to_float_or_half_cpu (c++ function)": [[10, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_tKbKb"]], "fused8bitrowwise_to_half_cpu (c++ function)": [[10, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor"]], "fusednbitrowwise_sbfront_to_float_cpu (c++ function)": [[10, "_CPPv437fusednbitrowwise_sbfront_to_float_cpuRK6TensorK7int64_t"]], "fusednbitrowwise_to_float_cpu (c++ function)": [[10, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"]], "fusednbitrowwise_to_float_or_half_cpu (c++ function)": [[10, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"]], "fusednbitrowwise_to_half_cpu (c++ function)": [[10, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"]], "half_to_fused8bitrowwise_cpu (c++ function)": [[10, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor"]], "expand_into_jagged_permute_cuda (c++ function)": [[11, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"]], "generic_histogram_binning_calibration_by_feature_cpu (c++ function)": [[11, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"]], "histogram_binning_calibration_cpu (c++ function)": [[11, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"]], "direct_mapped_lru_cache_populate_byte_cuda (c++ function)": [[12, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE"]], "direct_mapped_lxu_cache_lookup_cuda (c++ function)": [[12, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE"]], "get_unique_indices_cuda (c++ function)": [[12, "_CPPv423get_unique_indices_cudaRKN2at6TensorEK7int64_tKb"]], "get_unique_indices_with_inverse_cuda (c++ function)": [[12, "_CPPv436get_unique_indices_with_inverse_cudaRKN2at6TensorEK7int64_tKbKb"]], "host_lxu_cache_slot (c++ function)": [[12, "_CPPv419host_lxu_cache_slot7int64_t7int64_t"]], "lfu_cache_populate_byte_cuda (c++ function)": [[12, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "lfu_cache_populate_cuda (c++ function)": [[12, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"]], "linearize_cache_indices_cuda (c++ function)": [[12, "_CPPv428linearize_cache_indices_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorERKNSt8optionalIN2at6TensorEEEK7int64_tK7int64_t"]], "linearize_cache_indices_from_row_idx_cuda (c++ function)": [[12, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"]], "lru_cache_find_uncached_cuda (c++ function)": [[12, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorEKb"]], "lru_cache_populate_byte_cuda (c++ function)": [[12, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEE"]], "lru_cache_populate_cuda (c++ function)": [[12, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbNSt8optionalIN2at6TensorEEEbNSt8optionalIN2at6TensorEEE"]], "lxu_cache_flush_cuda (c++ function)": [[12, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"]], "lxu_cache_locations_update_cuda (c++ function)": [[12, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorENSt8optionalIN2at6TensorEEE"]], "lxu_cache_locking_counter_decrement_cuda (c++ function)": [[12, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"]], "lxu_cache_lookup_cuda (c++ function)": [[12, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbNSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEENSt8optionalIN2at6TensorEEE"]], "reset_weight_momentum_cuda (c++ function)": [[12, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "rocksdbwritemode (c++ enum)": [[13, "_CPPv416RocksdbWriteMode"]], "rocksdbwritemode::bwd_l1_cnflct_miss_write_back (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode29BWD_L1_CNFLCT_MISS_WRITE_BACKE"]], "rocksdbwritemode::flush (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode5FLUSHE"]], "rocksdbwritemode::fwd_l1_eviction (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode15FWD_L1_EVICTIONE"]], "rocksdbwritemode::fwd_rocksdb_read (c++ enumerator)": [[13, "_CPPv4N16RocksdbWriteMode16FWD_ROCKSDB_READE"]], "compact_indices_cuda (c++ function)": [[13, "_CPPv420compact_indices_cudaNSt6vectorI6TensorEE6TensorNSt6vectorI6TensorEE6Tensor6Tensor"]], "cuda_callback_func (c++ function)": [[13, "_CPPv418cuda_callback_func12cudaStream_t11cudaError_tPv"]], "hash_shard (c++ function)": [[13, "_CPPv410hash_shard7int64_t6size_t"]], "kv_db::cachecontext (c++ class)": [[13, "_CPPv4N5kv_db12CacheContextE"]], "kv_db::embeddingkvdb (c++ class)": [[13, "_CPPv4N5kv_db13EmbeddingKVDBE"]], "kv_db::queueitem (c++ struct)": [[13, "_CPPv4N5kv_db9QueueItemE"]], "l2_cache::cachelibcache (c++ class)": [[13, "_CPPv4N8l2_cache13CacheLibCacheE"]], "masked_index_put_cuda (c++ function)": [[13, "_CPPv421masked_index_put_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t"]], "masked_index_select_cuda (c++ function)": [[13, "_CPPv424masked_index_select_cuda6Tensor6Tensor6Tensor6TensorKbK7int64_t"]], "ps::embeddingparameterserver (c++ class)": [[13, "_CPPv4N2ps24EmbeddingParameterServerE"]], "ssd::embeddingrocksdb (c++ class)": [[13, "_CPPv4N3ssd16EmbeddingRocksDBE"]], "ssd_generate_row_addrs_cuda (c++ function)": [[13, "_CPPv427ssd_generate_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "ssd_update_row_addrs_cuda (c++ function)": [[13, "_CPPv425ssd_update_row_addrs_cudaRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "batched_dense_vec_jagged_2d_mul() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul"]], "dense_to_jagged() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.dense_to_jagged"]], "fbgemm_gpu": [[18, "module-fbgemm_gpu"], [19, "module-fbgemm_gpu"]], "jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.jagged_1d_to_dense"]], "jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.jagged_2d_to_dense"]], "jagged_dense_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_add() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.jagged_dense_elementwise_add"]], "jagged_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_mul() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.jagged_dense_elementwise_mul"]], "jagged_to_padded_dense() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.jagged_to_padded_dense"]], "module": [[18, "module-fbgemm_gpu"], [19, "module-fbgemm_gpu"]], "stacked_jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.stacked_jagged_1d_to_dense"]], "stacked_jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[18, "torch.ops.fbgemm.stacked_jagged_2d_to_dense"]], "merge_pooled_embeddings() (in module torch.ops.fbgemm)": [[19, "torch.ops.fbgemm.merge_pooled_embeddings"]], "splittablebatchedembeddingbagscodegen (class in fbgemm_gpu.split_table_batched_embeddings_ops_training)": [[20, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen"]], "forward() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[20, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.forward"]], "set_learning_rate() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[20, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_learning_rate"]], "set_optimizer_step() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[20, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.set_optimizer_step"]], "split_embedding_weights() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[20, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_embedding_weights"]], "split_optimizer_states() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[20, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.split_optimizer_states"]], "update_hyper_parameters() (fbgemm_gpu.split_table_batched_embeddings_ops_training.splittablebatchedembeddingbagscodegen method)": [[20, "fbgemm_gpu.split_table_batched_embeddings_ops_training.SplitTableBatchedEmbeddingBagsCodegen.update_hyper_parameters"]], "example_method (c++ function)": [[24, "_CPPv4I0_NSt6size_tEE14example_method7int32_t1Tf"]], "example_method() (in module fbgemm_gpu.docs.examples)": [[26, "fbgemm_gpu.docs.examples.example_method"]]}})
\ No newline at end of file