[MV-1195] Implement Pdist Backward #62

anhskrttt · 2024-11-14T17:43:48Z

Summary of Changes

Add PdistBackward operation and kernel.
Add driver test and gtest for PdistBackward.

Additional Notes

ROCm's pdist doesn't support for dtype=[fp16, bfp16] yet. This PR already includes support for those two types.
MIOpen performance is better for contiguous inputs.
For input_dtype=fp16, the result may experience underflow or overflow in the following cases: (1) when input.dims[0] is large, indicating a high number of points for distance calculation, or (2) when the value of p is large.

Benchmark Results

Average improvement over ROCm

type	bwd
float	1.37
float16	-
bfloat16	-

Detail Benchmark

float32

op_name	dtype	size	direction	ROCm	MIOpen	MIOpen vs ROCm
PDist	float32	[32 65536]	bwd	2062221	828990	2.49
PDist	float32	[512 512]	bwd	3415568	2494930	1.37
PDist	float32	[1024 512]	bwd	19289647	10698600	1.80
PDist	float32	[2048 512]	bwd	82933944	46841100	1.77
PDist	float32	[128 144]	bwd	59216	86755	0.68
PDist	float32	[16 255]	bwd	27984	28000	1.00
PDist	float32	[128 512]	bwd	170863	150363	1.14
PDist	float32	[128 128]	bwd	57615	78168	0.74

anhskrttt · 2024-11-18T03:48:16Z

src/kernels/MIOpenPdist.cpp

+{
+    pdist_backward_contiguous<INPUT_TYPE>(
+        input, output, grad, input_grad, p, n2, n2_squared_minus_1, N, NO, M);
+}


add new line at the end

hieule88

[Partial Review] I found no kernel rightly implemented for non-contiguous case, please add and re-benchmark the performance. Additionally, why you dont implement Forward case, I found pdist kernel (forward case) in CL code and before all of the modification you will make, please change base branch to develop-moreh for the most update code. I will continue reviewing after you add non-contiguous and forward case

hieule88 · 2024-11-18T03:25:57Z

driver/mloPdistHost.hpp

+    for(size_t i = 0; i < input_numel; i++)
+    {
+        dinputHost[i] = 0;
+    }
+
+    for(int i = 0; i < N; ++i)
+    {
+        for(int j = i + 1; j < N; ++j)


pard_for for better perf

use uint64_t i, j

hieule88 · 2024-11-18T03:27:27Z

driver/mloPdistHost.hpp

+            double grad_k   = static_cast<double>(doutput[k]);
+            double output_k = static_cast<double>(output[k]);
+
+            for(int m = 0; m < M; ++m)


this may lead to CI/CD failed because M is size_t while m is int (comparation between different type)

hieule88 · 2024-11-18T03:28:25Z

driver/mloPdistHost.hpp

+                double input_first  = static_cast<double>(input[i * M + m]);
+                double input_second = static_cast<double>(input[j * M + m]);
+                double diff         = input_first - input_second;
+
+                Tcheck res =
+                    static_cast<Tcheck>(miopen::solver::pdist::backward(diff, grad_k, output_k, p));
+
+                dinputHost[i * M + m] += res;
+                dinputHost[j * M + m] -= res;


use tensor_view instead: tv.get_tensor_view_idx({i, m})

hieule88 · 2024-11-18T03:29:56Z

driver/mloPdistHost.hpp

+    {
+        for(int j = i + 1; j < N; ++j)
+        {
+            long k          = j + N * i - i * (i + 1) / 2 - i - 1;


can k be negative? if not, use uint64_t

if can be, check for k before use it as index

hieule88 · 2024-11-18T03:36:19Z

driver/pdist_driver.hpp

+#include <cstdint>
+#include <cstdlib>
+#include <iostream>
+#include <memory>
+#include <vector>


are those lib necessary ?

follow this order (AMD's convention):
`#include "InputFlags.hpp"
#include "driver.hpp"
#include "mloMarginRakningLossHost.hpp"
#include "random.hpp"
#include "tensor_driver.hpp"
#include "timer.hpp"

#include <../test/tensor_holder.hpp>
#include <../test/verify.hpp>

#include <miopen/env.hpp>
#include <miopen/handle.hpp>
#include <miopen/miopen.h>
#include <miopen/tensor.hpp>
#include `

hieule88 · 2024-11-18T04:43:12Z