Inline assembly causes Segmentation fault (core dumped)

Question

I'm attempting to convert the Intel intrinsics into inline assembly.

The code is going to calculate a 4x4 Matrix. The size of A and B are 4 x kc and kc x 4, respectively.

Here is the complete function:

 #define MR 4
 #define NR 4
 // compute C := beta * C + alpha * AB
 static void  dgemm_micro_kernel(int kc,
               double alpha, const double *A, const double *B,
               double beta,
               double *C, int incRowC, int incColC)
{ 
    double AB[MR*NR] __attribute__ ((aligned (32)));

    int i, j, p;
    register __m256d ab_00_10_20_30, ab_01_11_21_31, ab_02_12_22_32, ab_03_13_23_33;
    register __m256d a_0123, b_0000, b_1111, b_2222, b_3333;


    ab_00_10_20_30 = _mm256_setzero_pd();
    ab_01_11_21_31 = _mm256_setzero_pd();
    ab_02_12_22_32 = _mm256_setzero_pd();
    ab_03_13_23_33 = _mm256_setzero_pd();

    for (p = 0; p < kc; p++)
    {
        a_0123 = _mm256_load_pd(A);
        b_0000 = _mm256_broadcast_sd(B);
        b_1111 = _mm256_broadcast_sd(B + 1);
        b_2222 = _mm256_broadcast_sd(B + 2);
        b_3333 = _mm256_broadcast_sd(B + 3);

        // Col 1
        ab_00_10_20_30 = _mm256_fmadd_pd(a_0123, b_0000, ab_00_10_20_30);
        // Col 2
        ab_01_11_21_31 = _mm256_fmadd_pd(a_0123, b_1111, ab_01_11_21_31);
        // Col 3
        ab_02_12_22_32 = _mm256_fmadd_pd(a_0123, b_2222, ab_02_12_22_32);
        // Col 4
        ab_03_13_23_33 = _mm256_fmadd_pd(a_0123, b_3333, ab_03_13_23_33);

        A += MR;
        B += NR;
  }
    _mm256_store_pd(AB +  0, ab_00_10_20_30);
    _mm256_store_pd(AB +  4, ab_01_11_21_31);
    _mm256_store_pd(AB +  8, ab_02_12_22_32);
    _mm256_store_pd(AB + 12, ab_03_13_23_33);

    // Updata C := beta * C
    if (beta == 0.0)
   {
        // C == 0
        for (j = 0; j < NR; j++)
        {
            for (i = 0; i < MR; i++)
           {
                C[i * incRowC + j * incColC] = 0.0;
          }
      }
    }
    else if (beta != 1.0)
    {
        // C := beta * C
        for (j = 0; j < NR; j++)
        {
            for (i = 0; i < MR; i++)
            {
                C[i * incRowC + j * incColC] *= beta;
            }
        }
    }

    // Updata C := C + alpha * AB
    if (alpha == 1.0)
    {
        for (j = 0; j < NR; j++)
        {
            for (i = 0; i < MR; i++)
            {
                C[i * incRowC + j * incColC] += AB[j * MR + i];
            }
        }
    }
    else
    {
        for (j = 0; j < NR; j++)
        {
            for (i = 0; i < MR; i++)
            {
                C[i * incRowC + j * incColC] += alpha * AB[j * MR + i];
            }
        }
    }
}

Here is my inline assembly (just post the related part):

double AB[16] __attribute__ ((aligned(32)));
__asm__ volatile
(
    "movl           %0,         %%esi               
	"   // kc
    "movq           %1,         %%rax               
	"   // A
    "movq           %2,         %%rbx               
	"   // B
    "movq           %3,         %%rcx               
	"   // AB
    "                                               
	"
    "vxorpd         %%ymm0,     %%ymm0,     %%ymm0  
	"   // SET ZERO
    "vxorpd         %%ymm1,     %%ymm1,     %%ymm1  
	"
    "vxorpd         %%ymm2,     %%ymm2,     %%ymm2  
	"
    "vxorpd         %%ymm3,     %%ymm3,     %%ymm3  
	"
    "                                               
	"
    "testl           %%esi,      %%esi               
	"   // CHECK
    "je             .DWRITEAB                       
	"
    "                                               
	"
    ".DLOOP:                                        
	"   // LOOP
    "vmovapd        (%%rax),    %%ymm4              
	"   // load a_0123
    "vbroadcastsd   (%%rbx),    %%ymm5              
	"   // load b_0000
    "vbroadcastsd   8(%%rbx),   %%ymm6              
	"   // load b_1111
    "vbroadcastsd   16(%%rbx),  %%ymm7              
	"   // load b_2222
    "vbroadcastsd   24(%%rbx),  %%ymm8              
	"   // load b_3333
    "                                               
	"
    "vfmadd132pd    %%ymm4,     %%ymm5,     %%ymm0  
	"   // Col 1
    "vfmadd132pd    %%ymm4,     %%ymm6,     %%ymm1  
	"   // Col 2
    "vfmadd132pd    %%ymm4,     %%ymm7,     %%ymm2  
	"   // Col 3
    "vfmadd132pd    %%ymm4,     %%ymm8,     %%ymm3  
	"   // Col 4
    "                                               
	"
    "addq           $32,        %%rax               
	"
    "addq           $32,        %%rbx               
	"
    "                                               
	"
    "decl           %%esi                           
	"
    "jne            .DLOOP                          
	"
    "                                               
	"
    ".DWRITEAB:                                     
	"
    "vmovapd        %%ymm0,     (%%rcx)             
	"
    "vmovapd        %%ymm1,     32(%%rcx)           
	"
    "vmovapd        %%ymm2,     64(%%rcx)           
	"
    "vmovapd        %%ymm3,     96(%%rcx)           
	"
    "                                               
	"
    : // output
    : // input
        "m" (kc), // 0
        "m" (A),  // 1
        "m" (B),  // 2
        "m" (AB) // 3
    : // clober list
        "rax", "rbx", "rcx", "esi",
        "xmm0", "xmm1", "xmm2", "xmm3", "xmm4",
        "xmm5", "xmm6", "xmm7", "xmm8", "memory"
);

Then I compile and run it, the output shows Segmentation fault (core dumped). However, the intrinsic version works well. What's wrong with my inline assembly code?

Inline assembly causes Segmentation fault (core dumped)

Answers (1)

Related Questions