arm/tcg/vec_helper.c

a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * ARM AdvSIMD / SVE Vector Operations
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * Copyright (c) 2018 Linaro
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * This library is free software; you can redistribute it and/or
a3ef070eSClaudio Fontana * modify it under the terms of the GNU Lesser General Public
a3ef070eSClaudio Fontana * License as published by the Free Software Foundation; either
a3ef070eSClaudio Fontana * version 2.1 of the License, or (at your option) any later version.
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * This library is distributed in the hope that it will be useful,
a3ef070eSClaudio Fontana * but WITHOUT ANY WARRANTY; without even the implied warranty of
a3ef070eSClaudio Fontana * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
a3ef070eSClaudio Fontana * Lesser General Public License for more details.
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * You should have received a copy of the GNU Lesser General Public
a3ef070eSClaudio Fontana * License along with this library; if not, see <http://www.gnu.org/licenses/>.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#include "qemu/osdep.h"
a3ef070eSClaudio Fontana#include "cpu.h"
a3ef070eSClaudio Fontana#include "exec/helper-proto.h"
a3ef070eSClaudio Fontana#include "tcg/tcg-gvec-desc.h"
a3ef070eSClaudio Fontana#include "fpu/softfloat.h"
a3ef070eSClaudio Fontana#include "qemu/int128.h"
8e3da4c7SRichard Henderson#include "crypto/clmul.h"
a3ef070eSClaudio Fontana#include "vec_internal.h"
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Data for expanding active predicate bits to bytes, for byte elements.
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana *  for (i = 0; i < 256; ++i) {
a3ef070eSClaudio Fontana *      unsigned long m = 0;
a3ef070eSClaudio Fontana *      for (j = 0; j < 8; j++) {
a3ef070eSClaudio Fontana *          if ((i >> j) & 1) {
a3ef070eSClaudio Fontana *              m |= 0xfful << (j << 3);
a3ef070eSClaudio Fontana *          }
a3ef070eSClaudio Fontana *      }
a3ef070eSClaudio Fontana *      printf("0x%016lx,\n", m);
a3ef070eSClaudio Fontana *  }
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanaconst uint64_t expand_pred_b_data[256] = {
a3ef070eSClaudio Fontana    0x0000000000000000, 0x00000000000000ff, 0x000000000000ff00,
a3ef070eSClaudio Fontana    0x000000000000ffff, 0x0000000000ff0000, 0x0000000000ff00ff,
a3ef070eSClaudio Fontana    0x0000000000ffff00, 0x0000000000ffffff, 0x00000000ff000000,
a3ef070eSClaudio Fontana    0x00000000ff0000ff, 0x00000000ff00ff00, 0x00000000ff00ffff,
a3ef070eSClaudio Fontana    0x00000000ffff0000, 0x00000000ffff00ff, 0x00000000ffffff00,
a3ef070eSClaudio Fontana    0x00000000ffffffff, 0x000000ff00000000, 0x000000ff000000ff,
a3ef070eSClaudio Fontana    0x000000ff0000ff00, 0x000000ff0000ffff, 0x000000ff00ff0000,
a3ef070eSClaudio Fontana    0x000000ff00ff00ff, 0x000000ff00ffff00, 0x000000ff00ffffff,
a3ef070eSClaudio Fontana    0x000000ffff000000, 0x000000ffff0000ff, 0x000000ffff00ff00,
a3ef070eSClaudio Fontana    0x000000ffff00ffff, 0x000000ffffff0000, 0x000000ffffff00ff,
a3ef070eSClaudio Fontana    0x000000ffffffff00, 0x000000ffffffffff, 0x0000ff0000000000,
a3ef070eSClaudio Fontana    0x0000ff00000000ff, 0x0000ff000000ff00, 0x0000ff000000ffff,
a3ef070eSClaudio Fontana    0x0000ff0000ff0000, 0x0000ff0000ff00ff, 0x0000ff0000ffff00,
a3ef070eSClaudio Fontana    0x0000ff0000ffffff, 0x0000ff00ff000000, 0x0000ff00ff0000ff,
a3ef070eSClaudio Fontana    0x0000ff00ff00ff00, 0x0000ff00ff00ffff, 0x0000ff00ffff0000,
a3ef070eSClaudio Fontana    0x0000ff00ffff00ff, 0x0000ff00ffffff00, 0x0000ff00ffffffff,
a3ef070eSClaudio Fontana    0x0000ffff00000000, 0x0000ffff000000ff, 0x0000ffff0000ff00,
a3ef070eSClaudio Fontana    0x0000ffff0000ffff, 0x0000ffff00ff0000, 0x0000ffff00ff00ff,
a3ef070eSClaudio Fontana    0x0000ffff00ffff00, 0x0000ffff00ffffff, 0x0000ffffff000000,
a3ef070eSClaudio Fontana    0x0000ffffff0000ff, 0x0000ffffff00ff00, 0x0000ffffff00ffff,
a3ef070eSClaudio Fontana    0x0000ffffffff0000, 0x0000ffffffff00ff, 0x0000ffffffffff00,
a3ef070eSClaudio Fontana    0x0000ffffffffffff, 0x00ff000000000000, 0x00ff0000000000ff,
a3ef070eSClaudio Fontana    0x00ff00000000ff00, 0x00ff00000000ffff, 0x00ff000000ff0000,
a3ef070eSClaudio Fontana    0x00ff000000ff00ff, 0x00ff000000ffff00, 0x00ff000000ffffff,
a3ef070eSClaudio Fontana    0x00ff0000ff000000, 0x00ff0000ff0000ff, 0x00ff0000ff00ff00,
a3ef070eSClaudio Fontana    0x00ff0000ff00ffff, 0x00ff0000ffff0000, 0x00ff0000ffff00ff,
a3ef070eSClaudio Fontana    0x00ff0000ffffff00, 0x00ff0000ffffffff, 0x00ff00ff00000000,
a3ef070eSClaudio Fontana    0x00ff00ff000000ff, 0x00ff00ff0000ff00, 0x00ff00ff0000ffff,
a3ef070eSClaudio Fontana    0x00ff00ff00ff0000, 0x00ff00ff00ff00ff, 0x00ff00ff00ffff00,
a3ef070eSClaudio Fontana    0x00ff00ff00ffffff, 0x00ff00ffff000000, 0x00ff00ffff0000ff,
a3ef070eSClaudio Fontana    0x00ff00ffff00ff00, 0x00ff00ffff00ffff, 0x00ff00ffffff0000,
a3ef070eSClaudio Fontana    0x00ff00ffffff00ff, 0x00ff00ffffffff00, 0x00ff00ffffffffff,
a3ef070eSClaudio Fontana    0x00ffff0000000000, 0x00ffff00000000ff, 0x00ffff000000ff00,
a3ef070eSClaudio Fontana    0x00ffff000000ffff, 0x00ffff0000ff0000, 0x00ffff0000ff00ff,
a3ef070eSClaudio Fontana    0x00ffff0000ffff00, 0x00ffff0000ffffff, 0x00ffff00ff000000,
a3ef070eSClaudio Fontana    0x00ffff00ff0000ff, 0x00ffff00ff00ff00, 0x00ffff00ff00ffff,
a3ef070eSClaudio Fontana    0x00ffff00ffff0000, 0x00ffff00ffff00ff, 0x00ffff00ffffff00,
a3ef070eSClaudio Fontana    0x00ffff00ffffffff, 0x00ffffff00000000, 0x00ffffff000000ff,
a3ef070eSClaudio Fontana    0x00ffffff0000ff00, 0x00ffffff0000ffff, 0x00ffffff00ff0000,
a3ef070eSClaudio Fontana    0x00ffffff00ff00ff, 0x00ffffff00ffff00, 0x00ffffff00ffffff,
a3ef070eSClaudio Fontana    0x00ffffffff000000, 0x00ffffffff0000ff, 0x00ffffffff00ff00,
a3ef070eSClaudio Fontana    0x00ffffffff00ffff, 0x00ffffffffff0000, 0x00ffffffffff00ff,
a3ef070eSClaudio Fontana    0x00ffffffffffff00, 0x00ffffffffffffff, 0xff00000000000000,
a3ef070eSClaudio Fontana    0xff000000000000ff, 0xff0000000000ff00, 0xff0000000000ffff,
a3ef070eSClaudio Fontana    0xff00000000ff0000, 0xff00000000ff00ff, 0xff00000000ffff00,
a3ef070eSClaudio Fontana    0xff00000000ffffff, 0xff000000ff000000, 0xff000000ff0000ff,
a3ef070eSClaudio Fontana    0xff000000ff00ff00, 0xff000000ff00ffff, 0xff000000ffff0000,
a3ef070eSClaudio Fontana    0xff000000ffff00ff, 0xff000000ffffff00, 0xff000000ffffffff,
a3ef070eSClaudio Fontana    0xff0000ff00000000, 0xff0000ff000000ff, 0xff0000ff0000ff00,
a3ef070eSClaudio Fontana    0xff0000ff0000ffff, 0xff0000ff00ff0000, 0xff0000ff00ff00ff,
a3ef070eSClaudio Fontana    0xff0000ff00ffff00, 0xff0000ff00ffffff, 0xff0000ffff000000,
a3ef070eSClaudio Fontana    0xff0000ffff0000ff, 0xff0000ffff00ff00, 0xff0000ffff00ffff,
a3ef070eSClaudio Fontana    0xff0000ffffff0000, 0xff0000ffffff00ff, 0xff0000ffffffff00,
a3ef070eSClaudio Fontana    0xff0000ffffffffff, 0xff00ff0000000000, 0xff00ff00000000ff,
a3ef070eSClaudio Fontana    0xff00ff000000ff00, 0xff00ff000000ffff, 0xff00ff0000ff0000,
a3ef070eSClaudio Fontana    0xff00ff0000ff00ff, 0xff00ff0000ffff00, 0xff00ff0000ffffff,
a3ef070eSClaudio Fontana    0xff00ff00ff000000, 0xff00ff00ff0000ff, 0xff00ff00ff00ff00,
a3ef070eSClaudio Fontana    0xff00ff00ff00ffff, 0xff00ff00ffff0000, 0xff00ff00ffff00ff,
a3ef070eSClaudio Fontana    0xff00ff00ffffff00, 0xff00ff00ffffffff, 0xff00ffff00000000,
a3ef070eSClaudio Fontana    0xff00ffff000000ff, 0xff00ffff0000ff00, 0xff00ffff0000ffff,
a3ef070eSClaudio Fontana    0xff00ffff00ff0000, 0xff00ffff00ff00ff, 0xff00ffff00ffff00,
a3ef070eSClaudio Fontana    0xff00ffff00ffffff, 0xff00ffffff000000, 0xff00ffffff0000ff,
a3ef070eSClaudio Fontana    0xff00ffffff00ff00, 0xff00ffffff00ffff, 0xff00ffffffff0000,
a3ef070eSClaudio Fontana    0xff00ffffffff00ff, 0xff00ffffffffff00, 0xff00ffffffffffff,
a3ef070eSClaudio Fontana    0xffff000000000000, 0xffff0000000000ff, 0xffff00000000ff00,
a3ef070eSClaudio Fontana    0xffff00000000ffff, 0xffff000000ff0000, 0xffff000000ff00ff,
a3ef070eSClaudio Fontana    0xffff000000ffff00, 0xffff000000ffffff, 0xffff0000ff000000,
a3ef070eSClaudio Fontana    0xffff0000ff0000ff, 0xffff0000ff00ff00, 0xffff0000ff00ffff,
a3ef070eSClaudio Fontana    0xffff0000ffff0000, 0xffff0000ffff00ff, 0xffff0000ffffff00,
a3ef070eSClaudio Fontana    0xffff0000ffffffff, 0xffff00ff00000000, 0xffff00ff000000ff,
a3ef070eSClaudio Fontana    0xffff00ff0000ff00, 0xffff00ff0000ffff, 0xffff00ff00ff0000,
a3ef070eSClaudio Fontana    0xffff00ff00ff00ff, 0xffff00ff00ffff00, 0xffff00ff00ffffff,
a3ef070eSClaudio Fontana    0xffff00ffff000000, 0xffff00ffff0000ff, 0xffff00ffff00ff00,
a3ef070eSClaudio Fontana    0xffff00ffff00ffff, 0xffff00ffffff0000, 0xffff00ffffff00ff,
a3ef070eSClaudio Fontana    0xffff00ffffffff00, 0xffff00ffffffffff, 0xffffff0000000000,
a3ef070eSClaudio Fontana    0xffffff00000000ff, 0xffffff000000ff00, 0xffffff000000ffff,
a3ef070eSClaudio Fontana    0xffffff0000ff0000, 0xffffff0000ff00ff, 0xffffff0000ffff00,
a3ef070eSClaudio Fontana    0xffffff0000ffffff, 0xffffff00ff000000, 0xffffff00ff0000ff,
a3ef070eSClaudio Fontana    0xffffff00ff00ff00, 0xffffff00ff00ffff, 0xffffff00ffff0000,
a3ef070eSClaudio Fontana    0xffffff00ffff00ff, 0xffffff00ffffff00, 0xffffff00ffffffff,
a3ef070eSClaudio Fontana    0xffffffff00000000, 0xffffffff000000ff, 0xffffffff0000ff00,
a3ef070eSClaudio Fontana    0xffffffff0000ffff, 0xffffffff00ff0000, 0xffffffff00ff00ff,
a3ef070eSClaudio Fontana    0xffffffff00ffff00, 0xffffffff00ffffff, 0xffffffffff000000,
a3ef070eSClaudio Fontana    0xffffffffff0000ff, 0xffffffffff00ff00, 0xffffffffff00ffff,
a3ef070eSClaudio Fontana    0xffffffffffff0000, 0xffffffffffff00ff, 0xffffffffffffff00,
a3ef070eSClaudio Fontana    0xffffffffffffffff,
a3ef070eSClaudio Fontana};
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Similarly for half-word elements.
a3ef070eSClaudio Fontana *  for (i = 0; i < 256; ++i) {
a3ef070eSClaudio Fontana *      unsigned long m = 0;
a3ef070eSClaudio Fontana *      if (i & 0xaa) {
a3ef070eSClaudio Fontana *          continue;
a3ef070eSClaudio Fontana *      }
a3ef070eSClaudio Fontana *      for (j = 0; j < 8; j += 2) {
a3ef070eSClaudio Fontana *          if ((i >> j) & 1) {
a3ef070eSClaudio Fontana *              m |= 0xfffful << (j << 3);
a3ef070eSClaudio Fontana *          }
a3ef070eSClaudio Fontana *      }
a3ef070eSClaudio Fontana *      printf("[0x%x] = 0x%016lx,\n", i, m);
a3ef070eSClaudio Fontana *  }
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanaconst uint64_t expand_pred_h_data[0x55 + 1] = {
a3ef070eSClaudio Fontana    [0x01] = 0x000000000000ffff, [0x04] = 0x00000000ffff0000,
a3ef070eSClaudio Fontana    [0x05] = 0x00000000ffffffff, [0x10] = 0x0000ffff00000000,
a3ef070eSClaudio Fontana    [0x11] = 0x0000ffff0000ffff, [0x14] = 0x0000ffffffff0000,
a3ef070eSClaudio Fontana    [0x15] = 0x0000ffffffffffff, [0x40] = 0xffff000000000000,
a3ef070eSClaudio Fontana    [0x41] = 0xffff00000000ffff, [0x44] = 0xffff0000ffff0000,
a3ef070eSClaudio Fontana    [0x45] = 0xffff0000ffffffff, [0x50] = 0xffffffff00000000,
a3ef070eSClaudio Fontana    [0x51] = 0xffffffff0000ffff, [0x54] = 0xffffffffffff0000,
a3ef070eSClaudio Fontana    [0x55] = 0xffffffffffffffff,
a3ef070eSClaudio Fontana};
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Signed saturating rounding doubling multiply-accumulate high half, 8-bit */
a3ef070eSClaudio Fontanaint8_t do_sqrdmlah_b(int8_t src1, int8_t src2, int8_t src3,
a3ef070eSClaudio Fontana                     bool neg, bool round)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    /*
a3ef070eSClaudio Fontana     * Simplify:
a3ef070eSClaudio Fontana     * = ((a3 << 8) + ((e1 * e2) << 1) + (round << 7)) >> 8
a3ef070eSClaudio Fontana     * = ((a3 << 7) + (e1 * e2) + (round << 6)) >> 7
a3ef070eSClaudio Fontana     */
a3ef070eSClaudio Fontana    int32_t ret = (int32_t)src1 * src2;
a3ef070eSClaudio Fontana    if (neg) {
a3ef070eSClaudio Fontana        ret = -ret;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    ret += ((int32_t)src3 << 7) + (round << 6);
a3ef070eSClaudio Fontana    ret >>= 7;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (ret != (int8_t)ret) {
a3ef070eSClaudio Fontana        ret = (ret < 0 ? INT8_MIN : INT8_MAX);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return ret;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlah_b)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int8_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_b(n[i], m[i], a[i], false, true);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlsh_b)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int8_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_b(n[i], m[i], a[i], true, true);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqdmulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int8_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_b(n[i], m[i], 0, false, false);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int8_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_b(n[i], m[i], 0, false, true);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Signed saturating rounding doubling multiply-accumulate high half, 16-bit */
a3ef070eSClaudio Fontanaint16_t do_sqrdmlah_h(int16_t src1, int16_t src2, int16_t src3,
a3ef070eSClaudio Fontana                      bool neg, bool round, uint32_t *sat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    /* Simplify similarly to do_sqrdmlah_b above.  */
a3ef070eSClaudio Fontana    int32_t ret = (int32_t)src1 * src2;
a3ef070eSClaudio Fontana    if (neg) {
a3ef070eSClaudio Fontana        ret = -ret;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    ret += ((int32_t)src3 << 15) + (round << 14);
a3ef070eSClaudio Fontana    ret >>= 15;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (ret != (int16_t)ret) {
a3ef070eSClaudio Fontana        *sat = 1;
a3ef070eSClaudio Fontana        ret = (ret < 0 ? INT16_MIN : INT16_MAX);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return ret;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanauint32_t HELPER(neon_qrdmlah_s16)(CPUARMState *env, uint32_t src1,
a3ef070eSClaudio Fontana                                  uint32_t src2, uint32_t src3)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uint32_t *sat = &env->vfp.qc[0];
a3ef070eSClaudio Fontana    uint16_t e1 = do_sqrdmlah_h(src1, src2, src3, false, true, sat);
a3ef070eSClaudio Fontana    uint16_t e2 = do_sqrdmlah_h(src1 >> 16, src2 >> 16, src3 >> 16,
a3ef070eSClaudio Fontana                                false, true, sat);
a3ef070eSClaudio Fontana    return deposit32(e1, 16, 16, e2);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_qrdmlah_s16)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                              void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd;
a3ef070eSClaudio Fontana    int16_t *n = vn;
a3ef070eSClaudio Fontana    int16_t *m = vm;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], d[i], false, true, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanauint32_t HELPER(neon_qrdmlsh_s16)(CPUARMState *env, uint32_t src1,
a3ef070eSClaudio Fontana                                  uint32_t src2, uint32_t src3)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uint32_t *sat = &env->vfp.qc[0];
a3ef070eSClaudio Fontana    uint16_t e1 = do_sqrdmlah_h(src1, src2, src3, true, true, sat);
a3ef070eSClaudio Fontana    uint16_t e2 = do_sqrdmlah_h(src1 >> 16, src2 >> 16, src3 >> 16,
a3ef070eSClaudio Fontana                                true, true, sat);
a3ef070eSClaudio Fontana    return deposit32(e1, 16, 16, e2);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_qrdmlsh_s16)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                              void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd;
a3ef070eSClaudio Fontana    int16_t *n = vn;
a3ef070eSClaudio Fontana    int16_t *m = vm;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], d[i], true, true, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(neon_sqdmulh_h)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                            void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, false, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(neon_sqrdmulh_h)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, true, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
f80701cbSRichard Hendersonvoid HELPER(neon_sqdmulh_idx_h)(void *vd, void *vn, void *vm,
f80701cbSRichard Henderson                                void *vq, uint32_t desc)
f80701cbSRichard Henderson{
f80701cbSRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f80701cbSRichard Henderson    int idx = simd_data(desc);
f80701cbSRichard Henderson    int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
a5b72cccSRichard Henderson    intptr_t elements = opr_sz / 2;
a5b72cccSRichard Henderson    intptr_t eltspersegment = MIN(16 / 2, elements);
f80701cbSRichard Henderson
a5b72cccSRichard Henderson    for (i = 0; i < elements; i += 16 / 2) {
f80701cbSRichard Henderson        int16_t mm = m[i];
a5b72cccSRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f80701cbSRichard Henderson            d[i + j] = do_sqrdmlah_h(n[i + j], mm, 0, false, false, vq);
f80701cbSRichard Henderson        }
f80701cbSRichard Henderson    }
f80701cbSRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f80701cbSRichard Henderson}
f80701cbSRichard Henderson
f80701cbSRichard Hendersonvoid HELPER(neon_sqrdmulh_idx_h)(void *vd, void *vn, void *vm,
f80701cbSRichard Henderson                                 void *vq, uint32_t desc)
f80701cbSRichard Henderson{
f80701cbSRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f80701cbSRichard Henderson    int idx = simd_data(desc);
f80701cbSRichard Henderson    int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
a5b72cccSRichard Henderson    intptr_t elements = opr_sz / 2;
a5b72cccSRichard Henderson    intptr_t eltspersegment = MIN(16 / 2, elements);
f80701cbSRichard Henderson
a5b72cccSRichard Henderson    for (i = 0; i < elements; i += 16 / 2) {
f80701cbSRichard Henderson        int16_t mm = m[i];
a5b72cccSRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f80701cbSRichard Henderson            d[i + j] = do_sqrdmlah_h(n[i + j], mm, 0, false, true, vq);
f80701cbSRichard Henderson        }
f80701cbSRichard Henderson    }
f80701cbSRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f80701cbSRichard Henderson}
f80701cbSRichard Henderson
f698e452SRichard Hendersonvoid HELPER(neon_sqrdmlah_idx_h)(void *vd, void *vn, void *vm,
f698e452SRichard Henderson                                 void *vq, uint32_t desc)
f698e452SRichard Henderson{
f698e452SRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f698e452SRichard Henderson    int idx = simd_data(desc);
f698e452SRichard Henderson    int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
f698e452SRichard Henderson    intptr_t elements = opr_sz / 2;
f698e452SRichard Henderson    intptr_t eltspersegment = MIN(16 / 2, elements);
f698e452SRichard Henderson
f698e452SRichard Henderson    for (i = 0; i < elements; i += 16 / 2) {
f698e452SRichard Henderson        int16_t mm = m[i];
f698e452SRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f698e452SRichard Henderson            d[i + j] = do_sqrdmlah_h(n[i + j], mm, d[i + j], false, true, vq);
f698e452SRichard Henderson        }
f698e452SRichard Henderson    }
f698e452SRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f698e452SRichard Henderson}
f698e452SRichard Henderson
f698e452SRichard Hendersonvoid HELPER(neon_sqrdmlsh_idx_h)(void *vd, void *vn, void *vm,
f698e452SRichard Henderson                                 void *vq, uint32_t desc)
f698e452SRichard Henderson{
f698e452SRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f698e452SRichard Henderson    int idx = simd_data(desc);
f698e452SRichard Henderson    int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
f698e452SRichard Henderson    intptr_t elements = opr_sz / 2;
f698e452SRichard Henderson    intptr_t eltspersegment = MIN(16 / 2, elements);
f698e452SRichard Henderson
f698e452SRichard Henderson    for (i = 0; i < elements; i += 16 / 2) {
f698e452SRichard Henderson        int16_t mm = m[i];
f698e452SRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f698e452SRichard Henderson            d[i + j] = do_sqrdmlah_h(n[i + j], mm, d[i + j], true, true, vq);
f698e452SRichard Henderson        }
f698e452SRichard Henderson    }
f698e452SRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f698e452SRichard Henderson}
f698e452SRichard Henderson
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlah_h)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], a[i], false, true, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlsh_h)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], a[i], true, true, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqdmulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, false, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, true, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqdmulh_idx_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int idx = simd_data(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; i += 16 / 2) {
a3ef070eSClaudio Fontana        int16_t mm = m[i];
a3ef070eSClaudio Fontana        for (j = 0; j < 16 / 2; ++j) {
a3ef070eSClaudio Fontana            d[i + j] = do_sqrdmlah_h(n[i + j], mm, 0, false, false, &discard);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmulh_idx_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int idx = simd_data(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; i += 16 / 2) {
a3ef070eSClaudio Fontana        int16_t mm = m[i];
a3ef070eSClaudio Fontana        for (j = 0; j < 16 / 2; ++j) {
a3ef070eSClaudio Fontana            d[i + j] = do_sqrdmlah_h(n[i + j], mm, 0, false, true, &discard);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Signed saturating rounding doubling multiply-accumulate high half, 32-bit */
a3ef070eSClaudio Fontanaint32_t do_sqrdmlah_s(int32_t src1, int32_t src2, int32_t src3,
a3ef070eSClaudio Fontana                      bool neg, bool round, uint32_t *sat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    /* Simplify similarly to do_sqrdmlah_b above.  */
a3ef070eSClaudio Fontana    int64_t ret = (int64_t)src1 * src2;
a3ef070eSClaudio Fontana    if (neg) {
a3ef070eSClaudio Fontana        ret = -ret;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    ret += ((int64_t)src3 << 31) + (round << 30);
a3ef070eSClaudio Fontana    ret >>= 31;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (ret != (int32_t)ret) {
a3ef070eSClaudio Fontana        *sat = 1;
a3ef070eSClaudio Fontana        ret = (ret < 0 ? INT32_MIN : INT32_MAX);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return ret;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanauint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
a3ef070eSClaudio Fontana                                  int32_t src2, int32_t src3)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uint32_t *sat = &env->vfp.qc[0];
a3ef070eSClaudio Fontana    return do_sqrdmlah_s(src1, src2, src3, false, true, sat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_qrdmlah_s32)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                              void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd;
a3ef070eSClaudio Fontana    int32_t *n = vn;
a3ef070eSClaudio Fontana    int32_t *m = vm;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], d[i], false, true, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanauint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
a3ef070eSClaudio Fontana                                  int32_t src2, int32_t src3)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uint32_t *sat = &env->vfp.qc[0];
a3ef070eSClaudio Fontana    return do_sqrdmlah_s(src1, src2, src3, true, true, sat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_qrdmlsh_s32)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                              void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd;
a3ef070eSClaudio Fontana    int32_t *n = vn;
a3ef070eSClaudio Fontana    int32_t *m = vm;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], d[i], true, true, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(neon_sqdmulh_s)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                            void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, false, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(neon_sqrdmulh_s)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *vq, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, true, vq);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
f80701cbSRichard Hendersonvoid HELPER(neon_sqdmulh_idx_s)(void *vd, void *vn, void *vm,
f80701cbSRichard Henderson                                void *vq, uint32_t desc)
f80701cbSRichard Henderson{
f80701cbSRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f80701cbSRichard Henderson    int idx = simd_data(desc);
f80701cbSRichard Henderson    int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
a5b72cccSRichard Henderson    intptr_t elements = opr_sz / 4;
a5b72cccSRichard Henderson    intptr_t eltspersegment = MIN(16 / 4, elements);
f80701cbSRichard Henderson
a5b72cccSRichard Henderson    for (i = 0; i < elements; i += 16 / 4) {
f80701cbSRichard Henderson        int32_t mm = m[i];
a5b72cccSRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f80701cbSRichard Henderson            d[i + j] = do_sqrdmlah_s(n[i + j], mm, 0, false, false, vq);
f80701cbSRichard Henderson        }
f80701cbSRichard Henderson    }
f80701cbSRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f80701cbSRichard Henderson}
f80701cbSRichard Henderson
f80701cbSRichard Hendersonvoid HELPER(neon_sqrdmulh_idx_s)(void *vd, void *vn, void *vm,
f80701cbSRichard Henderson                                 void *vq, uint32_t desc)
f80701cbSRichard Henderson{
f80701cbSRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f80701cbSRichard Henderson    int idx = simd_data(desc);
f80701cbSRichard Henderson    int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
a5b72cccSRichard Henderson    intptr_t elements = opr_sz / 4;
a5b72cccSRichard Henderson    intptr_t eltspersegment = MIN(16 / 4, elements);
f80701cbSRichard Henderson
a5b72cccSRichard Henderson    for (i = 0; i < elements; i += 16 / 4) {
f80701cbSRichard Henderson        int32_t mm = m[i];
a5b72cccSRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f80701cbSRichard Henderson            d[i + j] = do_sqrdmlah_s(n[i + j], mm, 0, false, true, vq);
f80701cbSRichard Henderson        }
f80701cbSRichard Henderson    }
f80701cbSRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f80701cbSRichard Henderson}
f80701cbSRichard Henderson
f698e452SRichard Hendersonvoid HELPER(neon_sqrdmlah_idx_s)(void *vd, void *vn, void *vm,
f698e452SRichard Henderson                                 void *vq, uint32_t desc)
f698e452SRichard Henderson{
f698e452SRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f698e452SRichard Henderson    int idx = simd_data(desc);
f698e452SRichard Henderson    int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
f698e452SRichard Henderson    intptr_t elements = opr_sz / 4;
f698e452SRichard Henderson    intptr_t eltspersegment = MIN(16 / 4, elements);
f698e452SRichard Henderson
f698e452SRichard Henderson    for (i = 0; i < elements; i += 16 / 4) {
f698e452SRichard Henderson        int32_t mm = m[i];
f698e452SRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f698e452SRichard Henderson            d[i + j] = do_sqrdmlah_s(n[i + j], mm, d[i + j], false, true, vq);
f698e452SRichard Henderson        }
f698e452SRichard Henderson    }
f698e452SRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f698e452SRichard Henderson}
f698e452SRichard Henderson
f698e452SRichard Hendersonvoid HELPER(neon_sqrdmlsh_idx_s)(void *vd, void *vn, void *vm,
f698e452SRichard Henderson                                 void *vq, uint32_t desc)
f698e452SRichard Henderson{
f698e452SRichard Henderson    intptr_t i, j, opr_sz = simd_oprsz(desc);
f698e452SRichard Henderson    int idx = simd_data(desc);
f698e452SRichard Henderson    int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
f698e452SRichard Henderson    intptr_t elements = opr_sz / 4;
f698e452SRichard Henderson    intptr_t eltspersegment = MIN(16 / 4, elements);
f698e452SRichard Henderson
f698e452SRichard Henderson    for (i = 0; i < elements; i += 16 / 4) {
f698e452SRichard Henderson        int32_t mm = m[i];
f698e452SRichard Henderson        for (j = 0; j < eltspersegment; ++j) {
f698e452SRichard Henderson            d[i + j] = do_sqrdmlah_s(n[i + j], mm, d[i + j], true, true, vq);
f698e452SRichard Henderson        }
f698e452SRichard Henderson    }
f698e452SRichard Henderson    clear_tail(d, opr_sz, simd_maxsz(desc));
f698e452SRichard Henderson}
f698e452SRichard Henderson
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlah_s)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], a[i], false, true, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlsh_s)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], a[i], true, true, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqdmulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, false, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, true, &discard);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqdmulh_idx_s)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int idx = simd_data(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; i += 16 / 4) {
a3ef070eSClaudio Fontana        int32_t mm = m[i];
a3ef070eSClaudio Fontana        for (j = 0; j < 16 / 4; ++j) {
a3ef070eSClaudio Fontana            d[i + j] = do_sqrdmlah_s(n[i + j], mm, 0, false, false, &discard);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmulh_idx_s)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int idx = simd_data(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
a3ef070eSClaudio Fontana    uint32_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; i += 16 / 4) {
a3ef070eSClaudio Fontana        int32_t mm = m[i];
a3ef070eSClaudio Fontana        for (j = 0; j < 16 / 4; ++j) {
a3ef070eSClaudio Fontana            d[i + j] = do_sqrdmlah_s(n[i + j], mm, 0, false, true, &discard);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Signed saturating rounding doubling multiply-accumulate high half, 64-bit */
a3ef070eSClaudio Fontanastatic int64_t do_sat128_d(Int128 r)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    int64_t ls = int128_getlo(r);
a3ef070eSClaudio Fontana    int64_t hs = int128_gethi(r);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (unlikely(hs != (ls >> 63))) {
a3ef070eSClaudio Fontana        return hs < 0 ? INT64_MIN : INT64_MAX;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return ls;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanaint64_t do_sqrdmlah_d(int64_t n, int64_t m, int64_t a, bool neg, bool round)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uint64_t l, h;
a3ef070eSClaudio Fontana    Int128 r, t;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* As in do_sqrdmlah_b, but with 128-bit arithmetic. */
a3ef070eSClaudio Fontana    muls64(&l, &h, m, n);
a3ef070eSClaudio Fontana    r = int128_make128(l, h);
a3ef070eSClaudio Fontana    if (neg) {
a3ef070eSClaudio Fontana        r = int128_neg(r);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    if (a) {
a3ef070eSClaudio Fontana        t = int128_exts64(a);
a3ef070eSClaudio Fontana        t = int128_lshift(t, 63);
a3ef070eSClaudio Fontana        r = int128_add(r, t);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    if (round) {
a3ef070eSClaudio Fontana        t = int128_exts64(1ll << 62);
a3ef070eSClaudio Fontana        r = int128_add(r, t);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    r = int128_rshift(r, 63);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    return do_sat128_d(r);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlah_d)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_d(n[i], m[i], a[i], false, true);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmlsh_d)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                             void *va, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_d(n[i], m[i], a[i], true, true);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqdmulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_d(n[i], m[i], 0, false, false);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
a3ef070eSClaudio Fontana        d[i] = do_sqrdmlah_d(n[i], m[i], 0, false, true);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqdmulh_idx_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int idx = simd_data(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = (int64_t *)vm + idx;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; i += 16 / 8) {
a3ef070eSClaudio Fontana        int64_t mm = m[i];
a3ef070eSClaudio Fontana        for (j = 0; j < 16 / 8; ++j) {
a3ef070eSClaudio Fontana            d[i + j] = do_sqrdmlah_d(n[i + j], mm, 0, false, false);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_sqrdmulh_idx_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int idx = simd_data(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = (int64_t *)vm + idx;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; i += 16 / 8) {
a3ef070eSClaudio Fontana        int64_t mm = m[i];
a3ef070eSClaudio Fontana        for (j = 0; j < 16 / 8; ++j) {
a3ef070eSClaudio Fontana            d[i + j] = do_sqrdmlah_d(n[i + j], mm, 0, false, true);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Integer 8 and 16-bit dot-product.
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * Note that for the loops herein, host endianness does not matter
a3ef070eSClaudio Fontana * with respect to the ordering of data within the quad-width lanes.
a3ef070eSClaudio Fontana * All elements are treated equally, no matter where they are.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_DOT(NAME, TYPED, TYPEN, TYPEM) \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)  \
a3ef070eSClaudio Fontana{                                                                         \
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);                                \
a3ef070eSClaudio Fontana    TYPED *d = vd, *a = va;                                               \
a3ef070eSClaudio Fontana    TYPEN *n = vn;                                                        \
a3ef070eSClaudio Fontana    TYPEM *m = vm;                                                        \
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / sizeof(TYPED); ++i) {                        \
a3ef070eSClaudio Fontana        d[i] = (a[i] +                                                    \
a3ef070eSClaudio Fontana                (TYPED)n[i * 4 + 0] * m[i * 4 + 0] +                      \
a3ef070eSClaudio Fontana                (TYPED)n[i * 4 + 1] * m[i * 4 + 1] +                      \
a3ef070eSClaudio Fontana                (TYPED)n[i * 4 + 2] * m[i * 4 + 2] +                      \
a3ef070eSClaudio Fontana                (TYPED)n[i * 4 + 3] * m[i * 4 + 3]);                      \
a3ef070eSClaudio Fontana    }                                                                     \
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));                              \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_DOT(gvec_sdot_b, int32_t, int8_t, int8_t)
a3ef070eSClaudio FontanaDO_DOT(gvec_udot_b, uint32_t, uint8_t, uint8_t)
a3ef070eSClaudio FontanaDO_DOT(gvec_usdot_b, uint32_t, uint8_t, int8_t)
a3ef070eSClaudio FontanaDO_DOT(gvec_sdot_h, int64_t, int16_t, int16_t)
a3ef070eSClaudio FontanaDO_DOT(gvec_udot_h, uint64_t, uint16_t, uint16_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_DOT_IDX(NAME, TYPED, TYPEN, TYPEM, HD) \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)  \
a3ef070eSClaudio Fontana{                                                                         \
a3ef070eSClaudio Fontana    intptr_t i = 0, opr_sz = simd_oprsz(desc);                            \
a3ef070eSClaudio Fontana    intptr_t opr_sz_n = opr_sz / sizeof(TYPED);                           \
*5e29203bSPeter Maydell    /*                                                                    \
*5e29203bSPeter Maydell     * Special case: opr_sz == 8 from AA64/AA32 advsimd means the         \
*5e29203bSPeter Maydell     * first iteration might not be a full 16 byte segment. But           \
*5e29203bSPeter Maydell     * for vector lengths beyond that this must be SVE and we know        \
*5e29203bSPeter Maydell     * opr_sz is a multiple of 16, so we need not clamp segend            \
*5e29203bSPeter Maydell     * to opr_sz_n when we advance it at the end of the loop.             \
*5e29203bSPeter Maydell     */                                                                   \
a3ef070eSClaudio Fontana    intptr_t segend = MIN(16 / sizeof(TYPED), opr_sz_n);                  \
a3ef070eSClaudio Fontana    intptr_t index = simd_data(desc);                                     \
a3ef070eSClaudio Fontana    TYPED *d = vd, *a = va;                                               \
a3ef070eSClaudio Fontana    TYPEN *n = vn;                                                        \
a3ef070eSClaudio Fontana    TYPEM *m_indexed = (TYPEM *)vm + HD(index) * 4;                       \
a3ef070eSClaudio Fontana    do {                                                                  \
a3ef070eSClaudio Fontana        TYPED m0 = m_indexed[i * 4 + 0];                                  \
a3ef070eSClaudio Fontana        TYPED m1 = m_indexed[i * 4 + 1];                                  \
a3ef070eSClaudio Fontana        TYPED m2 = m_indexed[i * 4 + 2];                                  \
a3ef070eSClaudio Fontana        TYPED m3 = m_indexed[i * 4 + 3];                                  \
a3ef070eSClaudio Fontana        do {                                                              \
a3ef070eSClaudio Fontana            d[i] = (a[i] +                                                \
a3ef070eSClaudio Fontana                    n[i * 4 + 0] * m0 +                                   \
a3ef070eSClaudio Fontana                    n[i * 4 + 1] * m1 +                                   \
a3ef070eSClaudio Fontana                    n[i * 4 + 2] * m2 +                                   \
a3ef070eSClaudio Fontana                    n[i * 4 + 3] * m3);                                   \
a3ef070eSClaudio Fontana        } while (++i < segend);                                           \
*5e29203bSPeter Maydell        segend = i + (16 / sizeof(TYPED));                                \
a3ef070eSClaudio Fontana    } while (i < opr_sz_n);                                               \
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));                              \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_DOT_IDX(gvec_sdot_idx_b, int32_t, int8_t, int8_t, H4)
a3ef070eSClaudio FontanaDO_DOT_IDX(gvec_udot_idx_b, uint32_t, uint8_t, uint8_t, H4)
a3ef070eSClaudio FontanaDO_DOT_IDX(gvec_sudot_idx_b, int32_t, int8_t, uint8_t, H4)
a3ef070eSClaudio FontanaDO_DOT_IDX(gvec_usdot_idx_b, int32_t, uint8_t, int8_t, H4)
a3ef070eSClaudio FontanaDO_DOT_IDX(gvec_sdot_idx_h, int64_t, int16_t, int16_t, H8)
a3ef070eSClaudio FontanaDO_DOT_IDX(gvec_udot_idx_h, uint64_t, uint16_t, uint16_t, H8)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcaddh)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                         void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float16 *d = vd;
a3ef070eSClaudio Fontana    float16 *n = vn;
a3ef070eSClaudio Fontana    float16 *m = vm;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint32_t neg_imag = neg_real ^ 1;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 15;
a3ef070eSClaudio Fontana    neg_imag <<= 15;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; i += 2) {
a3ef070eSClaudio Fontana        float16 e0 = n[H2(i)];
a3ef070eSClaudio Fontana        float16 e1 = m[H2(i + 1)] ^ neg_imag;
a3ef070eSClaudio Fontana        float16 e2 = n[H2(i + 1)];
a3ef070eSClaudio Fontana        float16 e3 = m[H2(i)] ^ neg_real;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        d[H2(i)] = float16_add(e0, e1, fpst);
a3ef070eSClaudio Fontana        d[H2(i + 1)] = float16_add(e2, e3, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcadds)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                         void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float32 *d = vd;
a3ef070eSClaudio Fontana    float32 *n = vn;
a3ef070eSClaudio Fontana    float32 *m = vm;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint32_t neg_imag = neg_real ^ 1;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 31;
a3ef070eSClaudio Fontana    neg_imag <<= 31;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; i += 2) {
a3ef070eSClaudio Fontana        float32 e0 = n[H4(i)];
a3ef070eSClaudio Fontana        float32 e1 = m[H4(i + 1)] ^ neg_imag;
a3ef070eSClaudio Fontana        float32 e2 = n[H4(i + 1)];
a3ef070eSClaudio Fontana        float32 e3 = m[H4(i)] ^ neg_real;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        d[H4(i)] = float32_add(e0, e1, fpst);
a3ef070eSClaudio Fontana        d[H4(i + 1)] = float32_add(e2, e3, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcaddd)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                         void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float64 *d = vd;
a3ef070eSClaudio Fontana    float64 *n = vn;
a3ef070eSClaudio Fontana    float64 *m = vm;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    uint64_t neg_real = extract64(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint64_t neg_imag = neg_real ^ 1;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 63;
a3ef070eSClaudio Fontana    neg_imag <<= 63;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; i += 2) {
a3ef070eSClaudio Fontana        float64 e0 = n[i];
a3ef070eSClaudio Fontana        float64 e1 = m[i + 1] ^ neg_imag;
a3ef070eSClaudio Fontana        float64 e2 = n[i + 1];
a3ef070eSClaudio Fontana        float64 e3 = m[i] ^ neg_real;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        d[i] = float64_add(e0, e1, fpst);
a3ef070eSClaudio Fontana        d[i + 1] = float64_add(e2, e3, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcmlah)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                         void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float16 *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
a3ef070eSClaudio Fontana    uint32_t neg_real = flip ^ neg_imag;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 15;
a3ef070eSClaudio Fontana    neg_imag <<= 15;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; i += 2) {
a3ef070eSClaudio Fontana        float16 e2 = n[H2(i + flip)];
a3ef070eSClaudio Fontana        float16 e1 = m[H2(i + flip)] ^ neg_real;
a3ef070eSClaudio Fontana        float16 e4 = e2;
a3ef070eSClaudio Fontana        float16 e3 = m[H2(i + 1 - flip)] ^ neg_imag;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        d[H2(i)] = float16_muladd(e2, e1, a[H2(i)], 0, fpst);
a3ef070eSClaudio Fontana        d[H2(i + 1)] = float16_muladd(e4, e3, a[H2(i + 1)], 0, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcmlah_idx)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                             void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float16 *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
a3ef070eSClaudio Fontana    intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
a3ef070eSClaudio Fontana    uint32_t neg_real = flip ^ neg_imag;
a3ef070eSClaudio Fontana    intptr_t elements = opr_sz / sizeof(float16);
76bccf3cSRichard Henderson    intptr_t eltspersegment = MIN(16 / sizeof(float16), elements);
a3ef070eSClaudio Fontana    intptr_t i, j;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 15;
a3ef070eSClaudio Fontana    neg_imag <<= 15;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < elements; i += eltspersegment) {
a3ef070eSClaudio Fontana        float16 mr = m[H2(i + 2 * index + 0)];
a3ef070eSClaudio Fontana        float16 mi = m[H2(i + 2 * index + 1)];
a3ef070eSClaudio Fontana        float16 e1 = neg_real ^ (flip ? mi : mr);
a3ef070eSClaudio Fontana        float16 e3 = neg_imag ^ (flip ? mr : mi);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        for (j = i; j < i + eltspersegment; j += 2) {
a3ef070eSClaudio Fontana            float16 e2 = n[H2(j + flip)];
a3ef070eSClaudio Fontana            float16 e4 = e2;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana            d[H2(j)] = float16_muladd(e2, e1, a[H2(j)], 0, fpst);
a3ef070eSClaudio Fontana            d[H2(j + 1)] = float16_muladd(e4, e3, a[H2(j + 1)], 0, fpst);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcmlas)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                         void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float32 *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
a3ef070eSClaudio Fontana    uint32_t neg_real = flip ^ neg_imag;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 31;
a3ef070eSClaudio Fontana    neg_imag <<= 31;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; i += 2) {
a3ef070eSClaudio Fontana        float32 e2 = n[H4(i + flip)];
a3ef070eSClaudio Fontana        float32 e1 = m[H4(i + flip)] ^ neg_real;
a3ef070eSClaudio Fontana        float32 e4 = e2;
a3ef070eSClaudio Fontana        float32 e3 = m[H4(i + 1 - flip)] ^ neg_imag;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        d[H4(i)] = float32_muladd(e2, e1, a[H4(i)], 0, fpst);
a3ef070eSClaudio Fontana        d[H4(i + 1)] = float32_muladd(e4, e3, a[H4(i + 1)], 0, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcmlas_idx)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                             void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float32 *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
a3ef070eSClaudio Fontana    intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
a3ef070eSClaudio Fontana    uint32_t neg_real = flip ^ neg_imag;
a3ef070eSClaudio Fontana    intptr_t elements = opr_sz / sizeof(float32);
76bccf3cSRichard Henderson    intptr_t eltspersegment = MIN(16 / sizeof(float32), elements);
a3ef070eSClaudio Fontana    intptr_t i, j;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 31;
a3ef070eSClaudio Fontana    neg_imag <<= 31;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < elements; i += eltspersegment) {
a3ef070eSClaudio Fontana        float32 mr = m[H4(i + 2 * index + 0)];
a3ef070eSClaudio Fontana        float32 mi = m[H4(i + 2 * index + 1)];
a3ef070eSClaudio Fontana        float32 e1 = neg_real ^ (flip ? mi : mr);
a3ef070eSClaudio Fontana        float32 e3 = neg_imag ^ (flip ? mr : mi);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        for (j = i; j < i + eltspersegment; j += 2) {
a3ef070eSClaudio Fontana            float32 e2 = n[H4(j + flip)];
a3ef070eSClaudio Fontana            float32 e4 = e2;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana            d[H4(j)] = float32_muladd(e2, e1, a[H4(j)], 0, fpst);
a3ef070eSClaudio Fontana            d[H4(j + 1)] = float32_muladd(e4, e3, a[H4(j + 1)], 0, fpst);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fcmlad)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                         void *vfpst, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uintptr_t opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float64 *d = vd, *n = vn, *m = vm, *a = va;
a3ef070eSClaudio Fontana    float_status *fpst = vfpst;
a3ef070eSClaudio Fontana    intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    uint64_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
a3ef070eSClaudio Fontana    uint64_t neg_real = flip ^ neg_imag;
a3ef070eSClaudio Fontana    uintptr_t i;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Shift boolean to the sign bit so we can xor to negate.  */
a3ef070eSClaudio Fontana    neg_real <<= 63;
a3ef070eSClaudio Fontana    neg_imag <<= 63;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; i += 2) {
a3ef070eSClaudio Fontana        float64 e2 = n[i + flip];
a3ef070eSClaudio Fontana        float64 e1 = m[i + flip] ^ neg_real;
a3ef070eSClaudio Fontana        float64 e4 = e2;
a3ef070eSClaudio Fontana        float64 e3 = m[i + 1 - flip] ^ neg_imag;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        d[i] = float64_muladd(e2, e1, a[i], 0, fpst);
a3ef070eSClaudio Fontana        d[i + 1] = float64_muladd(e4, e3, a[i + 1], 0, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Floating point comparisons producing an integer result (all 1s or all 0s).
a3ef070eSClaudio Fontana * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
a3ef070eSClaudio Fontana * Softfloat routines return 0/1, which we convert to the 0/-1 Neon requires.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanastatic uint16_t float16_ceq(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float16_eq_quiet(op1, op2, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float32_eq_quiet(op1, op2, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
4fe068faSRichard Hendersonstatic uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
4fe068faSRichard Henderson{
4fe068faSRichard Henderson    return -float64_eq_quiet(op1, op2, stat);
4fe068faSRichard Henderson}
4fe068faSRichard Henderson
a3ef070eSClaudio Fontanastatic uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float16_le(op2, op1, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float32_le(op2, op1, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
4fe068faSRichard Hendersonstatic uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
4fe068faSRichard Henderson{
4fe068faSRichard Henderson    return -float64_le(op2, op1, stat);
4fe068faSRichard Henderson}
4fe068faSRichard Henderson
a3ef070eSClaudio Fontanastatic uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float16_lt(op2, op1, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float32_lt(op2, op1, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
4fe068faSRichard Hendersonstatic uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
4fe068faSRichard Henderson{
4fe068faSRichard Henderson    return -float64_lt(op2, op1, stat);
4fe068faSRichard Henderson}
4fe068faSRichard Henderson
a3ef070eSClaudio Fontanastatic uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float16_le(float16_abs(op2), float16_abs(op1), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float32_le(float32_abs(op2), float32_abs(op1), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
4fe068faSRichard Hendersonstatic uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
4fe068faSRichard Henderson{
4fe068faSRichard Henderson    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
4fe068faSRichard Henderson}
4fe068faSRichard Henderson
a3ef070eSClaudio Fontanastatic uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
4fe068faSRichard Hendersonstatic uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
4fe068faSRichard Henderson{
4fe068faSRichard Henderson    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
4fe068faSRichard Henderson}
4fe068faSRichard Henderson
a3ef070eSClaudio Fontanastatic int16_t vfp_tosszh(float16 x, void *fpstp)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    float_status *fpst = fpstp;
a3ef070eSClaudio Fontana    if (float16_is_any_nan(x)) {
a3ef070eSClaudio Fontana        float_raise(float_flag_invalid, fpst);
a3ef070eSClaudio Fontana        return 0;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return float16_to_int16_round_to_zero(x, fpst);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint16_t vfp_touszh(float16 x, void *fpstp)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    float_status *fpst = fpstp;
a3ef070eSClaudio Fontana    if (float16_is_any_nan(x)) {
a3ef070eSClaudio Fontana        float_raise(float_flag_invalid, fpst);
a3ef070eSClaudio Fontana        return 0;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return float16_to_uint16_round_to_zero(x, fpst);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_2OP(NAME, FUNC, TYPE) \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
a3ef070eSClaudio Fontana{                                                                 \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);                         \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn;                                        \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {                  \
a3ef070eSClaudio Fontana        d[i] = FUNC(n[i], stat);                                  \
a3ef070eSClaudio Fontana    }                                                             \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                       \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_2OP(gvec_frecpe_h, helper_recpe_f16, float16)
a3ef070eSClaudio FontanaDO_2OP(gvec_frecpe_s, helper_recpe_f32, float32)
a3ef070eSClaudio FontanaDO_2OP(gvec_frecpe_d, helper_recpe_f64, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
a3ef070eSClaudio FontanaDO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
a3ef070eSClaudio FontanaDO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_2OP(gvec_vrintx_h, float16_round_to_int, float16)
a3ef070eSClaudio FontanaDO_2OP(gvec_vrintx_s, float32_round_to_int, float32)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_2OP(gvec_sitos, helper_vfp_sitos, int32_t)
a3ef070eSClaudio FontanaDO_2OP(gvec_uitos, helper_vfp_uitos, uint32_t)
a3ef070eSClaudio FontanaDO_2OP(gvec_tosizs, helper_vfp_tosizs, float32)
a3ef070eSClaudio FontanaDO_2OP(gvec_touizs, helper_vfp_touizs, float32)
a3ef070eSClaudio FontanaDO_2OP(gvec_sstoh, int16_to_float16, int16_t)
a3ef070eSClaudio FontanaDO_2OP(gvec_ustoh, uint16_to_float16, uint16_t)
a3ef070eSClaudio FontanaDO_2OP(gvec_tosszh, vfp_tosszh, float16)
a3ef070eSClaudio FontanaDO_2OP(gvec_touszh, vfp_touszh, float16)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define WRAP_CMP0_FWD(FN, CMPOP, TYPE)                          \
a3ef070eSClaudio Fontana    static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)     \
a3ef070eSClaudio Fontana    {                                                           \
a3ef070eSClaudio Fontana        return TYPE##_##CMPOP(op, TYPE##_zero, stat);           \
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define WRAP_CMP0_REV(FN, CMPOP, TYPE)                          \
a3ef070eSClaudio Fontana    static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)    \
a3ef070eSClaudio Fontana    {                                                           \
a3ef070eSClaudio Fontana        return TYPE##_##CMPOP(TYPE##_zero, op, stat);           \
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_2OP_CMP0(FN, CMPOP, DIRN)                    \
a3ef070eSClaudio Fontana    WRAP_CMP0_##DIRN(FN, CMPOP, float16)                \
a3ef070eSClaudio Fontana    WRAP_CMP0_##DIRN(FN, CMPOP, float32)                \
a3ef070eSClaudio Fontana    DO_2OP(gvec_f##FN##0_h, float16_##FN##0, float16)   \
a3ef070eSClaudio Fontana    DO_2OP(gvec_f##FN##0_s, float32_##FN##0, float32)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_2OP_CMP0(cgt, cgt, FWD)
a3ef070eSClaudio FontanaDO_2OP_CMP0(cge, cge, FWD)
a3ef070eSClaudio FontanaDO_2OP_CMP0(ceq, ceq, FWD)
a3ef070eSClaudio FontanaDO_2OP_CMP0(clt, cgt, REV)
a3ef070eSClaudio FontanaDO_2OP_CMP0(cle, cge, REV)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_2OP
a3ef070eSClaudio Fontana#undef DO_2OP_CMP0
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Floating-point trigonometric starting value.
a3ef070eSClaudio Fontana * See the ARM ARM pseudocode function FPTrigSMul.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanastatic float16 float16_ftsmul(float16 op1, uint16_t op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    float16 result = float16_mul(op1, op1, stat);
a3ef070eSClaudio Fontana    if (!float16_is_any_nan(result)) {
a3ef070eSClaudio Fontana        result = float16_set_sign(result, op2 & 1);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return result;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_ftsmul(float32 op1, uint32_t op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    float32 result = float32_mul(op1, op1, stat);
a3ef070eSClaudio Fontana    if (!float32_is_any_nan(result)) {
a3ef070eSClaudio Fontana        result = float32_set_sign(result, op2 & 1);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return result;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float64 float64_ftsmul(float64 op1, uint64_t op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    float64 result = float64_mul(op1, op1, stat);
a3ef070eSClaudio Fontana    if (!float64_is_any_nan(result)) {
a3ef070eSClaudio Fontana        result = float64_set_sign(result, op2 & 1);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return result;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float16 float16_abd(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float16_abs(float16_sub(op1, op2, stat));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_abd(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float32_abs(float32_sub(op1, op2, stat));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
43454734SRichard Hendersonstatic float64 float64_abd(float64 op1, float64 op2, float_status *stat)
43454734SRichard Henderson{
43454734SRichard Henderson    return float64_abs(float64_sub(op1, op2, stat));
43454734SRichard Henderson}
43454734SRichard Henderson
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Reciprocal step. These are the AArch32 version which uses a
a3ef070eSClaudio Fontana * non-fused multiply-and-subtract.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanastatic float16 float16_recps_nf(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    op1 = float16_squash_input_denormal(op1, stat);
a3ef070eSClaudio Fontana    op2 = float16_squash_input_denormal(op2, stat);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
a3ef070eSClaudio Fontana        (float16_is_infinity(op2) && float16_is_zero(op1))) {
a3ef070eSClaudio Fontana        return float16_two;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return float16_sub(float16_two, float16_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_recps_nf(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    op1 = float32_squash_input_denormal(op1, stat);
a3ef070eSClaudio Fontana    op2 = float32_squash_input_denormal(op2, stat);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
a3ef070eSClaudio Fontana        (float32_is_infinity(op2) && float32_is_zero(op1))) {
a3ef070eSClaudio Fontana        return float32_two;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return float32_sub(float32_two, float32_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Reciprocal square-root step. AArch32 non-fused semantics. */
a3ef070eSClaudio Fontanastatic float16 float16_rsqrts_nf(float16 op1, float16 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    op1 = float16_squash_input_denormal(op1, stat);
a3ef070eSClaudio Fontana    op2 = float16_squash_input_denormal(op2, stat);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
a3ef070eSClaudio Fontana        (float16_is_infinity(op2) && float16_is_zero(op1))) {
a3ef070eSClaudio Fontana        return float16_one_point_five;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    op1 = float16_sub(float16_three, float16_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana    return float16_div(op1, float16_two, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_rsqrts_nf(float32 op1, float32 op2, float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    op1 = float32_squash_input_denormal(op1, stat);
a3ef070eSClaudio Fontana    op2 = float32_squash_input_denormal(op2, stat);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
a3ef070eSClaudio Fontana        (float32_is_infinity(op2) && float32_is_zero(op1))) {
a3ef070eSClaudio Fontana        return float32_one_point_five;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    op1 = float32_sub(float32_three, float32_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana    return float32_div(op1, float32_two, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_3OP(NAME, FUNC, TYPE) \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
a3ef070eSClaudio Fontana{                                                                          \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);                                  \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm;                                        \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {                           \
a3ef070eSClaudio Fontana        d[i] = FUNC(n[i], m[i], stat);                                     \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                                \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fadd_h, float16_add, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fadd_s, float32_add, float32)
a3ef070eSClaudio FontanaDO_3OP(gvec_fadd_d, float64_add, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fsub_h, float16_sub, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fsub_s, float32_sub, float32)
a3ef070eSClaudio FontanaDO_3OP(gvec_fsub_d, float64_sub, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fmul_h, float16_mul, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fmul_s, float32_mul, float32)
a3ef070eSClaudio FontanaDO_3OP(gvec_fmul_d, float64_mul, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_ftsmul_h, float16_ftsmul, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_ftsmul_s, float32_ftsmul, float32)
a3ef070eSClaudio FontanaDO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fabd_h, float16_abd, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fabd_s, float32_abd, float32)
43454734SRichard HendersonDO_3OP(gvec_fabd_d, float64_abd, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fceq_h, float16_ceq, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fceq_s, float32_ceq, float32)
4fe068faSRichard HendersonDO_3OP(gvec_fceq_d, float64_ceq, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fcge_h, float16_cge, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fcge_s, float32_cge, float32)
4fe068faSRichard HendersonDO_3OP(gvec_fcge_d, float64_cge, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fcgt_h, float16_cgt, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fcgt_s, float32_cgt, float32)
4fe068faSRichard HendersonDO_3OP(gvec_fcgt_d, float64_cgt, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_facge_h, float16_acge, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_facge_s, float32_acge, float32)
4fe068faSRichard HendersonDO_3OP(gvec_facge_d, float64_acge, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_facgt_h, float16_acgt, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_facgt_s, float32_acgt, float32)
4fe068faSRichard HendersonDO_3OP(gvec_facgt_d, float64_acgt, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fmax_h, float16_max, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fmax_s, float32_max, float32)
a1e250fcSRichard HendersonDO_3OP(gvec_fmax_d, float64_max, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fmin_h, float16_min, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fmin_s, float32_min, float32)
a1e250fcSRichard HendersonDO_3OP(gvec_fmin_d, float64_min, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
a1e250fcSRichard HendersonDO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_fminnum_h, float16_minnum, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_fminnum_s, float32_minnum, float32)
a1e250fcSRichard HendersonDO_3OP(gvec_fminnum_d, float64_minnum, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#ifdef TARGET_AARCH64
e0300a9aSRichard HendersonDO_3OP(gvec_fdiv_h, float16_div, float16)
e0300a9aSRichard HendersonDO_3OP(gvec_fdiv_s, float32_div, float32)
e0300a9aSRichard HendersonDO_3OP(gvec_fdiv_d, float64_div, float64)
e0300a9aSRichard Henderson
cb1c77feSRichard HendersonDO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
cb1c77feSRichard HendersonDO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
cb1c77feSRichard HendersonDO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
a3ef070eSClaudio FontanaDO_3OP(gvec_recps_d, helper_recpsf_f64, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_3OP(gvec_rsqrts_h, helper_rsqrtsf_f16, float16)
a3ef070eSClaudio FontanaDO_3OP(gvec_rsqrts_s, helper_rsqrtsf_f32, float32)
a3ef070eSClaudio FontanaDO_3OP(gvec_rsqrts_d, helper_rsqrtsf_f64, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#endif
a3ef070eSClaudio Fontana#undef DO_3OP
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Non-fused multiply-add (unlike float16_muladd etc, which are fused) */
a3ef070eSClaudio Fontanastatic float16 float16_muladd_nf(float16 dest, float16 op1, float16 op2,
a3ef070eSClaudio Fontana                                 float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float16_add(dest, float16_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_muladd_nf(float32 dest, float32 op1, float32 op2,
a3ef070eSClaudio Fontana                                 float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float32_add(dest, float32_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float16 float16_mulsub_nf(float16 dest, float16 op1, float16 op2,
a3ef070eSClaudio Fontana                                 float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float16_sub(dest, float16_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_mulsub_nf(float32 dest, float32 op1, float32 op2,
a3ef070eSClaudio Fontana                                 float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float32_sub(dest, float32_mul(op1, op2, stat), stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* Fused versions; these have the semantics Neon VFMA/VFMS want */
a3ef070eSClaudio Fontanastatic float16 float16_muladd_f(float16 dest, float16 op1, float16 op2,
a3ef070eSClaudio Fontana                                float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float16_muladd(op1, op2, dest, 0, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
a3ef070eSClaudio Fontana                                 float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float32_muladd(op1, op2, dest, 0, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
2d558efbSRichard Hendersonstatic float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
2d558efbSRichard Henderson                                 float_status *stat)
2d558efbSRichard Henderson{
2d558efbSRichard Henderson    return float64_muladd(op1, op2, dest, 0, stat);
2d558efbSRichard Henderson}
2d558efbSRichard Henderson
a3ef070eSClaudio Fontanastatic float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
a3ef070eSClaudio Fontana                                 float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float16_muladd(float16_chs(op1), op2, dest, 0, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
a3ef070eSClaudio Fontana                                 float_status *stat)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
2d558efbSRichard Hendersonstatic float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
2d558efbSRichard Henderson                                 float_status *stat)
2d558efbSRichard Henderson{
2d558efbSRichard Henderson    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
2d558efbSRichard Henderson}
2d558efbSRichard Henderson
a3ef070eSClaudio Fontana#define DO_MULADD(NAME, FUNC, TYPE)                                     \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
a3ef070eSClaudio Fontana{                                                                          \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);                                  \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm;                                        \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {                           \
a3ef070eSClaudio Fontana        d[i] = FUNC(d[i], n[i], m[i], stat);                               \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                                \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MULADD(gvec_fmla_h, float16_muladd_nf, float16)
a3ef070eSClaudio FontanaDO_MULADD(gvec_fmla_s, float32_muladd_nf, float32)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MULADD(gvec_fmls_h, float16_mulsub_nf, float16)
a3ef070eSClaudio FontanaDO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
a3ef070eSClaudio FontanaDO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
2d558efbSRichard HendersonDO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
a3ef070eSClaudio FontanaDO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
2d558efbSRichard HendersonDO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/* For the indexed ops, SVE applies the index per 128-bit vector segment.
a3ef070eSClaudio Fontana * For AdvSIMD, there is of course only one such vector segment.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_MUL_IDX(NAME, TYPE, H) \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc) \
a3ef070eSClaudio Fontana{                                                                          \
a3ef070eSClaudio Fontana    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
a3ef070eSClaudio Fontana    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
a3ef070eSClaudio Fontana    intptr_t idx = simd_data(desc);                                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm;                                        \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
a3ef070eSClaudio Fontana        TYPE mm = m[H(i + idx)];                                           \
a3ef070eSClaudio Fontana        for (j = 0; j < segment; j++) {                                    \
a3ef070eSClaudio Fontana            d[i + j] = n[i + j] * mm;                                      \
a3ef070eSClaudio Fontana        }                                                                  \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                                \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MUL_IDX(gvec_mul_idx_h, uint16_t, H2)
a3ef070eSClaudio FontanaDO_MUL_IDX(gvec_mul_idx_s, uint32_t, H4)
a3ef070eSClaudio FontanaDO_MUL_IDX(gvec_mul_idx_d, uint64_t, H8)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_MUL_IDX
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_MLA_IDX(NAME, TYPE, OP, H) \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)   \
a3ef070eSClaudio Fontana{                                                                          \
a3ef070eSClaudio Fontana    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
a3ef070eSClaudio Fontana    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
a3ef070eSClaudio Fontana    intptr_t idx = simd_data(desc);                                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
a3ef070eSClaudio Fontana        TYPE mm = m[H(i + idx)];                                           \
a3ef070eSClaudio Fontana        for (j = 0; j < segment; j++) {                                    \
a3ef070eSClaudio Fontana            d[i + j] = a[i + j] OP n[i + j] * mm;                          \
a3ef070eSClaudio Fontana        }                                                                  \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                                \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MLA_IDX(gvec_mla_idx_h, uint16_t, +, H2)
a3ef070eSClaudio FontanaDO_MLA_IDX(gvec_mla_idx_s, uint32_t, +, H4)
a3ef070eSClaudio FontanaDO_MLA_IDX(gvec_mla_idx_d, uint64_t, +, H8)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MLA_IDX(gvec_mls_idx_h, uint16_t, -, H2)
a3ef070eSClaudio FontanaDO_MLA_IDX(gvec_mls_idx_s, uint32_t, -, H4)
a3ef070eSClaudio FontanaDO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_MLA_IDX
a3ef070eSClaudio Fontana
cb1c77feSRichard Henderson#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
a3ef070eSClaudio Fontana{                                                                          \
a3ef070eSClaudio Fontana    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
a3ef070eSClaudio Fontana    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
a3ef070eSClaudio Fontana    intptr_t idx = simd_data(desc);                                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm;                                        \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
a3ef070eSClaudio Fontana        TYPE mm = m[H(i + idx)];                                           \
a3ef070eSClaudio Fontana        for (j = 0; j < segment; j++) {                                    \
cb1c77feSRichard Henderson            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
a3ef070eSClaudio Fontana        }                                                                  \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                                \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
cb1c77feSRichard Henderson#define nop(N, M, S) (M)
a3ef070eSClaudio Fontana
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
cb1c77feSRichard Henderson
cb1c77feSRichard Henderson#ifdef TARGET_AARCH64
cb1c77feSRichard Henderson
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
cb1c77feSRichard Henderson
cb1c77feSRichard Henderson#endif
cb1c77feSRichard Henderson
cb1c77feSRichard Henderson#undef nop
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Non-fused multiply-accumulate operations, for Neon. NB that unlike
a3ef070eSClaudio Fontana * the fused ops below they assume accumulate both from and into Vd.
a3ef070eSClaudio Fontana */
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
cb1c77feSRichard HendersonDO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_FMUL_IDX
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_FMLA_IDX(NAME, TYPE, H)                                         \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
a3ef070eSClaudio Fontana                  void *stat, uint32_t desc)                               \
a3ef070eSClaudio Fontana{                                                                          \
a3ef070eSClaudio Fontana    intptr_t i, j, oprsz = simd_oprsz(desc);                               \
a3ef070eSClaudio Fontana    intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
a3ef070eSClaudio Fontana    TYPE op1_neg = extract32(desc, SIMD_DATA_SHIFT, 1);                    \
a3ef070eSClaudio Fontana    intptr_t idx = desc >> (SIMD_DATA_SHIFT + 1);                          \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
a3ef070eSClaudio Fontana    op1_neg <<= (8 * sizeof(TYPE) - 1);                                    \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
a3ef070eSClaudio Fontana        TYPE mm = m[H(i + idx)];                                           \
a3ef070eSClaudio Fontana        for (j = 0; j < segment; j++) {                                    \
a3ef070eSClaudio Fontana            d[i + j] = TYPE##_muladd(n[i + j] ^ op1_neg,                   \
a3ef070eSClaudio Fontana                                     mm, a[i + j], 0, stat);               \
a3ef070eSClaudio Fontana        }                                                                  \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                                \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_FMLA_IDX(gvec_fmla_idx_h, float16, H2)
a3ef070eSClaudio FontanaDO_FMLA_IDX(gvec_fmla_idx_s, float32, H4)
a3ef070eSClaudio FontanaDO_FMLA_IDX(gvec_fmla_idx_d, float64, H8)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_FMLA_IDX
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_SAT(NAME, WTYPE, TYPEN, TYPEM, OP, MIN, MAX) \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vq, void *vn, void *vm, uint32_t desc)   \
a3ef070eSClaudio Fontana{                                                                          \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);                                  \
a3ef070eSClaudio Fontana    TYPEN *d = vd, *n = vn; TYPEM *m = vm;                                 \
a3ef070eSClaudio Fontana    bool q = false;                                                        \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPEN); i++) {                          \
a3ef070eSClaudio Fontana        WTYPE dd = (WTYPE)n[i] OP m[i];                                    \
a3ef070eSClaudio Fontana        if (dd < MIN) {                                                    \
a3ef070eSClaudio Fontana            dd = MIN;                                                      \
a3ef070eSClaudio Fontana            q = true;                                                      \
a3ef070eSClaudio Fontana        } else if (dd > MAX) {                                             \
a3ef070eSClaudio Fontana            dd = MAX;                                                      \
a3ef070eSClaudio Fontana            q = true;                                                      \
a3ef070eSClaudio Fontana        }                                                                  \
a3ef070eSClaudio Fontana        d[i] = dd;                                                         \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    if (q) {                                                               \
a3ef070eSClaudio Fontana        uint32_t *qc = vq;                                                 \
a3ef070eSClaudio Fontana        qc[0] = 1;                                                         \
a3ef070eSClaudio Fontana    }                                                                      \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));                                \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SAT(gvec_uqadd_b, int, uint8_t, uint8_t, +, 0, UINT8_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_uqadd_h, int, uint16_t, uint16_t, +, 0, UINT16_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_uqadd_s, int64_t, uint32_t, uint32_t, +, 0, UINT32_MAX)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SAT(gvec_sqadd_b, int, int8_t, int8_t, +, INT8_MIN, INT8_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_sqadd_h, int, int16_t, int16_t, +, INT16_MIN, INT16_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_sqadd_s, int64_t, int32_t, int32_t, +, INT32_MIN, INT32_MAX)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SAT(gvec_uqsub_b, int, uint8_t, uint8_t, -, 0, UINT8_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_uqsub_h, int, uint16_t, uint16_t, -, 0, UINT16_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_uqsub_s, int64_t, uint32_t, uint32_t, -, 0, UINT32_MAX)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SAT(gvec_sqsub_b, int, int8_t, int8_t, -, INT8_MIN, INT8_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_sqsub_h, int, int16_t, int16_t, -, INT16_MIN, INT16_MAX)
a3ef070eSClaudio FontanaDO_SAT(gvec_sqsub_s, int64_t, int32_t, int32_t, -, INT32_MIN, INT32_MAX)
a3ef070eSClaudio Fontana
8f6343aeSRichard HendersonDO_SAT(gvec_usqadd_b, int, uint8_t, int8_t, +, 0, UINT8_MAX)
8f6343aeSRichard HendersonDO_SAT(gvec_usqadd_h, int, uint16_t, int16_t, +, 0, UINT16_MAX)
8f6343aeSRichard HendersonDO_SAT(gvec_usqadd_s, int64_t, uint32_t, int32_t, +, 0, UINT32_MAX)
8f6343aeSRichard Henderson
8f6343aeSRichard HendersonDO_SAT(gvec_suqadd_b, int, int8_t, uint8_t, +, INT8_MIN, INT8_MAX)
8f6343aeSRichard HendersonDO_SAT(gvec_suqadd_h, int, int16_t, uint16_t, +, INT16_MIN, INT16_MAX)
8f6343aeSRichard HendersonDO_SAT(gvec_suqadd_s, int64_t, int32_t, uint32_t, +, INT32_MIN, INT32_MAX)
8f6343aeSRichard Henderson
a3ef070eSClaudio Fontana#undef DO_SAT
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_uqadd_d)(void *vd, void *vq, void *vn,
a3ef070eSClaudio Fontana                          void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    bool q = false;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / 8; i++) {
a3ef070eSClaudio Fontana        uint64_t nn = n[i], mm = m[i], dd = nn + mm;
a3ef070eSClaudio Fontana        if (dd < nn) {
a3ef070eSClaudio Fontana            dd = UINT64_MAX;
a3ef070eSClaudio Fontana            q = true;
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = dd;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    if (q) {
a3ef070eSClaudio Fontana        uint32_t *qc = vq;
a3ef070eSClaudio Fontana        qc[0] = 1;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_uqsub_d)(void *vd, void *vq, void *vn,
a3ef070eSClaudio Fontana                          void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    bool q = false;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / 8; i++) {
a3ef070eSClaudio Fontana        uint64_t nn = n[i], mm = m[i], dd = nn - mm;
a3ef070eSClaudio Fontana        if (nn < mm) {
a3ef070eSClaudio Fontana            dd = 0;
a3ef070eSClaudio Fontana            q = true;
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = dd;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    if (q) {
a3ef070eSClaudio Fontana        uint32_t *qc = vq;
a3ef070eSClaudio Fontana        qc[0] = 1;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_sqadd_d)(void *vd, void *vq, void *vn,
a3ef070eSClaudio Fontana                          void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    bool q = false;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / 8; i++) {
a3ef070eSClaudio Fontana        int64_t nn = n[i], mm = m[i], dd = nn + mm;
a3ef070eSClaudio Fontana        if (((dd ^ nn) & ~(nn ^ mm)) & INT64_MIN) {
a3ef070eSClaudio Fontana            dd = (nn >> 63) ^ ~INT64_MIN;
a3ef070eSClaudio Fontana            q = true;
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = dd;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    if (q) {
a3ef070eSClaudio Fontana        uint32_t *qc = vq;
a3ef070eSClaudio Fontana        qc[0] = 1;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_sqsub_d)(void *vd, void *vq, void *vn,
a3ef070eSClaudio Fontana                          void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    bool q = false;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / 8; i++) {
a3ef070eSClaudio Fontana        int64_t nn = n[i], mm = m[i], dd = nn - mm;
a3ef070eSClaudio Fontana        if (((dd ^ nn) & (nn ^ mm)) & INT64_MIN) {
a3ef070eSClaudio Fontana            dd = (nn >> 63) ^ ~INT64_MIN;
a3ef070eSClaudio Fontana            q = true;
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = dd;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    if (q) {
a3ef070eSClaudio Fontana        uint32_t *qc = vq;
a3ef070eSClaudio Fontana        qc[0] = 1;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
8f6343aeSRichard Hendersonvoid HELPER(gvec_usqadd_d)(void *vd, void *vq, void *vn,
8f6343aeSRichard Henderson                           void *vm, uint32_t desc)
8f6343aeSRichard Henderson{
8f6343aeSRichard Henderson    intptr_t i, oprsz = simd_oprsz(desc);
8f6343aeSRichard Henderson    uint64_t *d = vd, *n = vn, *m = vm;
8f6343aeSRichard Henderson    bool q = false;
8f6343aeSRichard Henderson
8f6343aeSRichard Henderson    for (i = 0; i < oprsz / 8; i++) {
8f6343aeSRichard Henderson        uint64_t nn = n[i];
8f6343aeSRichard Henderson        int64_t mm = m[i];
8f6343aeSRichard Henderson        uint64_t dd = nn + mm;
8f6343aeSRichard Henderson
8f6343aeSRichard Henderson        if (mm < 0) {
8f6343aeSRichard Henderson            if (nn < (uint64_t)-mm) {
8f6343aeSRichard Henderson                dd = 0;
8f6343aeSRichard Henderson                q = true;
8f6343aeSRichard Henderson            }
8f6343aeSRichard Henderson        } else {
8f6343aeSRichard Henderson            if (dd < nn) {
8f6343aeSRichard Henderson                dd = UINT64_MAX;
8f6343aeSRichard Henderson                q = true;
8f6343aeSRichard Henderson            }
8f6343aeSRichard Henderson        }
8f6343aeSRichard Henderson        d[i] = dd;
8f6343aeSRichard Henderson    }
8f6343aeSRichard Henderson    if (q) {
8f6343aeSRichard Henderson        uint32_t *qc = vq;
8f6343aeSRichard Henderson        qc[0] = 1;
8f6343aeSRichard Henderson    }
8f6343aeSRichard Henderson    clear_tail(d, oprsz, simd_maxsz(desc));
8f6343aeSRichard Henderson}
8f6343aeSRichard Henderson
8f6343aeSRichard Hendersonvoid HELPER(gvec_suqadd_d)(void *vd, void *vq, void *vn,
8f6343aeSRichard Henderson                           void *vm, uint32_t desc)
8f6343aeSRichard Henderson{
8f6343aeSRichard Henderson    intptr_t i, oprsz = simd_oprsz(desc);
8f6343aeSRichard Henderson    uint64_t *d = vd, *n = vn, *m = vm;
8f6343aeSRichard Henderson    bool q = false;
8f6343aeSRichard Henderson
8f6343aeSRichard Henderson    for (i = 0; i < oprsz / 8; i++) {
8f6343aeSRichard Henderson        int64_t nn = n[i];
8f6343aeSRichard Henderson        uint64_t mm = m[i];
8f6343aeSRichard Henderson        int64_t dd = nn + mm;
8f6343aeSRichard Henderson
8f6343aeSRichard Henderson        if (mm > (uint64_t)(INT64_MAX - nn)) {
8f6343aeSRichard Henderson            dd = INT64_MAX;
8f6343aeSRichard Henderson            q = true;
8f6343aeSRichard Henderson        }
8f6343aeSRichard Henderson        d[i] = dd;
8f6343aeSRichard Henderson    }
8f6343aeSRichard Henderson    if (q) {
8f6343aeSRichard Henderson        uint32_t *qc = vq;
8f6343aeSRichard Henderson        qc[0] = 1;
8f6343aeSRichard Henderson    }
8f6343aeSRichard Henderson    clear_tail(d, oprsz, simd_maxsz(desc));
8f6343aeSRichard Henderson}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_SRA(NAME, TYPE)                              \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
a3ef070eSClaudio Fontana{                                                       \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);               \
a3ef070eSClaudio Fontana    int shift = simd_data(desc);                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn;                              \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
a3ef070eSClaudio Fontana        d[i] += n[i] >> shift;                          \
a3ef070eSClaudio Fontana    }                                                   \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));             \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SRA(gvec_ssra_b, int8_t)
a3ef070eSClaudio FontanaDO_SRA(gvec_ssra_h, int16_t)
a3ef070eSClaudio FontanaDO_SRA(gvec_ssra_s, int32_t)
a3ef070eSClaudio FontanaDO_SRA(gvec_ssra_d, int64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SRA(gvec_usra_b, uint8_t)
a3ef070eSClaudio FontanaDO_SRA(gvec_usra_h, uint16_t)
a3ef070eSClaudio FontanaDO_SRA(gvec_usra_s, uint32_t)
a3ef070eSClaudio FontanaDO_SRA(gvec_usra_d, uint64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_SRA
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_RSHR(NAME, TYPE)                             \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
a3ef070eSClaudio Fontana{                                                       \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);               \
a3ef070eSClaudio Fontana    int shift = simd_data(desc);                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn;                              \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
a3ef070eSClaudio Fontana        TYPE tmp = n[i] >> (shift - 1);                 \
a3ef070eSClaudio Fontana        d[i] = (tmp >> 1) + (tmp & 1);                  \
a3ef070eSClaudio Fontana    }                                                   \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));             \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_RSHR(gvec_srshr_b, int8_t)
a3ef070eSClaudio FontanaDO_RSHR(gvec_srshr_h, int16_t)
a3ef070eSClaudio FontanaDO_RSHR(gvec_srshr_s, int32_t)
a3ef070eSClaudio FontanaDO_RSHR(gvec_srshr_d, int64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_RSHR(gvec_urshr_b, uint8_t)
a3ef070eSClaudio FontanaDO_RSHR(gvec_urshr_h, uint16_t)
a3ef070eSClaudio FontanaDO_RSHR(gvec_urshr_s, uint32_t)
a3ef070eSClaudio FontanaDO_RSHR(gvec_urshr_d, uint64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_RSHR
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_RSRA(NAME, TYPE)                             \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
a3ef070eSClaudio Fontana{                                                       \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);               \
a3ef070eSClaudio Fontana    int shift = simd_data(desc);                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn;                              \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
a3ef070eSClaudio Fontana        TYPE tmp = n[i] >> (shift - 1);                 \
a3ef070eSClaudio Fontana        d[i] += (tmp >> 1) + (tmp & 1);                 \
a3ef070eSClaudio Fontana    }                                                   \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));             \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_RSRA(gvec_srsra_b, int8_t)
a3ef070eSClaudio FontanaDO_RSRA(gvec_srsra_h, int16_t)
a3ef070eSClaudio FontanaDO_RSRA(gvec_srsra_s, int32_t)
a3ef070eSClaudio FontanaDO_RSRA(gvec_srsra_d, int64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_RSRA(gvec_ursra_b, uint8_t)
a3ef070eSClaudio FontanaDO_RSRA(gvec_ursra_h, uint16_t)
a3ef070eSClaudio FontanaDO_RSRA(gvec_ursra_s, uint32_t)
a3ef070eSClaudio FontanaDO_RSRA(gvec_ursra_d, uint64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_RSRA
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_SRI(NAME, TYPE)                              \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
a3ef070eSClaudio Fontana{                                                       \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);               \
a3ef070eSClaudio Fontana    int shift = simd_data(desc);                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn;                              \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
a3ef070eSClaudio Fontana        d[i] = deposit64(d[i], 0, sizeof(TYPE) * 8 - shift, n[i] >> shift); \
a3ef070eSClaudio Fontana    }                                                   \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));             \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SRI(gvec_sri_b, uint8_t)
a3ef070eSClaudio FontanaDO_SRI(gvec_sri_h, uint16_t)
a3ef070eSClaudio FontanaDO_SRI(gvec_sri_s, uint32_t)
a3ef070eSClaudio FontanaDO_SRI(gvec_sri_d, uint64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_SRI
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_SLI(NAME, TYPE)                              \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
a3ef070eSClaudio Fontana{                                                       \
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);               \
a3ef070eSClaudio Fontana    int shift = simd_data(desc);                        \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn;                              \
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
a3ef070eSClaudio Fontana        d[i] = deposit64(d[i], shift, sizeof(TYPE) * 8 - shift, n[i]); \
a3ef070eSClaudio Fontana    }                                                   \
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));             \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_SLI(gvec_sli_b, uint8_t)
a3ef070eSClaudio FontanaDO_SLI(gvec_sli_h, uint16_t)
a3ef070eSClaudio FontanaDO_SLI(gvec_sli_s, uint32_t)
a3ef070eSClaudio FontanaDO_SLI(gvec_sli_d, uint64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_SLI
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Convert float16 to float32, raising no exceptions and
a3ef070eSClaudio Fontana * preserving exceptional values, including SNaN.
a3ef070eSClaudio Fontana * This is effectively an unpack+repack operation.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanastatic float32 float16_to_float32_by_bits(uint32_t f16, bool fz16)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    const int f16_bias = 15;
a3ef070eSClaudio Fontana    const int f32_bias = 127;
a3ef070eSClaudio Fontana    uint32_t sign = extract32(f16, 15, 1);
a3ef070eSClaudio Fontana    uint32_t exp = extract32(f16, 10, 5);
a3ef070eSClaudio Fontana    uint32_t frac = extract32(f16, 0, 10);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (exp == 0x1f) {
a3ef070eSClaudio Fontana        /* Inf or NaN */
a3ef070eSClaudio Fontana        exp = 0xff;
a3ef070eSClaudio Fontana    } else if (exp == 0) {
a3ef070eSClaudio Fontana        /* Zero or denormal.  */
a3ef070eSClaudio Fontana        if (frac != 0) {
a3ef070eSClaudio Fontana            if (fz16) {
a3ef070eSClaudio Fontana                frac = 0;
a3ef070eSClaudio Fontana            } else {
a3ef070eSClaudio Fontana                /*
a3ef070eSClaudio Fontana                 * Denormal; these are all normal float32.
a3ef070eSClaudio Fontana                 * Shift the fraction so that the msb is at bit 11,
a3ef070eSClaudio Fontana                 * then remove bit 11 as the implicit bit of the
a3ef070eSClaudio Fontana                 * normalized float32.  Note that we still go through
a3ef070eSClaudio Fontana                 * the shift for normal numbers below, to put the
a3ef070eSClaudio Fontana                 * float32 fraction at the right place.
a3ef070eSClaudio Fontana                 */
a3ef070eSClaudio Fontana                int shift = clz32(frac) - 21;
a3ef070eSClaudio Fontana                frac = (frac << shift) & 0x3ff;
a3ef070eSClaudio Fontana                exp = f32_bias - f16_bias - shift + 1;
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    } else {
a3ef070eSClaudio Fontana        /* Normal number; adjust the bias.  */
a3ef070eSClaudio Fontana        exp += f32_bias - f16_bias;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    sign <<= 31;
a3ef070eSClaudio Fontana    exp <<= 23;
a3ef070eSClaudio Fontana    frac <<= 23 - 10;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    return sign | exp | frac;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint64_t load4_f16(uint64_t *ptr, int is_q, int is_2)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    /*
a3ef070eSClaudio Fontana     * Branchless load of u32[0], u64[0], u32[1], or u64[1].
a3ef070eSClaudio Fontana     * Load the 2nd qword iff is_q & is_2.
a3ef070eSClaudio Fontana     * Shift to the 2nd dword iff !is_q & is_2.
a3ef070eSClaudio Fontana     * For !is_q & !is_2, the upper bits of the result are garbage.
a3ef070eSClaudio Fontana     */
a3ef070eSClaudio Fontana    return ptr[is_q & is_2] >> ((is_2 & ~is_q) << 5);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Note that FMLAL requires oprsz == 8 or oprsz == 16,
a3ef070eSClaudio Fontana * as there is not yet SVE versions that might use blocking.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic void do_fmlal(float32 *d, void *vn, void *vm, float_status *fpst,
a3ef070eSClaudio Fontana                     uint32_t desc, bool fz16)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int is_s = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    int is_2 = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
a3ef070eSClaudio Fontana    int is_q = oprsz == 16;
a3ef070eSClaudio Fontana    uint64_t n_4, m_4;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Pre-load all of the f16 data, avoiding overlap issues.  */
a3ef070eSClaudio Fontana    n_4 = load4_f16(vn, is_q, is_2);
a3ef070eSClaudio Fontana    m_4 = load4_f16(vm, is_q, is_2);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Negate all inputs for FMLSL at once.  */
a3ef070eSClaudio Fontana    if (is_s) {
a3ef070eSClaudio Fontana        n_4 ^= 0x8000800080008000ull;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / 4; i++) {
a3ef070eSClaudio Fontana        float32 n_1 = float16_to_float32_by_bits(n_4 >> (i * 16), fz16);
a3ef070eSClaudio Fontana        float32 m_1 = float16_to_float32_by_bits(m_4 >> (i * 16), fz16);
a3ef070eSClaudio Fontana        d[H4(i)] = float32_muladd(n_1, m_1, d[H4(i)], 0, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fmlal_a32)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                            void *venv, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    CPUARMState *env = venv;
a3ef070eSClaudio Fontana    do_fmlal(vd, vn, vm, &env->vfp.standard_fp_status, desc,
a3ef070eSClaudio Fontana             get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fmlal_a64)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                            void *venv, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    CPUARMState *env = venv;
a3ef070eSClaudio Fontana    do_fmlal(vd, vn, vm, &env->vfp.fp_status, desc,
a3ef070eSClaudio Fontana             get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_fmlal_zzzw_s)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                               void *venv, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint16_t negn = extract32(desc, SIMD_DATA_SHIFT, 1) << 15;
a3ef070eSClaudio Fontana    intptr_t sel = extract32(desc, SIMD_DATA_SHIFT + 1, 1) * sizeof(float16);
a3ef070eSClaudio Fontana    CPUARMState *env = venv;
a3ef070eSClaudio Fontana    float_status *status = &env->vfp.fp_status;
a3ef070eSClaudio Fontana    bool fz16 = get_flush_inputs_to_zero(&env->vfp.fp_status_f16);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz; i += sizeof(float32)) {
a3ef070eSClaudio Fontana        float16 nn_16 = *(float16 *)(vn + H1_2(i + sel)) ^ negn;
a3ef070eSClaudio Fontana        float16 mm_16 = *(float16 *)(vm + H1_2(i + sel));
a3ef070eSClaudio Fontana        float32 nn = float16_to_float32_by_bits(nn_16, fz16);
a3ef070eSClaudio Fontana        float32 mm = float16_to_float32_by_bits(mm_16, fz16);
a3ef070eSClaudio Fontana        float32 aa = *(float32 *)(va + H1_4(i));
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        *(float32 *)(vd + H1_4(i)) = float32_muladd(nn, mm, aa, 0, status);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic void do_fmlal_idx(float32 *d, void *vn, void *vm, float_status *fpst,
a3ef070eSClaudio Fontana                         uint32_t desc, bool fz16)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int is_s = extract32(desc, SIMD_DATA_SHIFT, 1);
a3ef070eSClaudio Fontana    int is_2 = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
a3ef070eSClaudio Fontana    int index = extract32(desc, SIMD_DATA_SHIFT + 2, 3);
a3ef070eSClaudio Fontana    int is_q = oprsz == 16;
a3ef070eSClaudio Fontana    uint64_t n_4;
a3ef070eSClaudio Fontana    float32 m_1;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Pre-load all of the f16 data, avoiding overlap issues.  */
a3ef070eSClaudio Fontana    n_4 = load4_f16(vn, is_q, is_2);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* Negate all inputs for FMLSL at once.  */
a3ef070eSClaudio Fontana    if (is_s) {
a3ef070eSClaudio Fontana        n_4 ^= 0x8000800080008000ull;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    m_1 = float16_to_float32_by_bits(((float16 *)vm)[H2(index)], fz16);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz / 4; i++) {
a3ef070eSClaudio Fontana        float32 n_1 = float16_to_float32_by_bits(n_4 >> (i * 16), fz16);
a3ef070eSClaudio Fontana        d[H4(i)] = float32_muladd(n_1, m_1, d[H4(i)], 0, fpst);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, oprsz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fmlal_idx_a32)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                                void *venv, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    CPUARMState *env = venv;
a3ef070eSClaudio Fontana    do_fmlal_idx(vd, vn, vm, &env->vfp.standard_fp_status, desc,
a3ef070eSClaudio Fontana                 get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_fmlal_idx_a64)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                                void *venv, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    CPUARMState *env = venv;
a3ef070eSClaudio Fontana    do_fmlal_idx(vd, vn, vm, &env->vfp.fp_status, desc,
a3ef070eSClaudio Fontana                 get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_fmlal_zzxw_s)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                               void *venv, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint16_t negn = extract32(desc, SIMD_DATA_SHIFT, 1) << 15;
a3ef070eSClaudio Fontana    intptr_t sel = extract32(desc, SIMD_DATA_SHIFT + 1, 1) * sizeof(float16);
a3ef070eSClaudio Fontana    intptr_t idx = extract32(desc, SIMD_DATA_SHIFT + 2, 3) * sizeof(float16);
a3ef070eSClaudio Fontana    CPUARMState *env = venv;
a3ef070eSClaudio Fontana    float_status *status = &env->vfp.fp_status;
a3ef070eSClaudio Fontana    bool fz16 = get_flush_inputs_to_zero(&env->vfp.fp_status_f16);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < oprsz; i += 16) {
a3ef070eSClaudio Fontana        float16 mm_16 = *(float16 *)(vm + i + idx);
a3ef070eSClaudio Fontana        float32 mm = float16_to_float32_by_bits(mm_16, fz16);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        for (j = 0; j < 16; j += sizeof(float32)) {
a3ef070eSClaudio Fontana            float16 nn_16 = *(float16 *)(vn + H1_2(i + j + sel)) ^ negn;
a3ef070eSClaudio Fontana            float32 nn = float16_to_float32_by_bits(nn_16, fz16);
a3ef070eSClaudio Fontana            float32 aa = *(float32 *)(va + H1_4(i + j));
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana            *(float32 *)(vd + H1_4(i + j)) =
a3ef070eSClaudio Fontana                float32_muladd(nn, mm, aa, 0, status);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_sshl_b)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int8_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        int8_t mm = m[i];
a3ef070eSClaudio Fontana        int8_t nn = n[i];
a3ef070eSClaudio Fontana        int8_t res = 0;
a3ef070eSClaudio Fontana        if (mm >= 0) {
a3ef070eSClaudio Fontana            if (mm < 8) {
a3ef070eSClaudio Fontana                res = nn << mm;
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        } else {
a3ef070eSClaudio Fontana            res = nn >> (mm > -8 ? -mm : 7);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = res;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_sshl_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        int8_t mm = m[i];   /* only 8 bits of shift are significant */
a3ef070eSClaudio Fontana        int16_t nn = n[i];
a3ef070eSClaudio Fontana        int16_t res = 0;
a3ef070eSClaudio Fontana        if (mm >= 0) {
a3ef070eSClaudio Fontana            if (mm < 16) {
a3ef070eSClaudio Fontana                res = nn << mm;
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        } else {
a3ef070eSClaudio Fontana            res = nn >> (mm > -16 ? -mm : 15);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = res;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_ushl_b)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint8_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        int8_t mm = m[i];
a3ef070eSClaudio Fontana        uint8_t nn = n[i];
a3ef070eSClaudio Fontana        uint8_t res = 0;
a3ef070eSClaudio Fontana        if (mm >= 0) {
a3ef070eSClaudio Fontana            if (mm < 8) {
a3ef070eSClaudio Fontana                res = nn << mm;
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        } else {
a3ef070eSClaudio Fontana            if (mm > -8) {
a3ef070eSClaudio Fontana                res = nn >> -mm;
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = res;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_ushl_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        int8_t mm = m[i];   /* only 8 bits of shift are significant */
a3ef070eSClaudio Fontana        uint16_t nn = n[i];
a3ef070eSClaudio Fontana        uint16_t res = 0;
a3ef070eSClaudio Fontana        if (mm >= 0) {
a3ef070eSClaudio Fontana            if (mm < 16) {
a3ef070eSClaudio Fontana                res = nn << mm;
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        } else {
a3ef070eSClaudio Fontana            if (mm > -16) {
a3ef070eSClaudio Fontana                res = nn >> -mm;
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana        d[i] = res;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * 8x8->8 polynomial multiply.
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * Polynomial multiplication is like integer multiplication except the
a3ef070eSClaudio Fontana * partial products are XORed, not added.
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * TODO: expose this as a generic vector operation, as it is a common
a3ef070eSClaudio Fontana * crypto building block.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanavoid HELPER(gvec_pmul_b)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
8e3da4c7SRichard Henderson    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
8e3da4c7SRichard Henderson        d[i] = clmul_8x8_low(n[i], m[i]);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * 64x64->128 polynomial multiply.
a3ef070eSClaudio Fontana * Because of the lanes are not accessed in strict columns,
a3ef070eSClaudio Fontana * this probably cannot be turned into a generic helper.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontanavoid HELPER(gvec_pmull_q)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a50cfdf0SRichard Henderson    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    intptr_t hi = simd_data(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; i += 2) {
a50cfdf0SRichard Henderson        Int128 r = clmul_64(n[i + hi], m[i + hi]);
a50cfdf0SRichard Henderson        d[i] = int128_getlo(r);
a50cfdf0SRichard Henderson        d[i + 1] = int128_gethi(r);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(neon_pmull_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    int hi = simd_data(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint64_t nn = n[hi], mm = m[hi];
a3ef070eSClaudio Fontana
8e3da4c7SRichard Henderson    d[0] = clmul_8x4_packed(nn, mm);
a3ef070eSClaudio Fontana    nn >>= 32;
a3ef070eSClaudio Fontana    mm >>= 32;
8e3da4c7SRichard Henderson    d[1] = clmul_8x4_packed(nn, mm);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    clear_tail(d, 16, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#ifdef TARGET_AARCH64
a3ef070eSClaudio Fontanavoid HELPER(sve2_pmull_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    int shift = simd_data(desc) * 8;
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
8e3da4c7SRichard Henderson        d[i] = clmul_8x4_even(n[i] >> shift, m[i] >> shift);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(sve2_pmull_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t sel = H4(simd_data(desc));
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint32_t *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint64_t *d = vd;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
bae25f64SRichard Henderson        d[i] = clmul_32(n[2 * i + sel], m[2 * i + sel]);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana#endif
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_CMP0(NAME, TYPE, OP)                         \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
a3ef070eSClaudio Fontana{                                                       \
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);              \
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; i += sizeof(TYPE)) {        \
a3ef070eSClaudio Fontana        TYPE nn = *(TYPE *)(vn + i);                    \
a3ef070eSClaudio Fontana        *(TYPE *)(vd + i) = -(nn OP 0);                 \
a3ef070eSClaudio Fontana    }                                                   \
a3ef070eSClaudio Fontana    clear_tail(vd, opr_sz, simd_maxsz(desc));           \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_CMP0(gvec_ceq0_b, int8_t, ==)
a3ef070eSClaudio FontanaDO_CMP0(gvec_clt0_b, int8_t, <)
a3ef070eSClaudio FontanaDO_CMP0(gvec_cle0_b, int8_t, <=)
a3ef070eSClaudio FontanaDO_CMP0(gvec_cgt0_b, int8_t, >)
a3ef070eSClaudio FontanaDO_CMP0(gvec_cge0_b, int8_t, >=)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_CMP0(gvec_ceq0_h, int16_t, ==)
a3ef070eSClaudio FontanaDO_CMP0(gvec_clt0_h, int16_t, <)
a3ef070eSClaudio FontanaDO_CMP0(gvec_cle0_h, int16_t, <=)
a3ef070eSClaudio FontanaDO_CMP0(gvec_cgt0_h, int16_t, >)
a3ef070eSClaudio FontanaDO_CMP0(gvec_cge0_h, int16_t, >=)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_CMP0
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_ABD(NAME, TYPE)                                      \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
a3ef070eSClaudio Fontana{                                                               \
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);                      \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm;                             \
a3ef070eSClaudio Fontana                                                                \
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
a3ef070eSClaudio Fontana        d[i] = n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];         \
a3ef070eSClaudio Fontana    }                                                           \
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_ABD(gvec_sabd_b, int8_t)
a3ef070eSClaudio FontanaDO_ABD(gvec_sabd_h, int16_t)
a3ef070eSClaudio FontanaDO_ABD(gvec_sabd_s, int32_t)
a3ef070eSClaudio FontanaDO_ABD(gvec_sabd_d, int64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_ABD(gvec_uabd_b, uint8_t)
a3ef070eSClaudio FontanaDO_ABD(gvec_uabd_h, uint16_t)
a3ef070eSClaudio FontanaDO_ABD(gvec_uabd_s, uint32_t)
a3ef070eSClaudio FontanaDO_ABD(gvec_uabd_d, uint64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_ABD
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_ABA(NAME, TYPE)                                      \
a3ef070eSClaudio Fontanavoid HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
a3ef070eSClaudio Fontana{                                                               \
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);                      \
a3ef070eSClaudio Fontana    TYPE *d = vd, *n = vn, *m = vm;                             \
a3ef070eSClaudio Fontana                                                                \
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
a3ef070eSClaudio Fontana        d[i] += n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];        \
a3ef070eSClaudio Fontana    }                                                           \
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_ABA(gvec_saba_b, int8_t)
a3ef070eSClaudio FontanaDO_ABA(gvec_saba_h, int16_t)
a3ef070eSClaudio FontanaDO_ABA(gvec_saba_s, int32_t)
a3ef070eSClaudio FontanaDO_ABA(gvec_saba_d, int64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_ABA(gvec_uaba_b, uint8_t)
a3ef070eSClaudio FontanaDO_ABA(gvec_uaba_h, uint16_t)
a3ef070eSClaudio FontanaDO_ABA(gvec_uaba_s, uint32_t)
a3ef070eSClaudio FontanaDO_ABA(gvec_uaba_d, uint64_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_ABA
a3ef070eSClaudio Fontana
57801ca0SRichard Henderson#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
57801ca0SRichard Hendersonvoid HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
57801ca0SRichard Henderson{                                                                          \
57801ca0SRichard Henderson    ARMVectorReg scratch;                                                  \
57801ca0SRichard Henderson    intptr_t oprsz = simd_oprsz(desc);                                     \
57801ca0SRichard Henderson    intptr_t half = oprsz / sizeof(TYPE) / 2;                              \
57801ca0SRichard Henderson    TYPE *d = vd, *n = vn, *m = vm;                                        \
57801ca0SRichard Henderson    if (unlikely(d == m)) {                                                \
57801ca0SRichard Henderson        m = memcpy(&scratch, m, oprsz);                                    \
57801ca0SRichard Henderson    }                                                                      \
57801ca0SRichard Henderson    for (intptr_t i = 0; i < half; ++i) {                                  \
57801ca0SRichard Henderson        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)], stat);                \
57801ca0SRichard Henderson    }                                                                      \
57801ca0SRichard Henderson    for (intptr_t i = 0; i < half; ++i) {                                  \
57801ca0SRichard Henderson        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)], stat);         \
57801ca0SRichard Henderson    }                                                                      \
57801ca0SRichard Henderson    clear_tail(d, oprsz, simd_maxsz(desc));                                \
57801ca0SRichard Henderson}
57801ca0SRichard Henderson
57801ca0SRichard HendersonDO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
57801ca0SRichard HendersonDO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
57801ca0SRichard HendersonDO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
57801ca0SRichard Henderson
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
a13f9fb5SRichard Henderson
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
a13f9fb5SRichard Henderson
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
a13f9fb5SRichard Henderson
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
a13f9fb5SRichard HendersonDO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
a13f9fb5SRichard Henderson
a7e4eec6SRichard Henderson#undef DO_3OP_PAIR
a7e4eec6SRichard Henderson
a7e4eec6SRichard Henderson#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
a7e4eec6SRichard Hendersonvoid HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
a7e4eec6SRichard Henderson{                                                               \
a7e4eec6SRichard Henderson    ARMVectorReg scratch;                                       \
a7e4eec6SRichard Henderson    intptr_t oprsz = simd_oprsz(desc);                          \
a7e4eec6SRichard Henderson    intptr_t half = oprsz / sizeof(TYPE) / 2;                   \
a7e4eec6SRichard Henderson    TYPE *d = vd, *n = vn, *m = vm;                             \
a7e4eec6SRichard Henderson    if (unlikely(d == m)) {                                     \
a7e4eec6SRichard Henderson        m = memcpy(&scratch, m, oprsz);                         \
a7e4eec6SRichard Henderson    }                                                           \
a7e4eec6SRichard Henderson    for (intptr_t i = 0; i < half; ++i) {                       \
a7e4eec6SRichard Henderson        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)]);           \
a7e4eec6SRichard Henderson    }                                                           \
a7e4eec6SRichard Henderson    for (intptr_t i = 0; i < half; ++i) {                       \
a7e4eec6SRichard Henderson        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)]);    \
a7e4eec6SRichard Henderson    }                                                           \
a7e4eec6SRichard Henderson    clear_tail(d, oprsz, simd_maxsz(desc));                     \
a7e4eec6SRichard Henderson}
a7e4eec6SRichard Henderson
a7e4eec6SRichard Henderson#define ADD(A, B) (A + B)
a7e4eec6SRichard HendersonDO_3OP_PAIR(gvec_addp_b, ADD, uint8_t, H1)
a7e4eec6SRichard HendersonDO_3OP_PAIR(gvec_addp_h, ADD, uint16_t, H2)
a7e4eec6SRichard HendersonDO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
a7e4eec6SRichard HendersonDO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
a7e4eec6SRichard Henderson#undef  ADD
a7e4eec6SRichard Henderson
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_smaxp_b, MAX, int8_t, H1)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_smaxp_h, MAX, int16_t, H2)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_smaxp_s, MAX, int32_t, H4)
28b5451bSRichard Henderson
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_umaxp_b, MAX, uint8_t, H1)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_umaxp_h, MAX, uint16_t, H2)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_umaxp_s, MAX, uint32_t, H4)
28b5451bSRichard Henderson
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_sminp_b, MIN, int8_t, H1)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_sminp_h, MIN, int16_t, H2)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_sminp_s, MIN, int32_t, H4)
28b5451bSRichard Henderson
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_uminp_b, MIN, uint8_t, H1)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_uminp_h, MIN, uint16_t, H2)
28b5451bSRichard HendersonDO_3OP_PAIR(gvec_uminp_s, MIN, uint32_t, H4)
28b5451bSRichard Henderson
a7e4eec6SRichard Henderson#undef DO_3OP_PAIR
a7e4eec6SRichard Henderson
a3ef070eSClaudio Fontana#define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
a3ef070eSClaudio Fontana    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
a3ef070eSClaudio Fontana    {                                                                   \
a3ef070eSClaudio Fontana        intptr_t i, oprsz = simd_oprsz(desc);                           \
a3ef070eSClaudio Fontana        int shift = simd_data(desc);                                    \
a3ef070eSClaudio Fontana        TYPE *d = vd, *n = vn;                                          \
a3ef070eSClaudio Fontana        float_status *fpst = stat;                                      \
a3ef070eSClaudio Fontana        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
a3ef070eSClaudio Fontana            d[i] = FUNC(n[i], shift, fpst);                             \
a3ef070eSClaudio Fontana        }                                                               \
a3ef070eSClaudio Fontana        clear_tail(d, oprsz, simd_maxsz(desc));                         \
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_sf, helper_vfp_sltos, uint32_t)
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_uf, helper_vfp_ultos, uint32_t)
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_fs, helper_vfp_tosls_round_to_zero, uint32_t)
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_fu, helper_vfp_touls_round_to_zero, uint32_t)
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_sh, helper_vfp_shtoh, uint16_t)
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_uh, helper_vfp_uhtoh, uint16_t)
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_hs, helper_vfp_toshh_round_to_zero, uint16_t)
a3ef070eSClaudio FontanaDO_VCVT_FIXED(gvec_vcvt_hu, helper_vfp_touhh_round_to_zero, uint16_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_VCVT_FIXED
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_VCVT_RMODE(NAME, FUNC, TYPE)                                 \
a3ef070eSClaudio Fontana    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
a3ef070eSClaudio Fontana    {                                                                   \
a3ef070eSClaudio Fontana        float_status *fpst = stat;                                      \
a3ef070eSClaudio Fontana        intptr_t i, oprsz = simd_oprsz(desc);                           \
a3ef070eSClaudio Fontana        uint32_t rmode = simd_data(desc);                               \
a3ef070eSClaudio Fontana        uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
a3ef070eSClaudio Fontana        TYPE *d = vd, *n = vn;                                          \
a3ef070eSClaudio Fontana        set_float_rounding_mode(rmode, fpst);                           \
a3ef070eSClaudio Fontana        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
a3ef070eSClaudio Fontana            d[i] = FUNC(n[i], 0, fpst);                                 \
a3ef070eSClaudio Fontana        }                                                               \
a3ef070eSClaudio Fontana        set_float_rounding_mode(prev_rmode, fpst);                      \
a3ef070eSClaudio Fontana        clear_tail(d, oprsz, simd_maxsz(desc));                         \
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_VCVT_RMODE(gvec_vcvt_rm_ss, helper_vfp_tosls, uint32_t)
a3ef070eSClaudio FontanaDO_VCVT_RMODE(gvec_vcvt_rm_us, helper_vfp_touls, uint32_t)
a3ef070eSClaudio FontanaDO_VCVT_RMODE(gvec_vcvt_rm_sh, helper_vfp_toshh, uint16_t)
a3ef070eSClaudio FontanaDO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_VCVT_RMODE
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_VRINT_RMODE(NAME, FUNC, TYPE)                                \
a3ef070eSClaudio Fontana    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
a3ef070eSClaudio Fontana    {                                                                   \
a3ef070eSClaudio Fontana        float_status *fpst = stat;                                      \
a3ef070eSClaudio Fontana        intptr_t i, oprsz = simd_oprsz(desc);                           \
a3ef070eSClaudio Fontana        uint32_t rmode = simd_data(desc);                               \
a3ef070eSClaudio Fontana        uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
a3ef070eSClaudio Fontana        TYPE *d = vd, *n = vn;                                          \
a3ef070eSClaudio Fontana        set_float_rounding_mode(rmode, fpst);                           \
a3ef070eSClaudio Fontana        for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
a3ef070eSClaudio Fontana            d[i] = FUNC(n[i], fpst);                                    \
a3ef070eSClaudio Fontana        }                                                               \
a3ef070eSClaudio Fontana        set_float_rounding_mode(prev_rmode, fpst);                      \
a3ef070eSClaudio Fontana        clear_tail(d, oprsz, simd_maxsz(desc));                         \
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_VRINT_RMODE(gvec_vrint_rm_h, helper_rinth, uint16_t)
a3ef070eSClaudio FontanaDO_VRINT_RMODE(gvec_vrint_rm_s, helper_rints, uint32_t)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#undef DO_VRINT_RMODE
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#ifdef TARGET_AARCH64
a3ef070eSClaudio Fontanavoid HELPER(simd_tblx)(void *vd, void *vm, void *venv, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    const uint8_t *indices = vm;
a3ef070eSClaudio Fontana    CPUARMState *env = venv;
a3ef070eSClaudio Fontana    size_t oprsz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint32_t rn = extract32(desc, SIMD_DATA_SHIFT, 5);
a3ef070eSClaudio Fontana    bool is_tbx = extract32(desc, SIMD_DATA_SHIFT + 5, 1);
a3ef070eSClaudio Fontana    uint32_t table_len = desc >> (SIMD_DATA_SHIFT + 6);
a3ef070eSClaudio Fontana    union {
a3ef070eSClaudio Fontana        uint8_t b[16];
a3ef070eSClaudio Fontana        uint64_t d[2];
a3ef070eSClaudio Fontana    } result;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /*
a3ef070eSClaudio Fontana     * We must construct the final result in a temp, lest the output
a3ef070eSClaudio Fontana     * overlaps the input table.  For TBL, begin with zero; for TBX,
a3ef070eSClaudio Fontana     * begin with the original register contents.  Note that we always
a3ef070eSClaudio Fontana     * copy 16 bytes here to avoid an extra branch; clearing the high
a3ef070eSClaudio Fontana     * bits of the register for oprsz == 8 is handled below.
a3ef070eSClaudio Fontana     */
a3ef070eSClaudio Fontana    if (is_tbx) {
a3ef070eSClaudio Fontana        memcpy(&result, vd, 16);
a3ef070eSClaudio Fontana    } else {
a3ef070eSClaudio Fontana        memset(&result, 0, 16);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (size_t i = 0; i < oprsz; ++i) {
a3ef070eSClaudio Fontana        uint32_t index = indices[H1(i)];
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        if (index < table_len) {
a3ef070eSClaudio Fontana            /*
a3ef070eSClaudio Fontana             * Convert index (a byte offset into the virtual table
a3ef070eSClaudio Fontana             * which is a series of 128-bit vectors concatenated)
a3ef070eSClaudio Fontana             * into the correct register element, bearing in mind
a3ef070eSClaudio Fontana             * that the table can wrap around from V31 to V0.
a3ef070eSClaudio Fontana             */
a3ef070eSClaudio Fontana            const uint8_t *table = (const uint8_t *)
a3ef070eSClaudio Fontana                aa64_vfp_qreg(env, (rn + (index >> 4)) % 32);
a3ef070eSClaudio Fontana            result.b[H1(i)] = table[H1(index % 16)];
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    memcpy(vd, &result, 16);
a3ef070eSClaudio Fontana    clear_tail(vd, oprsz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana#endif
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * NxN -> N highpart multiply
a3ef070eSClaudio Fontana *
a3ef070eSClaudio Fontana * TODO: expose this as a generic vector operation.
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_smulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int8_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        d[i] = ((int32_t)n[i] * m[i]) >> 8;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_smulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = ((int32_t)n[i] * m[i]) >> 16;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_smulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    int32_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = ((int64_t)n[i] * m[i]) >> 32;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_smulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint64_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
a3ef070eSClaudio Fontana        muls64(&discard, &d[i], n[i], m[i]);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_umulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint8_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        d[i] = ((uint32_t)n[i] * m[i]) >> 8;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_umulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint16_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 2; ++i) {
a3ef070eSClaudio Fontana        d[i] = ((uint32_t)n[i] * m[i]) >> 16;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_umulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint32_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana        d[i] = ((uint64_t)n[i] * m[i]) >> 32;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_umulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana    uint64_t discard;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz / 8; ++i) {
a3ef070eSClaudio Fontana        mulu64(&discard, &d[i], n[i], m[i]);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_xar_d)(void *vd, void *vn, void *vm, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc) / 8;
a3ef070eSClaudio Fontana    int shr = simd_data(desc);
a3ef070eSClaudio Fontana    uint64_t *d = vd, *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (i = 0; i < opr_sz; ++i) {
a3ef070eSClaudio Fontana        d[i] = ror64(n[i] ^ m[i], shr);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz * 8, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * Integer matrix-multiply accumulate
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t do_smmla_b(uint32_t sum, void *vn, void *vm)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    int8_t *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (intptr_t k = 0; k < 8; ++k) {
a3ef070eSClaudio Fontana        sum += n[H1(k)] * m[H1(k)];
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return sum;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t do_ummla_b(uint32_t sum, void *vn, void *vm)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uint8_t *n = vn, *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (intptr_t k = 0; k < 8; ++k) {
a3ef070eSClaudio Fontana        sum += n[H1(k)] * m[H1(k)];
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return sum;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic uint32_t do_usmmla_b(uint32_t sum, void *vn, void *vm)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    uint8_t *n = vn;
a3ef070eSClaudio Fontana    int8_t *m = vm;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (intptr_t k = 0; k < 8; ++k) {
a3ef070eSClaudio Fontana        sum += n[H1(k)] * m[H1(k)];
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    return sum;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanastatic void do_mmla_b(void *vd, void *vn, void *vm, void *va, uint32_t desc,
a3ef070eSClaudio Fontana                      uint32_t (*inner_loop)(uint32_t, void *, void *))
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t seg, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    for (seg = 0; seg < opr_sz; seg += 16) {
a3ef070eSClaudio Fontana        uint32_t *d = vd + seg;
a3ef070eSClaudio Fontana        uint32_t *a = va + seg;
a3ef070eSClaudio Fontana        uint32_t sum0, sum1, sum2, sum3;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        /*
a3ef070eSClaudio Fontana         * Process the entire segment at once, writing back the
a3ef070eSClaudio Fontana         * results only after we've consumed all of the inputs.
a3ef070eSClaudio Fontana         *
a3ef070eSClaudio Fontana         * Key to indices by column:
a3ef070eSClaudio Fontana         *          i   j                  i             j
a3ef070eSClaudio Fontana         */
a3ef070eSClaudio Fontana        sum0 = a[H4(0 + 0)];
a3ef070eSClaudio Fontana        sum0 = inner_loop(sum0, vn + seg + 0, vm + seg + 0);
a3ef070eSClaudio Fontana        sum1 = a[H4(0 + 1)];
a3ef070eSClaudio Fontana        sum1 = inner_loop(sum1, vn + seg + 0, vm + seg + 8);
a3ef070eSClaudio Fontana        sum2 = a[H4(2 + 0)];
a3ef070eSClaudio Fontana        sum2 = inner_loop(sum2, vn + seg + 8, vm + seg + 0);
a3ef070eSClaudio Fontana        sum3 = a[H4(2 + 1)];
a3ef070eSClaudio Fontana        sum3 = inner_loop(sum3, vn + seg + 8, vm + seg + 8);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        d[H4(0)] = sum0;
a3ef070eSClaudio Fontana        d[H4(1)] = sum1;
a3ef070eSClaudio Fontana        d[H4(2)] = sum2;
a3ef070eSClaudio Fontana        d[H4(3)] = sum3;
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(vd, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana#define DO_MMLA_B(NAME, INNER) \
a3ef070eSClaudio Fontana    void HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc) \
a3ef070eSClaudio Fontana    { do_mmla_b(vd, vn, vm, va, desc, INNER); }
a3ef070eSClaudio Fontana
a3ef070eSClaudio FontanaDO_MMLA_B(gvec_smmla_b, do_smmla_b)
a3ef070eSClaudio FontanaDO_MMLA_B(gvec_ummla_b, do_ummla_b)
a3ef070eSClaudio FontanaDO_MMLA_B(gvec_usmmla_b, do_usmmla_b)
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana/*
a3ef070eSClaudio Fontana * BFloat16 Dot Product
a3ef070eSClaudio Fontana */
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanabool is_ebf(CPUARMState *env, float_status *statusp, float_status *oddstatusp)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    /*
a3ef070eSClaudio Fontana     * For BFDOT, BFMMLA, etc, the behaviour depends on FPCR.EBF.
a3ef070eSClaudio Fontana     * For EBF = 0, we ignore the FPCR bits which determine rounding
a3ef070eSClaudio Fontana     * mode and denormal-flushing, and we do unfused multiplies and
a3ef070eSClaudio Fontana     * additions with intermediate rounding of all products and sums.
a3ef070eSClaudio Fontana     * For EBF = 1, we honour FPCR rounding mode and denormal-flushing bits,
a3ef070eSClaudio Fontana     * and we perform a fused two-way sum-of-products without intermediate
a3ef070eSClaudio Fontana     * rounding of the products.
a3ef070eSClaudio Fontana     * In either case, we don't set fp exception flags.
a3ef070eSClaudio Fontana     *
a3ef070eSClaudio Fontana     * EBF is AArch64 only, so even if it's set in the FPCR it has
a3ef070eSClaudio Fontana     * no effect on AArch32 instructions.
a3ef070eSClaudio Fontana     */
a3ef070eSClaudio Fontana    bool ebf = is_a64(env) && env->vfp.fpcr & FPCR_EBF;
a3ef070eSClaudio Fontana    *statusp = (float_status){
a3ef070eSClaudio Fontana        .tininess_before_rounding = float_tininess_before_rounding,
a3ef070eSClaudio Fontana        .float_rounding_mode = float_round_to_odd_inf,
a3ef070eSClaudio Fontana        .flush_to_zero = true,
a3ef070eSClaudio Fontana        .flush_inputs_to_zero = true,
a3ef070eSClaudio Fontana        .default_nan_mode = true,
a3ef070eSClaudio Fontana    };
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (ebf) {
a3ef070eSClaudio Fontana        float_status *fpst = &env->vfp.fp_status;
a3ef070eSClaudio Fontana        set_flush_to_zero(get_flush_to_zero(fpst), statusp);
a3ef070eSClaudio Fontana        set_flush_inputs_to_zero(get_flush_inputs_to_zero(fpst), statusp);
a3ef070eSClaudio Fontana        set_float_rounding_mode(get_float_rounding_mode(fpst), statusp);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana        /* EBF=1 needs to do a step with round-to-odd semantics */
a3ef070eSClaudio Fontana        *oddstatusp = *statusp;
a3ef070eSClaudio Fontana        set_float_rounding_mode(float_round_to_odd, oddstatusp);
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    return ebf;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanafloat32 bfdotadd(float32 sum, uint32_t e1, uint32_t e2, float_status *fpst)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    float32 t1, t2;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /*
a3ef070eSClaudio Fontana     * Extract each BFloat16 from the element pair, and shift
a3ef070eSClaudio Fontana     * them such that they become float32.
a3ef070eSClaudio Fontana     */
a3ef070eSClaudio Fontana    t1 = float32_mul(e1 << 16, e2 << 16, fpst);
a3ef070eSClaudio Fontana    t2 = float32_mul(e1 & 0xffff0000u, e2 & 0xffff0000u, fpst);
a3ef070eSClaudio Fontana    t1 = float32_add(t1, t2, fpst);
a3ef070eSClaudio Fontana    t1 = float32_add(sum, t1, fpst);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    return t1;
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanafloat32 bfdotadd_ebf(float32 sum, uint32_t e1, uint32_t e2,
a3ef070eSClaudio Fontana                     float_status *fpst, float_status *fpst_odd)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    /*
a3ef070eSClaudio Fontana     * Compare f16_dotadd() in sme_helper.c, but here we have
a3ef070eSClaudio Fontana     * bfloat16 inputs. In particular that means that we do not
a3ef070eSClaudio Fontana     * want the FPCR.FZ16 flush semantics, so we use the normal
a3ef070eSClaudio Fontana     * float_status for the input handling here.
a3ef070eSClaudio Fontana     */
a3ef070eSClaudio Fontana    float64 e1r = float32_to_float64(e1 << 16, fpst);
a3ef070eSClaudio Fontana    float64 e1c = float32_to_float64(e1 & 0xffff0000u, fpst);
a3ef070eSClaudio Fontana    float64 e2r = float32_to_float64(e2 << 16, fpst);
a3ef070eSClaudio Fontana    float64 e2c = float32_to_float64(e2 & 0xffff0000u, fpst);
a3ef070eSClaudio Fontana    float64 t64;
a3ef070eSClaudio Fontana    float32 t32;
673d8215SMichael Tokarev
a3ef070eSClaudio Fontana    /*
a3ef070eSClaudio Fontana     * The ARM pseudocode function FPDot performs both multiplies
a3ef070eSClaudio Fontana     * and the add with a single rounding operation.  Emulate this
a3ef070eSClaudio Fontana     * by performing the first multiply in round-to-odd, then doing
a3ef070eSClaudio Fontana     * the second multiply as fused multiply-add, and rounding to
a3ef070eSClaudio Fontana     * float32 all in one step.
a3ef070eSClaudio Fontana     */
a3ef070eSClaudio Fontana    t64 = float64_mul(e1r, e2r, fpst_odd);
a3ef070eSClaudio Fontana    t64 = float64r32_muladd(e1c, e2c, t64, 0, fpst);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* This conversion is exact, because we've already rounded. */
a3ef070eSClaudio Fontana    t32 = float64_to_float32(t64, fpst);
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    /* The final accumulation step is not fused. */
a3ef070eSClaudio Fontana    return float32_add(sum, t32, fpst);
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_bfdot)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                        CPUARMState *env, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float32 *d = vd, *a = va;
a3ef070eSClaudio Fontana    uint32_t *n = vn, *m = vm;
a3ef070eSClaudio Fontana    float_status fpst, fpst_odd;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (is_ebf(env, &fpst, &fpst_odd)) {
a3ef070eSClaudio Fontana        for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana            d[i] = bfdotadd_ebf(a[i], n[i], m[i], &fpst, &fpst_odd);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    } else {
a3ef070eSClaudio Fontana        for (i = 0; i < opr_sz / 4; ++i) {
a3ef070eSClaudio Fontana            d[i] = bfdotadd(a[i], n[i], m[i], &fpst);
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_bfdot_idx)(void *vd, void *vn, void *vm,
a3ef070eSClaudio Fontana                            void *va, CPUARMState *env, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t i, j, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    intptr_t index = simd_data(desc);
a3ef070eSClaudio Fontana    intptr_t elements = opr_sz / 4;
a3ef070eSClaudio Fontana    intptr_t eltspersegment = MIN(16 / 4, elements);
a3ef070eSClaudio Fontana    float32 *d = vd, *a = va;
a3ef070eSClaudio Fontana    uint32_t *n = vn, *m = vm;
a3ef070eSClaudio Fontana    float_status fpst, fpst_odd;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (is_ebf(env, &fpst, &fpst_odd)) {
a3ef070eSClaudio Fontana        for (i = 0; i < elements; i += eltspersegment) {
a3ef070eSClaudio Fontana            uint32_t m_idx = m[i + H4(index)];
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana            for (j = i; j < i + eltspersegment; j++) {
a3ef070eSClaudio Fontana                d[j] = bfdotadd_ebf(a[j], n[j], m_idx, &fpst, &fpst_odd);
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    } else {
a3ef070eSClaudio Fontana        for (i = 0; i < elements; i += eltspersegment) {
a3ef070eSClaudio Fontana            uint32_t m_idx = m[i + H4(index)];
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana            for (j = i; j < i + eltspersegment; j++) {
a3ef070eSClaudio Fontana                d[j] = bfdotadd(a[j], n[j], m_idx, &fpst);
a3ef070eSClaudio Fontana            }
a3ef070eSClaudio Fontana        }
a3ef070eSClaudio Fontana    }
a3ef070eSClaudio Fontana    clear_tail(d, opr_sz, simd_maxsz(desc));
a3ef070eSClaudio Fontana}
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontanavoid HELPER(gvec_bfmmla)(void *vd, void *vn, void *vm, void *va,
a3ef070eSClaudio Fontana                         CPUARMState *env, uint32_t desc)
a3ef070eSClaudio Fontana{
a3ef070eSClaudio Fontana    intptr_t s, opr_sz = simd_oprsz(desc);
a3ef070eSClaudio Fontana    float32 *d = vd, *a = va;
a3ef070eSClaudio Fontana    uint32_t *n = vn, *m = vm;
a3ef070eSClaudio Fontana    float_status fpst, fpst_odd;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana    if (is_ebf(env, &fpst, &fpst_odd)) {
a3ef070eSClaudio Fontana        for (s = 0; s < opr_sz / 4; s += 4) {
a3ef070eSClaudio Fontana            float32 sum00, sum01, sum10, sum11;
a3ef070eSClaudio Fontana
a3ef070eSClaudio Fontana            /*
a3ef070eSClaudio Fontana             * Process the entire segment at once, writing back the
a3ef070eSClaudio Fontana             * results only after we've consumed all of the inputs.
a3ef070eSClaudio Fontana             *
a3ef070eSClaudio Fontana             * Key to indices by column:
a3ef070eSClaudio Fontana             *               i   j               i   k             j   k
a3ef070eSClaudio Fontana             */
            sum00 = a[s + H4(0 + 0)];
            sum00 = bfdotadd_ebf(sum00, n[s + H4(0 + 0)], m[s + H4(0 + 0)], &fpst, &fpst_odd);
            sum00 = bfdotadd_ebf(sum00, n[s + H4(0 + 1)], m[s + H4(0 + 1)], &fpst, &fpst_odd);

            sum01 = a[s + H4(0 + 1)];
            sum01 = bfdotadd_ebf(sum01, n[s + H4(0 + 0)], m[s + H4(2 + 0)], &fpst, &fpst_odd);
            sum01 = bfdotadd_ebf(sum01, n[s + H4(0 + 1)], m[s + H4(2 + 1)], &fpst, &fpst_odd);

            sum10 = a[s + H4(2 + 0)];
            sum10 = bfdotadd_ebf(sum10, n[s + H4(2 + 0)], m[s + H4(0 + 0)], &fpst, &fpst_odd);
            sum10 = bfdotadd_ebf(sum10, n[s + H4(2 + 1)], m[s + H4(0 + 1)], &fpst, &fpst_odd);

            sum11 = a[s + H4(2 + 1)];
            sum11 = bfdotadd_ebf(sum11, n[s + H4(2 + 0)], m[s + H4(2 + 0)], &fpst, &fpst_odd);
            sum11 = bfdotadd_ebf(sum11, n[s + H4(2 + 1)], m[s + H4(2 + 1)], &fpst, &fpst_odd);

            d[s + H4(0 + 0)] = sum00;
            d[s + H4(0 + 1)] = sum01;
            d[s + H4(2 + 0)] = sum10;
            d[s + H4(2 + 1)] = sum11;
        }
    } else {
        for (s = 0; s < opr_sz / 4; s += 4) {
            float32 sum00, sum01, sum10, sum11;

            /*
             * Process the entire segment at once, writing back the
             * results only after we've consumed all of the inputs.
             *
             * Key to indices by column:
             *               i   j           i   k             j   k
             */
            sum00 = a[s + H4(0 + 0)];
            sum00 = bfdotadd(sum00, n[s + H4(0 + 0)], m[s + H4(0 + 0)], &fpst);
            sum00 = bfdotadd(sum00, n[s + H4(0 + 1)], m[s + H4(0 + 1)], &fpst);

            sum01 = a[s + H4(0 + 1)];
            sum01 = bfdotadd(sum01, n[s + H4(0 + 0)], m[s + H4(2 + 0)], &fpst);
            sum01 = bfdotadd(sum01, n[s + H4(0 + 1)], m[s + H4(2 + 1)], &fpst);

            sum10 = a[s + H4(2 + 0)];
            sum10 = bfdotadd(sum10, n[s + H4(2 + 0)], m[s + H4(0 + 0)], &fpst);
            sum10 = bfdotadd(sum10, n[s + H4(2 + 1)], m[s + H4(0 + 1)], &fpst);

            sum11 = a[s + H4(2 + 1)];
            sum11 = bfdotadd(sum11, n[s + H4(2 + 0)], m[s + H4(2 + 0)], &fpst);
            sum11 = bfdotadd(sum11, n[s + H4(2 + 1)], m[s + H4(2 + 1)], &fpst);

            d[s + H4(0 + 0)] = sum00;
            d[s + H4(0 + 1)] = sum01;
            d[s + H4(2 + 0)] = sum10;
            d[s + H4(2 + 1)] = sum11;
        }
    }
    clear_tail(d, opr_sz, simd_maxsz(desc));
}

void HELPER(gvec_bfmlal)(void *vd, void *vn, void *vm, void *va,
                         void *stat, uint32_t desc)
{
    intptr_t i, opr_sz = simd_oprsz(desc);
    intptr_t sel = simd_data(desc);
    float32 *d = vd, *a = va;
    bfloat16 *n = vn, *m = vm;

    for (i = 0; i < opr_sz / 4; ++i) {
        float32 nn = n[H2(i * 2 + sel)] << 16;
        float32 mm = m[H2(i * 2 + sel)] << 16;
        d[H4(i)] = float32_muladd(nn, mm, a[H4(i)], 0, stat);
    }
    clear_tail(d, opr_sz, simd_maxsz(desc));
}

void HELPER(gvec_bfmlal_idx)(void *vd, void *vn, void *vm,
                             void *va, void *stat, uint32_t desc)
{
    intptr_t i, j, opr_sz = simd_oprsz(desc);
    intptr_t sel = extract32(desc, SIMD_DATA_SHIFT, 1);
    intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 1, 3);
    intptr_t elements = opr_sz / 4;
    intptr_t eltspersegment = MIN(16 / 4, elements);
    float32 *d = vd, *a = va;
    bfloat16 *n = vn, *m = vm;

    for (i = 0; i < elements; i += eltspersegment) {
        float32 m_idx = m[H2(2 * i + index)] << 16;

        for (j = i; j < i + eltspersegment; j++) {
            float32 n_j = n[H2(2 * j + sel)] << 16;
            d[H4(j)] = float32_muladd(n_j, m_idx, a[H4(j)], 0, stat);
        }
    }
    clear_tail(d, opr_sz, simd_maxsz(desc));
}

#define DO_CLAMP(NAME, TYPE) \
void HELPER(NAME)(void *d, void *n, void *m, void *a, uint32_t desc)    \
{                                                                       \
    intptr_t i, opr_sz = simd_oprsz(desc);                              \
    for (i = 0; i < opr_sz; i += sizeof(TYPE)) {                        \
        TYPE aa = *(TYPE *)(a + i);                                     \
        TYPE nn = *(TYPE *)(n + i);                                     \
        TYPE mm = *(TYPE *)(m + i);                                     \
        TYPE dd = MIN(MAX(aa, nn), mm);                                 \
        *(TYPE *)(d + i) = dd;                                          \
    }                                                                   \
    clear_tail(d, opr_sz, simd_maxsz(desc));                            \
}

DO_CLAMP(gvec_sclamp_b, int8_t)
DO_CLAMP(gvec_sclamp_h, int16_t)
DO_CLAMP(gvec_sclamp_s, int32_t)
DO_CLAMP(gvec_sclamp_d, int64_t)

DO_CLAMP(gvec_uclamp_b, uint8_t)
DO_CLAMP(gvec_uclamp_h, uint16_t)
DO_CLAMP(gvec_uclamp_s, uint32_t)
DO_CLAMP(gvec_uclamp_d, uint64_t)