xref: /openbmc/qemu/target/ppc/int_helper.c (revision 835fde4a)
1 /*
2  *  PowerPC integer and vector emulation helpers for QEMU.
3  *
4  *  Copyright (c) 2003-2007 Jocelyn Mayer
5  *
6  * This library is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * This library is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
18  */
19 
20 #include "qemu/osdep.h"
21 #include "cpu.h"
22 #include "internal.h"
23 #include "qemu/host-utils.h"
24 #include "qemu/main-loop.h"
25 #include "exec/helper-proto.h"
26 #include "crypto/aes.h"
27 #include "fpu/softfloat.h"
28 #include "qapi/error.h"
29 #include "qemu/guest-random.h"
30 
31 #include "helper_regs.h"
32 /*****************************************************************************/
33 /* Fixed point operations helpers */
34 
35 static inline void helper_update_ov_legacy(CPUPPCState *env, int ov)
36 {
37     if (unlikely(ov)) {
38         env->so = env->ov = 1;
39     } else {
40         env->ov = 0;
41     }
42 }
43 
44 target_ulong helper_divweu(CPUPPCState *env, target_ulong ra, target_ulong rb,
45                            uint32_t oe)
46 {
47     uint64_t rt = 0;
48     int overflow = 0;
49 
50     uint64_t dividend = (uint64_t)ra << 32;
51     uint64_t divisor = (uint32_t)rb;
52 
53     if (unlikely(divisor == 0)) {
54         overflow = 1;
55     } else {
56         rt = dividend / divisor;
57         overflow = rt > UINT32_MAX;
58     }
59 
60     if (unlikely(overflow)) {
61         rt = 0; /* Undefined */
62     }
63 
64     if (oe) {
65         helper_update_ov_legacy(env, overflow);
66     }
67 
68     return (target_ulong)rt;
69 }
70 
71 target_ulong helper_divwe(CPUPPCState *env, target_ulong ra, target_ulong rb,
72                           uint32_t oe)
73 {
74     int64_t rt = 0;
75     int overflow = 0;
76 
77     int64_t dividend = (int64_t)ra << 32;
78     int64_t divisor = (int64_t)((int32_t)rb);
79 
80     if (unlikely((divisor == 0) ||
81                  ((divisor == -1ull) && (dividend == INT64_MIN)))) {
82         overflow = 1;
83     } else {
84         rt = dividend / divisor;
85         overflow = rt != (int32_t)rt;
86     }
87 
88     if (unlikely(overflow)) {
89         rt = 0; /* Undefined */
90     }
91 
92     if (oe) {
93         helper_update_ov_legacy(env, overflow);
94     }
95 
96     return (target_ulong)rt;
97 }
98 
99 #if defined(TARGET_PPC64)
100 
101 uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
102 {
103     uint64_t rt = 0;
104     int overflow = 0;
105 
106     overflow = divu128(&rt, &ra, rb);
107 
108     if (unlikely(overflow)) {
109         rt = 0; /* Undefined */
110     }
111 
112     if (oe) {
113         helper_update_ov_legacy(env, overflow);
114     }
115 
116     return rt;
117 }
118 
119 uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
120 {
121     int64_t rt = 0;
122     int64_t ra = (int64_t)rau;
123     int64_t rb = (int64_t)rbu;
124     int overflow = divs128(&rt, &ra, rb);
125 
126     if (unlikely(overflow)) {
127         rt = 0; /* Undefined */
128     }
129 
130     if (oe) {
131         helper_update_ov_legacy(env, overflow);
132     }
133 
134     return rt;
135 }
136 
137 #endif
138 
139 
140 #if defined(TARGET_PPC64)
141 /* if x = 0xab, returns 0xababababababababa */
142 #define pattern(x) (((x) & 0xff) * (~(target_ulong)0 / 0xff))
143 
144 /*
145  * subtract 1 from each byte, and with inverse, check if MSB is set at each
146  * byte.
147  * i.e. ((0x00 - 0x01) & ~(0x00)) & 0x80
148  *      (0xFF & 0xFF) & 0x80 = 0x80 (zero found)
149  */
150 #define haszero(v) (((v) - pattern(0x01)) & ~(v) & pattern(0x80))
151 
152 /* When you XOR the pattern and there is a match, that byte will be zero */
153 #define hasvalue(x, n)  (haszero((x) ^ pattern(n)))
154 
155 uint32_t helper_cmpeqb(target_ulong ra, target_ulong rb)
156 {
157     return hasvalue(rb, ra) ? CRF_GT : 0;
158 }
159 
160 #undef pattern
161 #undef haszero
162 #undef hasvalue
163 
164 /*
165  * Return a random number.
166  */
167 uint64_t helper_darn32(void)
168 {
169     Error *err = NULL;
170     uint32_t ret;
171 
172     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
173         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
174                       error_get_pretty(err));
175         error_free(err);
176         return -1;
177     }
178 
179     return ret;
180 }
181 
182 uint64_t helper_darn64(void)
183 {
184     Error *err = NULL;
185     uint64_t ret;
186 
187     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
188         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
189                       error_get_pretty(err));
190         error_free(err);
191         return -1;
192     }
193 
194     return ret;
195 }
196 
197 uint64_t helper_bpermd(uint64_t rs, uint64_t rb)
198 {
199     int i;
200     uint64_t ra = 0;
201 
202     for (i = 0; i < 8; i++) {
203         int index = (rs >> (i * 8)) & 0xFF;
204         if (index < 64) {
205             if (rb & PPC_BIT(index)) {
206                 ra |= 1 << i;
207             }
208         }
209     }
210     return ra;
211 }
212 
213 #endif
214 
215 target_ulong helper_cmpb(target_ulong rs, target_ulong rb)
216 {
217     target_ulong mask = 0xff;
218     target_ulong ra = 0;
219     int i;
220 
221     for (i = 0; i < sizeof(target_ulong); i++) {
222         if ((rs & mask) == (rb & mask)) {
223             ra |= mask;
224         }
225         mask <<= 8;
226     }
227     return ra;
228 }
229 
230 /* shift right arithmetic helper */
231 target_ulong helper_sraw(CPUPPCState *env, target_ulong value,
232                          target_ulong shift)
233 {
234     int32_t ret;
235 
236     if (likely(!(shift & 0x20))) {
237         if (likely((uint32_t)shift != 0)) {
238             shift &= 0x1f;
239             ret = (int32_t)value >> shift;
240             if (likely(ret >= 0 || (value & ((1 << shift) - 1)) == 0)) {
241                 env->ca32 = env->ca = 0;
242             } else {
243                 env->ca32 = env->ca = 1;
244             }
245         } else {
246             ret = (int32_t)value;
247             env->ca32 = env->ca = 0;
248         }
249     } else {
250         ret = (int32_t)value >> 31;
251         env->ca32 = env->ca = (ret != 0);
252     }
253     return (target_long)ret;
254 }
255 
256 #if defined(TARGET_PPC64)
257 target_ulong helper_srad(CPUPPCState *env, target_ulong value,
258                          target_ulong shift)
259 {
260     int64_t ret;
261 
262     if (likely(!(shift & 0x40))) {
263         if (likely((uint64_t)shift != 0)) {
264             shift &= 0x3f;
265             ret = (int64_t)value >> shift;
266             if (likely(ret >= 0 || (value & ((1ULL << shift) - 1)) == 0)) {
267                 env->ca32 = env->ca = 0;
268             } else {
269                 env->ca32 = env->ca = 1;
270             }
271         } else {
272             ret = (int64_t)value;
273             env->ca32 = env->ca = 0;
274         }
275     } else {
276         ret = (int64_t)value >> 63;
277         env->ca32 = env->ca = (ret != 0);
278     }
279     return ret;
280 }
281 #endif
282 
283 #if defined(TARGET_PPC64)
284 target_ulong helper_popcntb(target_ulong val)
285 {
286     /* Note that we don't fold past bytes */
287     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
288                                            0x5555555555555555ULL);
289     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
290                                            0x3333333333333333ULL);
291     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
292                                            0x0f0f0f0f0f0f0f0fULL);
293     return val;
294 }
295 
296 target_ulong helper_popcntw(target_ulong val)
297 {
298     /* Note that we don't fold past words.  */
299     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
300                                            0x5555555555555555ULL);
301     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
302                                            0x3333333333333333ULL);
303     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
304                                            0x0f0f0f0f0f0f0f0fULL);
305     val = (val & 0x00ff00ff00ff00ffULL) + ((val >>  8) &
306                                            0x00ff00ff00ff00ffULL);
307     val = (val & 0x0000ffff0000ffffULL) + ((val >> 16) &
308                                            0x0000ffff0000ffffULL);
309     return val;
310 }
311 #else
312 target_ulong helper_popcntb(target_ulong val)
313 {
314     /* Note that we don't fold past bytes */
315     val = (val & 0x55555555) + ((val >>  1) & 0x55555555);
316     val = (val & 0x33333333) + ((val >>  2) & 0x33333333);
317     val = (val & 0x0f0f0f0f) + ((val >>  4) & 0x0f0f0f0f);
318     return val;
319 }
320 #endif
321 
322 /*****************************************************************************/
323 /* PowerPC 601 specific instructions (POWER bridge) */
324 target_ulong helper_div(CPUPPCState *env, target_ulong arg1, target_ulong arg2)
325 {
326     uint64_t tmp = (uint64_t)arg1 << 32 | env->spr[SPR_MQ];
327 
328     if (((int32_t)tmp == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
329         (int32_t)arg2 == 0) {
330         env->spr[SPR_MQ] = 0;
331         return INT32_MIN;
332     } else {
333         env->spr[SPR_MQ] = tmp % arg2;
334         return  tmp / (int32_t)arg2;
335     }
336 }
337 
338 target_ulong helper_divo(CPUPPCState *env, target_ulong arg1,
339                          target_ulong arg2)
340 {
341     uint64_t tmp = (uint64_t)arg1 << 32 | env->spr[SPR_MQ];
342 
343     if (((int32_t)tmp == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
344         (int32_t)arg2 == 0) {
345         env->so = env->ov = 1;
346         env->spr[SPR_MQ] = 0;
347         return INT32_MIN;
348     } else {
349         env->spr[SPR_MQ] = tmp % arg2;
350         tmp /= (int32_t)arg2;
351         if ((int32_t)tmp != tmp) {
352             env->so = env->ov = 1;
353         } else {
354             env->ov = 0;
355         }
356         return tmp;
357     }
358 }
359 
360 target_ulong helper_divs(CPUPPCState *env, target_ulong arg1,
361                          target_ulong arg2)
362 {
363     if (((int32_t)arg1 == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
364         (int32_t)arg2 == 0) {
365         env->spr[SPR_MQ] = 0;
366         return INT32_MIN;
367     } else {
368         env->spr[SPR_MQ] = (int32_t)arg1 % (int32_t)arg2;
369         return (int32_t)arg1 / (int32_t)arg2;
370     }
371 }
372 
373 target_ulong helper_divso(CPUPPCState *env, target_ulong arg1,
374                           target_ulong arg2)
375 {
376     if (((int32_t)arg1 == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
377         (int32_t)arg2 == 0) {
378         env->so = env->ov = 1;
379         env->spr[SPR_MQ] = 0;
380         return INT32_MIN;
381     } else {
382         env->ov = 0;
383         env->spr[SPR_MQ] = (int32_t)arg1 % (int32_t)arg2;
384         return (int32_t)arg1 / (int32_t)arg2;
385     }
386 }
387 
388 /*****************************************************************************/
389 /* 602 specific instructions */
390 /* mfrom is the most crazy instruction ever seen, imho ! */
391 /* Real implementation uses a ROM table. Do the same */
392 /*
393  * Extremely decomposed:
394  *                      -arg / 256
395  * return 256 * log10(10           + 1.0) + 0.5
396  */
397 #if !defined(CONFIG_USER_ONLY)
398 target_ulong helper_602_mfrom(target_ulong arg)
399 {
400     if (likely(arg < 602)) {
401 #include "mfrom_table.c.inc"
402         return mfrom_ROM_table[arg];
403     } else {
404         return 0;
405     }
406 }
407 #endif
408 
409 /*****************************************************************************/
410 /* Altivec extension helpers */
411 #if defined(HOST_WORDS_BIGENDIAN)
412 #define VECTOR_FOR_INORDER_I(index, element)                    \
413     for (index = 0; index < ARRAY_SIZE(r->element); index++)
414 #else
415 #define VECTOR_FOR_INORDER_I(index, element)                    \
416     for (index = ARRAY_SIZE(r->element) - 1; index >= 0; index--)
417 #endif
418 
419 /* Saturating arithmetic helpers.  */
420 #define SATCVT(from, to, from_type, to_type, min, max)          \
421     static inline to_type cvt##from##to(from_type x, int *sat)  \
422     {                                                           \
423         to_type r;                                              \
424                                                                 \
425         if (x < (from_type)min) {                               \
426             r = min;                                            \
427             *sat = 1;                                           \
428         } else if (x > (from_type)max) {                        \
429             r = max;                                            \
430             *sat = 1;                                           \
431         } else {                                                \
432             r = x;                                              \
433         }                                                       \
434         return r;                                               \
435     }
436 #define SATCVTU(from, to, from_type, to_type, min, max)         \
437     static inline to_type cvt##from##to(from_type x, int *sat)  \
438     {                                                           \
439         to_type r;                                              \
440                                                                 \
441         if (x > (from_type)max) {                               \
442             r = max;                                            \
443             *sat = 1;                                           \
444         } else {                                                \
445             r = x;                                              \
446         }                                                       \
447         return r;                                               \
448     }
449 SATCVT(sh, sb, int16_t, int8_t, INT8_MIN, INT8_MAX)
450 SATCVT(sw, sh, int32_t, int16_t, INT16_MIN, INT16_MAX)
451 SATCVT(sd, sw, int64_t, int32_t, INT32_MIN, INT32_MAX)
452 
453 SATCVTU(uh, ub, uint16_t, uint8_t, 0, UINT8_MAX)
454 SATCVTU(uw, uh, uint32_t, uint16_t, 0, UINT16_MAX)
455 SATCVTU(ud, uw, uint64_t, uint32_t, 0, UINT32_MAX)
456 SATCVT(sh, ub, int16_t, uint8_t, 0, UINT8_MAX)
457 SATCVT(sw, uh, int32_t, uint16_t, 0, UINT16_MAX)
458 SATCVT(sd, uw, int64_t, uint32_t, 0, UINT32_MAX)
459 #undef SATCVT
460 #undef SATCVTU
461 
462 void helper_mtvscr(CPUPPCState *env, uint32_t vscr)
463 {
464     env->vscr = vscr & ~(1u << VSCR_SAT);
465     /* Which bit we set is completely arbitrary, but clear the rest.  */
466     env->vscr_sat.u64[0] = vscr & (1u << VSCR_SAT);
467     env->vscr_sat.u64[1] = 0;
468     set_flush_to_zero((vscr >> VSCR_NJ) & 1, &env->vec_status);
469 }
470 
471 uint32_t helper_mfvscr(CPUPPCState *env)
472 {
473     uint32_t sat = (env->vscr_sat.u64[0] | env->vscr_sat.u64[1]) != 0;
474     return env->vscr | (sat << VSCR_SAT);
475 }
476 
477 static inline void set_vscr_sat(CPUPPCState *env)
478 {
479     /* The choice of non-zero value is arbitrary.  */
480     env->vscr_sat.u32[0] = 1;
481 }
482 
483 void helper_vaddcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
484 {
485     int i;
486 
487     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
488         r->u32[i] = ~a->u32[i] < b->u32[i];
489     }
490 }
491 
492 /* vprtybw */
493 void helper_vprtybw(ppc_avr_t *r, ppc_avr_t *b)
494 {
495     int i;
496     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
497         uint64_t res = b->u32[i] ^ (b->u32[i] >> 16);
498         res ^= res >> 8;
499         r->u32[i] = res & 1;
500     }
501 }
502 
503 /* vprtybd */
504 void helper_vprtybd(ppc_avr_t *r, ppc_avr_t *b)
505 {
506     int i;
507     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
508         uint64_t res = b->u64[i] ^ (b->u64[i] >> 32);
509         res ^= res >> 16;
510         res ^= res >> 8;
511         r->u64[i] = res & 1;
512     }
513 }
514 
515 /* vprtybq */
516 void helper_vprtybq(ppc_avr_t *r, ppc_avr_t *b)
517 {
518     uint64_t res = b->u64[0] ^ b->u64[1];
519     res ^= res >> 32;
520     res ^= res >> 16;
521     res ^= res >> 8;
522     r->VsrD(1) = res & 1;
523     r->VsrD(0) = 0;
524 }
525 
526 #define VARITHFP(suffix, func)                                          \
527     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
528                           ppc_avr_t *b)                                 \
529     {                                                                   \
530         int i;                                                          \
531                                                                         \
532         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
533             r->f32[i] = func(a->f32[i], b->f32[i], &env->vec_status);   \
534         }                                                               \
535     }
536 VARITHFP(addfp, float32_add)
537 VARITHFP(subfp, float32_sub)
538 VARITHFP(minfp, float32_min)
539 VARITHFP(maxfp, float32_max)
540 #undef VARITHFP
541 
542 #define VARITHFPFMA(suffix, type)                                       \
543     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
544                            ppc_avr_t *b, ppc_avr_t *c)                  \
545     {                                                                   \
546         int i;                                                          \
547         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
548             r->f32[i] = float32_muladd(a->f32[i], c->f32[i], b->f32[i], \
549                                        type, &env->vec_status);         \
550         }                                                               \
551     }
552 VARITHFPFMA(maddfp, 0);
553 VARITHFPFMA(nmsubfp, float_muladd_negate_result | float_muladd_negate_c);
554 #undef VARITHFPFMA
555 
556 #define VARITHSAT_CASE(type, op, cvt, element)                          \
557     {                                                                   \
558         type result = (type)a->element[i] op (type)b->element[i];       \
559         r->element[i] = cvt(result, &sat);                              \
560     }
561 
562 #define VARITHSAT_DO(name, op, optype, cvt, element)                    \
563     void helper_v##name(ppc_avr_t *r, ppc_avr_t *vscr_sat,              \
564                         ppc_avr_t *a, ppc_avr_t *b, uint32_t desc)      \
565     {                                                                   \
566         int sat = 0;                                                    \
567         int i;                                                          \
568                                                                         \
569         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
570             VARITHSAT_CASE(optype, op, cvt, element);                   \
571         }                                                               \
572         if (sat) {                                                      \
573             vscr_sat->u32[0] = 1;                                       \
574         }                                                               \
575     }
576 #define VARITHSAT_SIGNED(suffix, element, optype, cvt)          \
577     VARITHSAT_DO(adds##suffix##s, +, optype, cvt, element)      \
578     VARITHSAT_DO(subs##suffix##s, -, optype, cvt, element)
579 #define VARITHSAT_UNSIGNED(suffix, element, optype, cvt)        \
580     VARITHSAT_DO(addu##suffix##s, +, optype, cvt, element)      \
581     VARITHSAT_DO(subu##suffix##s, -, optype, cvt, element)
582 VARITHSAT_SIGNED(b, s8, int16_t, cvtshsb)
583 VARITHSAT_SIGNED(h, s16, int32_t, cvtswsh)
584 VARITHSAT_SIGNED(w, s32, int64_t, cvtsdsw)
585 VARITHSAT_UNSIGNED(b, u8, uint16_t, cvtshub)
586 VARITHSAT_UNSIGNED(h, u16, uint32_t, cvtswuh)
587 VARITHSAT_UNSIGNED(w, u32, uint64_t, cvtsduw)
588 #undef VARITHSAT_CASE
589 #undef VARITHSAT_DO
590 #undef VARITHSAT_SIGNED
591 #undef VARITHSAT_UNSIGNED
592 
593 #define VAVG_DO(name, element, etype)                                   \
594     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
595     {                                                                   \
596         int i;                                                          \
597                                                                         \
598         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
599             etype x = (etype)a->element[i] + (etype)b->element[i] + 1;  \
600             r->element[i] = x >> 1;                                     \
601         }                                                               \
602     }
603 
604 #define VAVG(type, signed_element, signed_type, unsigned_element,       \
605              unsigned_type)                                             \
606     VAVG_DO(avgs##type, signed_element, signed_type)                    \
607     VAVG_DO(avgu##type, unsigned_element, unsigned_type)
608 VAVG(b, s8, int16_t, u8, uint16_t)
609 VAVG(h, s16, int32_t, u16, uint32_t)
610 VAVG(w, s32, int64_t, u32, uint64_t)
611 #undef VAVG_DO
612 #undef VAVG
613 
614 #define VABSDU_DO(name, element)                                        \
615 void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)           \
616 {                                                                       \
617     int i;                                                              \
618                                                                         \
619     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
620         r->element[i] = (a->element[i] > b->element[i]) ?               \
621             (a->element[i] - b->element[i]) :                           \
622             (b->element[i] - a->element[i]);                            \
623     }                                                                   \
624 }
625 
626 /*
627  * VABSDU - Vector absolute difference unsigned
628  *   name    - instruction mnemonic suffix (b: byte, h: halfword, w: word)
629  *   element - element type to access from vector
630  */
631 #define VABSDU(type, element)                   \
632     VABSDU_DO(absdu##type, element)
633 VABSDU(b, u8)
634 VABSDU(h, u16)
635 VABSDU(w, u32)
636 #undef VABSDU_DO
637 #undef VABSDU
638 
639 #define VCF(suffix, cvt, element)                                       \
640     void helper_vcf##suffix(CPUPPCState *env, ppc_avr_t *r,             \
641                             ppc_avr_t *b, uint32_t uim)                 \
642     {                                                                   \
643         int i;                                                          \
644                                                                         \
645         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
646             float32 t = cvt(b->element[i], &env->vec_status);           \
647             r->f32[i] = float32_scalbn(t, -uim, &env->vec_status);      \
648         }                                                               \
649     }
650 VCF(ux, uint32_to_float32, u32)
651 VCF(sx, int32_to_float32, s32)
652 #undef VCF
653 
654 #define VCMP_DO(suffix, compare, element, record)                       \
655     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
656                              ppc_avr_t *a, ppc_avr_t *b)                \
657     {                                                                   \
658         uint64_t ones = (uint64_t)-1;                                   \
659         uint64_t all = ones;                                            \
660         uint64_t none = 0;                                              \
661         int i;                                                          \
662                                                                         \
663         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
664             uint64_t result = (a->element[i] compare b->element[i] ?    \
665                                ones : 0x0);                             \
666             switch (sizeof(a->element[0])) {                            \
667             case 8:                                                     \
668                 r->u64[i] = result;                                     \
669                 break;                                                  \
670             case 4:                                                     \
671                 r->u32[i] = result;                                     \
672                 break;                                                  \
673             case 2:                                                     \
674                 r->u16[i] = result;                                     \
675                 break;                                                  \
676             case 1:                                                     \
677                 r->u8[i] = result;                                      \
678                 break;                                                  \
679             }                                                           \
680             all &= result;                                              \
681             none |= result;                                             \
682         }                                                               \
683         if (record) {                                                   \
684             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
685         }                                                               \
686     }
687 #define VCMP(suffix, compare, element)          \
688     VCMP_DO(suffix, compare, element, 0)        \
689     VCMP_DO(suffix##_dot, compare, element, 1)
690 VCMP(equb, ==, u8)
691 VCMP(equh, ==, u16)
692 VCMP(equw, ==, u32)
693 VCMP(equd, ==, u64)
694 VCMP(gtub, >, u8)
695 VCMP(gtuh, >, u16)
696 VCMP(gtuw, >, u32)
697 VCMP(gtud, >, u64)
698 VCMP(gtsb, >, s8)
699 VCMP(gtsh, >, s16)
700 VCMP(gtsw, >, s32)
701 VCMP(gtsd, >, s64)
702 #undef VCMP_DO
703 #undef VCMP
704 
705 #define VCMPNE_DO(suffix, element, etype, cmpzero, record)              \
706 void helper_vcmpne##suffix(CPUPPCState *env, ppc_avr_t *r,              \
707                             ppc_avr_t *a, ppc_avr_t *b)                 \
708 {                                                                       \
709     etype ones = (etype)-1;                                             \
710     etype all = ones;                                                   \
711     etype result, none = 0;                                             \
712     int i;                                                              \
713                                                                         \
714     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
715         if (cmpzero) {                                                  \
716             result = ((a->element[i] == 0)                              \
717                            || (b->element[i] == 0)                      \
718                            || (a->element[i] != b->element[i]) ?        \
719                            ones : 0x0);                                 \
720         } else {                                                        \
721             result = (a->element[i] != b->element[i]) ? ones : 0x0;     \
722         }                                                               \
723         r->element[i] = result;                                         \
724         all &= result;                                                  \
725         none |= result;                                                 \
726     }                                                                   \
727     if (record) {                                                       \
728         env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);           \
729     }                                                                   \
730 }
731 
732 /*
733  * VCMPNEZ - Vector compare not equal to zero
734  *   suffix  - instruction mnemonic suffix (b: byte, h: halfword, w: word)
735  *   element - element type to access from vector
736  */
737 #define VCMPNE(suffix, element, etype, cmpzero)         \
738     VCMPNE_DO(suffix, element, etype, cmpzero, 0)       \
739     VCMPNE_DO(suffix##_dot, element, etype, cmpzero, 1)
740 VCMPNE(zb, u8, uint8_t, 1)
741 VCMPNE(zh, u16, uint16_t, 1)
742 VCMPNE(zw, u32, uint32_t, 1)
743 VCMPNE(b, u8, uint8_t, 0)
744 VCMPNE(h, u16, uint16_t, 0)
745 VCMPNE(w, u32, uint32_t, 0)
746 #undef VCMPNE_DO
747 #undef VCMPNE
748 
749 #define VCMPFP_DO(suffix, compare, order, record)                       \
750     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
751                              ppc_avr_t *a, ppc_avr_t *b)                \
752     {                                                                   \
753         uint32_t ones = (uint32_t)-1;                                   \
754         uint32_t all = ones;                                            \
755         uint32_t none = 0;                                              \
756         int i;                                                          \
757                                                                         \
758         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
759             uint32_t result;                                            \
760             FloatRelation rel =                                         \
761                 float32_compare_quiet(a->f32[i], b->f32[i],             \
762                                       &env->vec_status);                \
763             if (rel == float_relation_unordered) {                      \
764                 result = 0;                                             \
765             } else if (rel compare order) {                             \
766                 result = ones;                                          \
767             } else {                                                    \
768                 result = 0;                                             \
769             }                                                           \
770             r->u32[i] = result;                                         \
771             all &= result;                                              \
772             none |= result;                                             \
773         }                                                               \
774         if (record) {                                                   \
775             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
776         }                                                               \
777     }
778 #define VCMPFP(suffix, compare, order)          \
779     VCMPFP_DO(suffix, compare, order, 0)        \
780     VCMPFP_DO(suffix##_dot, compare, order, 1)
781 VCMPFP(eqfp, ==, float_relation_equal)
782 VCMPFP(gefp, !=, float_relation_less)
783 VCMPFP(gtfp, ==, float_relation_greater)
784 #undef VCMPFP_DO
785 #undef VCMPFP
786 
787 static inline void vcmpbfp_internal(CPUPPCState *env, ppc_avr_t *r,
788                                     ppc_avr_t *a, ppc_avr_t *b, int record)
789 {
790     int i;
791     int all_in = 0;
792 
793     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
794         FloatRelation le_rel = float32_compare_quiet(a->f32[i], b->f32[i],
795                                                      &env->vec_status);
796         if (le_rel == float_relation_unordered) {
797             r->u32[i] = 0xc0000000;
798             all_in = 1;
799         } else {
800             float32 bneg = float32_chs(b->f32[i]);
801             FloatRelation ge_rel = float32_compare_quiet(a->f32[i], bneg,
802                                                          &env->vec_status);
803             int le = le_rel != float_relation_greater;
804             int ge = ge_rel != float_relation_less;
805 
806             r->u32[i] = ((!le) << 31) | ((!ge) << 30);
807             all_in |= (!le | !ge);
808         }
809     }
810     if (record) {
811         env->crf[6] = (all_in == 0) << 1;
812     }
813 }
814 
815 void helper_vcmpbfp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
816 {
817     vcmpbfp_internal(env, r, a, b, 0);
818 }
819 
820 void helper_vcmpbfp_dot(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
821                         ppc_avr_t *b)
822 {
823     vcmpbfp_internal(env, r, a, b, 1);
824 }
825 
826 #define VCT(suffix, satcvt, element)                                    \
827     void helper_vct##suffix(CPUPPCState *env, ppc_avr_t *r,             \
828                             ppc_avr_t *b, uint32_t uim)                 \
829     {                                                                   \
830         int i;                                                          \
831         int sat = 0;                                                    \
832         float_status s = env->vec_status;                               \
833                                                                         \
834         set_float_rounding_mode(float_round_to_zero, &s);               \
835         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
836             if (float32_is_any_nan(b->f32[i])) {                        \
837                 r->element[i] = 0;                                      \
838             } else {                                                    \
839                 float64 t = float32_to_float64(b->f32[i], &s);          \
840                 int64_t j;                                              \
841                                                                         \
842                 t = float64_scalbn(t, uim, &s);                         \
843                 j = float64_to_int64(t, &s);                            \
844                 r->element[i] = satcvt(j, &sat);                        \
845             }                                                           \
846         }                                                               \
847         if (sat) {                                                      \
848             set_vscr_sat(env);                                          \
849         }                                                               \
850     }
851 VCT(uxs, cvtsduw, u32)
852 VCT(sxs, cvtsdsw, s32)
853 #undef VCT
854 
855 target_ulong helper_vclzlsbb(ppc_avr_t *r)
856 {
857     target_ulong count = 0;
858     int i;
859     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
860         if (r->VsrB(i) & 0x01) {
861             break;
862         }
863         count++;
864     }
865     return count;
866 }
867 
868 target_ulong helper_vctzlsbb(ppc_avr_t *r)
869 {
870     target_ulong count = 0;
871     int i;
872     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
873         if (r->VsrB(i) & 0x01) {
874             break;
875         }
876         count++;
877     }
878     return count;
879 }
880 
881 void helper_vmhaddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
882                       ppc_avr_t *b, ppc_avr_t *c)
883 {
884     int sat = 0;
885     int i;
886 
887     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
888         int32_t prod = a->s16[i] * b->s16[i];
889         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
890 
891         r->s16[i] = cvtswsh(t, &sat);
892     }
893 
894     if (sat) {
895         set_vscr_sat(env);
896     }
897 }
898 
899 void helper_vmhraddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
900                        ppc_avr_t *b, ppc_avr_t *c)
901 {
902     int sat = 0;
903     int i;
904 
905     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
906         int32_t prod = a->s16[i] * b->s16[i] + 0x00004000;
907         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
908         r->s16[i] = cvtswsh(t, &sat);
909     }
910 
911     if (sat) {
912         set_vscr_sat(env);
913     }
914 }
915 
916 void helper_vmladduhm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
917 {
918     int i;
919 
920     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
921         int32_t prod = a->s16[i] * b->s16[i];
922         r->s16[i] = (int16_t) (prod + c->s16[i]);
923     }
924 }
925 
926 #define VMRG_DO(name, element, access, ofs)                                  \
927     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)            \
928     {                                                                        \
929         ppc_avr_t result;                                                    \
930         int i, half = ARRAY_SIZE(r->element) / 2;                            \
931                                                                              \
932         for (i = 0; i < half; i++) {                                         \
933             result.access(i * 2 + 0) = a->access(i + ofs);                   \
934             result.access(i * 2 + 1) = b->access(i + ofs);                   \
935         }                                                                    \
936         *r = result;                                                         \
937     }
938 
939 #define VMRG(suffix, element, access)          \
940     VMRG_DO(mrgl##suffix, element, access, half)   \
941     VMRG_DO(mrgh##suffix, element, access, 0)
942 VMRG(b, u8, VsrB)
943 VMRG(h, u16, VsrH)
944 VMRG(w, u32, VsrW)
945 #undef VMRG_DO
946 #undef VMRG
947 
948 void helper_vmsummbm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
949                      ppc_avr_t *b, ppc_avr_t *c)
950 {
951     int32_t prod[16];
952     int i;
953 
954     for (i = 0; i < ARRAY_SIZE(r->s8); i++) {
955         prod[i] = (int32_t)a->s8[i] * b->u8[i];
956     }
957 
958     VECTOR_FOR_INORDER_I(i, s32) {
959         r->s32[i] = c->s32[i] + prod[4 * i] + prod[4 * i + 1] +
960             prod[4 * i + 2] + prod[4 * i + 3];
961     }
962 }
963 
964 void helper_vmsumshm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
965                      ppc_avr_t *b, ppc_avr_t *c)
966 {
967     int32_t prod[8];
968     int i;
969 
970     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
971         prod[i] = a->s16[i] * b->s16[i];
972     }
973 
974     VECTOR_FOR_INORDER_I(i, s32) {
975         r->s32[i] = c->s32[i] + prod[2 * i] + prod[2 * i + 1];
976     }
977 }
978 
979 void helper_vmsumshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
980                      ppc_avr_t *b, ppc_avr_t *c)
981 {
982     int32_t prod[8];
983     int i;
984     int sat = 0;
985 
986     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
987         prod[i] = (int32_t)a->s16[i] * b->s16[i];
988     }
989 
990     VECTOR_FOR_INORDER_I(i, s32) {
991         int64_t t = (int64_t)c->s32[i] + prod[2 * i] + prod[2 * i + 1];
992 
993         r->u32[i] = cvtsdsw(t, &sat);
994     }
995 
996     if (sat) {
997         set_vscr_sat(env);
998     }
999 }
1000 
1001 void helper_vmsumubm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1002                      ppc_avr_t *b, ppc_avr_t *c)
1003 {
1004     uint16_t prod[16];
1005     int i;
1006 
1007     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1008         prod[i] = a->u8[i] * b->u8[i];
1009     }
1010 
1011     VECTOR_FOR_INORDER_I(i, u32) {
1012         r->u32[i] = c->u32[i] + prod[4 * i] + prod[4 * i + 1] +
1013             prod[4 * i + 2] + prod[4 * i + 3];
1014     }
1015 }
1016 
1017 void helper_vmsumuhm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1018                      ppc_avr_t *b, ppc_avr_t *c)
1019 {
1020     uint32_t prod[8];
1021     int i;
1022 
1023     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1024         prod[i] = a->u16[i] * b->u16[i];
1025     }
1026 
1027     VECTOR_FOR_INORDER_I(i, u32) {
1028         r->u32[i] = c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1029     }
1030 }
1031 
1032 void helper_vmsumuhs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1033                      ppc_avr_t *b, ppc_avr_t *c)
1034 {
1035     uint32_t prod[8];
1036     int i;
1037     int sat = 0;
1038 
1039     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1040         prod[i] = a->u16[i] * b->u16[i];
1041     }
1042 
1043     VECTOR_FOR_INORDER_I(i, s32) {
1044         uint64_t t = (uint64_t)c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1045 
1046         r->u32[i] = cvtuduw(t, &sat);
1047     }
1048 
1049     if (sat) {
1050         set_vscr_sat(env);
1051     }
1052 }
1053 
1054 #define VMUL_DO_EVN(name, mul_element, mul_access, prod_access, cast)   \
1055     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1056     {                                                                   \
1057         int i;                                                          \
1058                                                                         \
1059         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1060             r->prod_access(i >> 1) = (cast)a->mul_access(i) *           \
1061                                      (cast)b->mul_access(i);            \
1062         }                                                               \
1063     }
1064 
1065 #define VMUL_DO_ODD(name, mul_element, mul_access, prod_access, cast)   \
1066     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1067     {                                                                   \
1068         int i;                                                          \
1069                                                                         \
1070         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1071             r->prod_access(i >> 1) = (cast)a->mul_access(i + 1) *       \
1072                                      (cast)b->mul_access(i + 1);        \
1073         }                                                               \
1074     }
1075 
1076 #define VMUL(suffix, mul_element, mul_access, prod_access, cast)       \
1077     VMUL_DO_EVN(mule##suffix, mul_element, mul_access, prod_access, cast)  \
1078     VMUL_DO_ODD(mulo##suffix, mul_element, mul_access, prod_access, cast)
1079 VMUL(sb, s8, VsrSB, VsrSH, int16_t)
1080 VMUL(sh, s16, VsrSH, VsrSW, int32_t)
1081 VMUL(sw, s32, VsrSW, VsrSD, int64_t)
1082 VMUL(ub, u8, VsrB, VsrH, uint16_t)
1083 VMUL(uh, u16, VsrH, VsrW, uint32_t)
1084 VMUL(uw, u32, VsrW, VsrD, uint64_t)
1085 #undef VMUL_DO_EVN
1086 #undef VMUL_DO_ODD
1087 #undef VMUL
1088 
1089 void helper_vmulhsw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1090 {
1091     int i;
1092 
1093     for (i = 0; i < 4; i++) {
1094         r->s32[i] = (int32_t)(((int64_t)a->s32[i] * (int64_t)b->s32[i]) >> 32);
1095     }
1096 }
1097 
1098 void helper_vmulhuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1099 {
1100     int i;
1101 
1102     for (i = 0; i < 4; i++) {
1103         r->u32[i] = (uint32_t)(((uint64_t)a->u32[i] *
1104                                (uint64_t)b->u32[i]) >> 32);
1105     }
1106 }
1107 
1108 void helper_vmulhsd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1109 {
1110     uint64_t discard;
1111 
1112     muls64(&discard, &r->u64[0], a->s64[0], b->s64[0]);
1113     muls64(&discard, &r->u64[1], a->s64[1], b->s64[1]);
1114 }
1115 
1116 void helper_vmulhud(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1117 {
1118     uint64_t discard;
1119 
1120     mulu64(&discard, &r->u64[0], a->u64[0], b->u64[0]);
1121     mulu64(&discard, &r->u64[1], a->u64[1], b->u64[1]);
1122 }
1123 
1124 void helper_vperm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1125                   ppc_avr_t *c)
1126 {
1127     ppc_avr_t result;
1128     int i;
1129 
1130     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1131         int s = c->VsrB(i) & 0x1f;
1132         int index = s & 0xf;
1133 
1134         if (s & 0x10) {
1135             result.VsrB(i) = b->VsrB(index);
1136         } else {
1137             result.VsrB(i) = a->VsrB(index);
1138         }
1139     }
1140     *r = result;
1141 }
1142 
1143 void helper_vpermr(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1144                   ppc_avr_t *c)
1145 {
1146     ppc_avr_t result;
1147     int i;
1148 
1149     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1150         int s = c->VsrB(i) & 0x1f;
1151         int index = 15 - (s & 0xf);
1152 
1153         if (s & 0x10) {
1154             result.VsrB(i) = a->VsrB(index);
1155         } else {
1156             result.VsrB(i) = b->VsrB(index);
1157         }
1158     }
1159     *r = result;
1160 }
1161 
1162 #if defined(HOST_WORDS_BIGENDIAN)
1163 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[(i)])
1164 #define VBPERMD_INDEX(i) (i)
1165 #define VBPERMQ_DW(index) (((index) & 0x40) != 0)
1166 #define EXTRACT_BIT(avr, i, index) (extract64((avr)->u64[i], index, 1))
1167 #else
1168 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[15 - (i)])
1169 #define VBPERMD_INDEX(i) (1 - i)
1170 #define VBPERMQ_DW(index) (((index) & 0x40) == 0)
1171 #define EXTRACT_BIT(avr, i, index) \
1172         (extract64((avr)->u64[1 - i], 63 - index, 1))
1173 #endif
1174 
1175 void helper_vbpermd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1176 {
1177     int i, j;
1178     ppc_avr_t result = { .u64 = { 0, 0 } };
1179     VECTOR_FOR_INORDER_I(i, u64) {
1180         for (j = 0; j < 8; j++) {
1181             int index = VBPERMQ_INDEX(b, (i * 8) + j);
1182             if (index < 64 && EXTRACT_BIT(a, i, index)) {
1183                 result.u64[VBPERMD_INDEX(i)] |= (0x80 >> j);
1184             }
1185         }
1186     }
1187     *r = result;
1188 }
1189 
1190 void helper_vbpermq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1191 {
1192     int i;
1193     uint64_t perm = 0;
1194 
1195     VECTOR_FOR_INORDER_I(i, u8) {
1196         int index = VBPERMQ_INDEX(b, i);
1197 
1198         if (index < 128) {
1199             uint64_t mask = (1ull << (63 - (index & 0x3F)));
1200             if (a->u64[VBPERMQ_DW(index)] & mask) {
1201                 perm |= (0x8000 >> i);
1202             }
1203         }
1204     }
1205 
1206     r->VsrD(0) = perm;
1207     r->VsrD(1) = 0;
1208 }
1209 
1210 #undef VBPERMQ_INDEX
1211 #undef VBPERMQ_DW
1212 
1213 #define PMSUM(name, srcfld, trgfld, trgtyp)                   \
1214 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)  \
1215 {                                                             \
1216     int i, j;                                                 \
1217     trgtyp prod[sizeof(ppc_avr_t) / sizeof(a->srcfld[0])];    \
1218                                                               \
1219     VECTOR_FOR_INORDER_I(i, srcfld) {                         \
1220         prod[i] = 0;                                          \
1221         for (j = 0; j < sizeof(a->srcfld[0]) * 8; j++) {      \
1222             if (a->srcfld[i] & (1ull << j)) {                 \
1223                 prod[i] ^= ((trgtyp)b->srcfld[i] << j);       \
1224             }                                                 \
1225         }                                                     \
1226     }                                                         \
1227                                                               \
1228     VECTOR_FOR_INORDER_I(i, trgfld) {                         \
1229         r->trgfld[i] = prod[2 * i] ^ prod[2 * i + 1];         \
1230     }                                                         \
1231 }
1232 
1233 PMSUM(vpmsumb, u8, u16, uint16_t)
1234 PMSUM(vpmsumh, u16, u32, uint32_t)
1235 PMSUM(vpmsumw, u32, u64, uint64_t)
1236 
1237 void helper_vpmsumd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1238 {
1239 
1240 #ifdef CONFIG_INT128
1241     int i, j;
1242     __uint128_t prod[2];
1243 
1244     VECTOR_FOR_INORDER_I(i, u64) {
1245         prod[i] = 0;
1246         for (j = 0; j < 64; j++) {
1247             if (a->u64[i] & (1ull << j)) {
1248                 prod[i] ^= (((__uint128_t)b->u64[i]) << j);
1249             }
1250         }
1251     }
1252 
1253     r->u128 = prod[0] ^ prod[1];
1254 
1255 #else
1256     int i, j;
1257     ppc_avr_t prod[2];
1258 
1259     VECTOR_FOR_INORDER_I(i, u64) {
1260         prod[i].VsrD(1) = prod[i].VsrD(0) = 0;
1261         for (j = 0; j < 64; j++) {
1262             if (a->u64[i] & (1ull << j)) {
1263                 ppc_avr_t bshift;
1264                 if (j == 0) {
1265                     bshift.VsrD(0) = 0;
1266                     bshift.VsrD(1) = b->u64[i];
1267                 } else {
1268                     bshift.VsrD(0) = b->u64[i] >> (64 - j);
1269                     bshift.VsrD(1) = b->u64[i] << j;
1270                 }
1271                 prod[i].VsrD(1) ^= bshift.VsrD(1);
1272                 prod[i].VsrD(0) ^= bshift.VsrD(0);
1273             }
1274         }
1275     }
1276 
1277     r->VsrD(1) = prod[0].VsrD(1) ^ prod[1].VsrD(1);
1278     r->VsrD(0) = prod[0].VsrD(0) ^ prod[1].VsrD(0);
1279 #endif
1280 }
1281 
1282 
1283 #if defined(HOST_WORDS_BIGENDIAN)
1284 #define PKBIG 1
1285 #else
1286 #define PKBIG 0
1287 #endif
1288 void helper_vpkpx(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1289 {
1290     int i, j;
1291     ppc_avr_t result;
1292 #if defined(HOST_WORDS_BIGENDIAN)
1293     const ppc_avr_t *x[2] = { a, b };
1294 #else
1295     const ppc_avr_t *x[2] = { b, a };
1296 #endif
1297 
1298     VECTOR_FOR_INORDER_I(i, u64) {
1299         VECTOR_FOR_INORDER_I(j, u32) {
1300             uint32_t e = x[i]->u32[j];
1301 
1302             result.u16[4 * i + j] = (((e >> 9) & 0xfc00) |
1303                                      ((e >> 6) & 0x3e0) |
1304                                      ((e >> 3) & 0x1f));
1305         }
1306     }
1307     *r = result;
1308 }
1309 
1310 #define VPK(suffix, from, to, cvt, dosat)                               \
1311     void helper_vpk##suffix(CPUPPCState *env, ppc_avr_t *r,             \
1312                             ppc_avr_t *a, ppc_avr_t *b)                 \
1313     {                                                                   \
1314         int i;                                                          \
1315         int sat = 0;                                                    \
1316         ppc_avr_t result;                                               \
1317         ppc_avr_t *a0 = PKBIG ? a : b;                                  \
1318         ppc_avr_t *a1 = PKBIG ? b : a;                                  \
1319                                                                         \
1320         VECTOR_FOR_INORDER_I(i, from) {                                 \
1321             result.to[i] = cvt(a0->from[i], &sat);                      \
1322             result.to[i + ARRAY_SIZE(r->from)] = cvt(a1->from[i], &sat);\
1323         }                                                               \
1324         *r = result;                                                    \
1325         if (dosat && sat) {                                             \
1326             set_vscr_sat(env);                                          \
1327         }                                                               \
1328     }
1329 #define I(x, y) (x)
1330 VPK(shss, s16, s8, cvtshsb, 1)
1331 VPK(shus, s16, u8, cvtshub, 1)
1332 VPK(swss, s32, s16, cvtswsh, 1)
1333 VPK(swus, s32, u16, cvtswuh, 1)
1334 VPK(sdss, s64, s32, cvtsdsw, 1)
1335 VPK(sdus, s64, u32, cvtsduw, 1)
1336 VPK(uhus, u16, u8, cvtuhub, 1)
1337 VPK(uwus, u32, u16, cvtuwuh, 1)
1338 VPK(udus, u64, u32, cvtuduw, 1)
1339 VPK(uhum, u16, u8, I, 0)
1340 VPK(uwum, u32, u16, I, 0)
1341 VPK(udum, u64, u32, I, 0)
1342 #undef I
1343 #undef VPK
1344 #undef PKBIG
1345 
1346 void helper_vrefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1347 {
1348     int i;
1349 
1350     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1351         r->f32[i] = float32_div(float32_one, b->f32[i], &env->vec_status);
1352     }
1353 }
1354 
1355 #define VRFI(suffix, rounding)                                  \
1356     void helper_vrfi##suffix(CPUPPCState *env, ppc_avr_t *r,    \
1357                              ppc_avr_t *b)                      \
1358     {                                                           \
1359         int i;                                                  \
1360         float_status s = env->vec_status;                       \
1361                                                                 \
1362         set_float_rounding_mode(rounding, &s);                  \
1363         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {              \
1364             r->f32[i] = float32_round_to_int (b->f32[i], &s);   \
1365         }                                                       \
1366     }
1367 VRFI(n, float_round_nearest_even)
1368 VRFI(m, float_round_down)
1369 VRFI(p, float_round_up)
1370 VRFI(z, float_round_to_zero)
1371 #undef VRFI
1372 
1373 void helper_vrsqrtefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1374 {
1375     int i;
1376 
1377     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1378         float32 t = float32_sqrt(b->f32[i], &env->vec_status);
1379 
1380         r->f32[i] = float32_div(float32_one, t, &env->vec_status);
1381     }
1382 }
1383 
1384 #define VRLMI(name, size, element, insert)                            \
1385 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)          \
1386 {                                                                     \
1387     int i;                                                            \
1388     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                    \
1389         uint##size##_t src1 = a->element[i];                          \
1390         uint##size##_t src2 = b->element[i];                          \
1391         uint##size##_t src3 = r->element[i];                          \
1392         uint##size##_t begin, end, shift, mask, rot_val;              \
1393                                                                       \
1394         shift = extract##size(src2, 0, 6);                            \
1395         end   = extract##size(src2, 8, 6);                            \
1396         begin = extract##size(src2, 16, 6);                           \
1397         rot_val = rol##size(src1, shift);                             \
1398         mask = mask_u##size(begin, end);                              \
1399         if (insert) {                                                 \
1400             r->element[i] = (rot_val & mask) | (src3 & ~mask);        \
1401         } else {                                                      \
1402             r->element[i] = (rot_val & mask);                         \
1403         }                                                             \
1404     }                                                                 \
1405 }
1406 
1407 VRLMI(vrldmi, 64, u64, 1);
1408 VRLMI(vrlwmi, 32, u32, 1);
1409 VRLMI(vrldnm, 64, u64, 0);
1410 VRLMI(vrlwnm, 32, u32, 0);
1411 
1412 void helper_vsel(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1413                  ppc_avr_t *c)
1414 {
1415     r->u64[0] = (a->u64[0] & ~c->u64[0]) | (b->u64[0] & c->u64[0]);
1416     r->u64[1] = (a->u64[1] & ~c->u64[1]) | (b->u64[1] & c->u64[1]);
1417 }
1418 
1419 void helper_vexptefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1420 {
1421     int i;
1422 
1423     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1424         r->f32[i] = float32_exp2(b->f32[i], &env->vec_status);
1425     }
1426 }
1427 
1428 void helper_vlogefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1429 {
1430     int i;
1431 
1432     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1433         r->f32[i] = float32_log2(b->f32[i], &env->vec_status);
1434     }
1435 }
1436 
1437 #if defined(HOST_WORDS_BIGENDIAN)
1438 #define VEXTU_X_DO(name, size, left)                                \
1439     target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1440     {                                                               \
1441         int index;                                                  \
1442         if (left) {                                                 \
1443             index = (a & 0xf) * 8;                                  \
1444         } else {                                                    \
1445             index = ((15 - (a & 0xf) + 1) * 8) - size;              \
1446         }                                                           \
1447         return int128_getlo(int128_rshift(b->s128, index)) &        \
1448             MAKE_64BIT_MASK(0, size);                               \
1449     }
1450 #else
1451 #define VEXTU_X_DO(name, size, left)                                \
1452     target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1453     {                                                               \
1454         int index;                                                  \
1455         if (left) {                                                 \
1456             index = ((15 - (a & 0xf) + 1) * 8) - size;              \
1457         } else {                                                    \
1458             index = (a & 0xf) * 8;                                  \
1459         }                                                           \
1460         return int128_getlo(int128_rshift(b->s128, index)) &        \
1461             MAKE_64BIT_MASK(0, size);                               \
1462     }
1463 #endif
1464 
1465 VEXTU_X_DO(vextublx,  8, 1)
1466 VEXTU_X_DO(vextuhlx, 16, 1)
1467 VEXTU_X_DO(vextuwlx, 32, 1)
1468 VEXTU_X_DO(vextubrx,  8, 0)
1469 VEXTU_X_DO(vextuhrx, 16, 0)
1470 VEXTU_X_DO(vextuwrx, 32, 0)
1471 #undef VEXTU_X_DO
1472 
1473 void helper_vslv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1474 {
1475     int i;
1476     unsigned int shift, bytes, size;
1477 
1478     size = ARRAY_SIZE(r->u8);
1479     for (i = 0; i < size; i++) {
1480         shift = b->VsrB(i) & 0x7;             /* extract shift value */
1481         bytes = (a->VsrB(i) << 8) +           /* extract adjacent bytes */
1482             (((i + 1) < size) ? a->VsrB(i + 1) : 0);
1483         r->VsrB(i) = (bytes << shift) >> 8;   /* shift and store result */
1484     }
1485 }
1486 
1487 void helper_vsrv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1488 {
1489     int i;
1490     unsigned int shift, bytes;
1491 
1492     /*
1493      * Use reverse order, as destination and source register can be
1494      * same. Its being modified in place saving temporary, reverse
1495      * order will guarantee that computed result is not fed back.
1496      */
1497     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
1498         shift = b->VsrB(i) & 0x7;               /* extract shift value */
1499         bytes = ((i ? a->VsrB(i - 1) : 0) << 8) + a->VsrB(i);
1500                                                 /* extract adjacent bytes */
1501         r->VsrB(i) = (bytes >> shift) & 0xFF;   /* shift and store result */
1502     }
1503 }
1504 
1505 void helper_vsldoi(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t shift)
1506 {
1507     int sh = shift & 0xf;
1508     int i;
1509     ppc_avr_t result;
1510 
1511     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1512         int index = sh + i;
1513         if (index > 0xf) {
1514             result.VsrB(i) = b->VsrB(index - 0x10);
1515         } else {
1516             result.VsrB(i) = a->VsrB(index);
1517         }
1518     }
1519     *r = result;
1520 }
1521 
1522 void helper_vslo(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1523 {
1524     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1525 
1526 #if defined(HOST_WORDS_BIGENDIAN)
1527     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1528     memset(&r->u8[16 - sh], 0, sh);
1529 #else
1530     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1531     memset(&r->u8[0], 0, sh);
1532 #endif
1533 }
1534 
1535 #if defined(HOST_WORDS_BIGENDIAN)
1536 #define VINSERT(suffix, element)                                            \
1537     void helper_vinsert##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1538     {                                                                       \
1539         memmove(&r->u8[index], &b->u8[8 - sizeof(r->element[0])],           \
1540                sizeof(r->element[0]));                                      \
1541     }
1542 #else
1543 #define VINSERT(suffix, element)                                            \
1544     void helper_vinsert##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1545     {                                                                       \
1546         uint32_t d = (16 - index) - sizeof(r->element[0]);                  \
1547         memmove(&r->u8[d], &b->u8[8], sizeof(r->element[0]));               \
1548     }
1549 #endif
1550 VINSERT(b, u8)
1551 VINSERT(h, u16)
1552 VINSERT(w, u32)
1553 VINSERT(d, u64)
1554 #undef VINSERT
1555 #if defined(HOST_WORDS_BIGENDIAN)
1556 #define VEXTRACT(suffix, element)                                            \
1557     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1558     {                                                                        \
1559         uint32_t es = sizeof(r->element[0]);                                 \
1560         memmove(&r->u8[8 - es], &b->u8[index], es);                          \
1561         memset(&r->u8[8], 0, 8);                                             \
1562         memset(&r->u8[0], 0, 8 - es);                                        \
1563     }
1564 #else
1565 #define VEXTRACT(suffix, element)                                            \
1566     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1567     {                                                                        \
1568         uint32_t es = sizeof(r->element[0]);                                 \
1569         uint32_t s = (16 - index) - es;                                      \
1570         memmove(&r->u8[8], &b->u8[s], es);                                   \
1571         memset(&r->u8[0], 0, 8);                                             \
1572         memset(&r->u8[8 + es], 0, 8 - es);                                   \
1573     }
1574 #endif
1575 VEXTRACT(ub, u8)
1576 VEXTRACT(uh, u16)
1577 VEXTRACT(uw, u32)
1578 VEXTRACT(d, u64)
1579 #undef VEXTRACT
1580 
1581 void helper_xxextractuw(CPUPPCState *env, ppc_vsr_t *xt,
1582                         ppc_vsr_t *xb, uint32_t index)
1583 {
1584     ppc_vsr_t t = { };
1585     size_t es = sizeof(uint32_t);
1586     uint32_t ext_index;
1587     int i;
1588 
1589     ext_index = index;
1590     for (i = 0; i < es; i++, ext_index++) {
1591         t.VsrB(8 - es + i) = xb->VsrB(ext_index % 16);
1592     }
1593 
1594     *xt = t;
1595 }
1596 
1597 void helper_xxinsertw(CPUPPCState *env, ppc_vsr_t *xt,
1598                       ppc_vsr_t *xb, uint32_t index)
1599 {
1600     ppc_vsr_t t = *xt;
1601     size_t es = sizeof(uint32_t);
1602     int ins_index, i = 0;
1603 
1604     ins_index = index;
1605     for (i = 0; i < es && ins_index < 16; i++, ins_index++) {
1606         t.VsrB(ins_index) = xb->VsrB(8 - es + i);
1607     }
1608 
1609     *xt = t;
1610 }
1611 
1612 #define VEXT_SIGNED(name, element, cast)                            \
1613 void helper_##name(ppc_avr_t *r, ppc_avr_t *b)                      \
1614 {                                                                   \
1615     int i;                                                          \
1616     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1617         r->element[i] = (cast)b->element[i];                        \
1618     }                                                               \
1619 }
1620 VEXT_SIGNED(vextsb2w, s32, int8_t)
1621 VEXT_SIGNED(vextsb2d, s64, int8_t)
1622 VEXT_SIGNED(vextsh2w, s32, int16_t)
1623 VEXT_SIGNED(vextsh2d, s64, int16_t)
1624 VEXT_SIGNED(vextsw2d, s64, int32_t)
1625 #undef VEXT_SIGNED
1626 
1627 #define VNEG(name, element)                                         \
1628 void helper_##name(ppc_avr_t *r, ppc_avr_t *b)                      \
1629 {                                                                   \
1630     int i;                                                          \
1631     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1632         r->element[i] = -b->element[i];                             \
1633     }                                                               \
1634 }
1635 VNEG(vnegw, s32)
1636 VNEG(vnegd, s64)
1637 #undef VNEG
1638 
1639 void helper_vsro(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1640 {
1641     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1642 
1643 #if defined(HOST_WORDS_BIGENDIAN)
1644     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1645     memset(&r->u8[0], 0, sh);
1646 #else
1647     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1648     memset(&r->u8[16 - sh], 0, sh);
1649 #endif
1650 }
1651 
1652 void helper_vsubcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1653 {
1654     int i;
1655 
1656     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1657         r->u32[i] = a->u32[i] >= b->u32[i];
1658     }
1659 }
1660 
1661 void helper_vsumsws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1662 {
1663     int64_t t;
1664     int i, upper;
1665     ppc_avr_t result;
1666     int sat = 0;
1667 
1668     upper = ARRAY_SIZE(r->s32) - 1;
1669     t = (int64_t)b->VsrSW(upper);
1670     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1671         t += a->VsrSW(i);
1672         result.VsrSW(i) = 0;
1673     }
1674     result.VsrSW(upper) = cvtsdsw(t, &sat);
1675     *r = result;
1676 
1677     if (sat) {
1678         set_vscr_sat(env);
1679     }
1680 }
1681 
1682 void helper_vsum2sws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1683 {
1684     int i, j, upper;
1685     ppc_avr_t result;
1686     int sat = 0;
1687 
1688     upper = 1;
1689     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
1690         int64_t t = (int64_t)b->VsrSW(upper + i * 2);
1691 
1692         result.VsrD(i) = 0;
1693         for (j = 0; j < ARRAY_SIZE(r->u64); j++) {
1694             t += a->VsrSW(2 * i + j);
1695         }
1696         result.VsrSW(upper + i * 2) = cvtsdsw(t, &sat);
1697     }
1698 
1699     *r = result;
1700     if (sat) {
1701         set_vscr_sat(env);
1702     }
1703 }
1704 
1705 void helper_vsum4sbs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1706 {
1707     int i, j;
1708     int sat = 0;
1709 
1710     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1711         int64_t t = (int64_t)b->s32[i];
1712 
1713         for (j = 0; j < ARRAY_SIZE(r->s32); j++) {
1714             t += a->s8[4 * i + j];
1715         }
1716         r->s32[i] = cvtsdsw(t, &sat);
1717     }
1718 
1719     if (sat) {
1720         set_vscr_sat(env);
1721     }
1722 }
1723 
1724 void helper_vsum4shs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1725 {
1726     int sat = 0;
1727     int i;
1728 
1729     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1730         int64_t t = (int64_t)b->s32[i];
1731 
1732         t += a->s16[2 * i] + a->s16[2 * i + 1];
1733         r->s32[i] = cvtsdsw(t, &sat);
1734     }
1735 
1736     if (sat) {
1737         set_vscr_sat(env);
1738     }
1739 }
1740 
1741 void helper_vsum4ubs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1742 {
1743     int i, j;
1744     int sat = 0;
1745 
1746     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1747         uint64_t t = (uint64_t)b->u32[i];
1748 
1749         for (j = 0; j < ARRAY_SIZE(r->u32); j++) {
1750             t += a->u8[4 * i + j];
1751         }
1752         r->u32[i] = cvtuduw(t, &sat);
1753     }
1754 
1755     if (sat) {
1756         set_vscr_sat(env);
1757     }
1758 }
1759 
1760 #if defined(HOST_WORDS_BIGENDIAN)
1761 #define UPKHI 1
1762 #define UPKLO 0
1763 #else
1764 #define UPKHI 0
1765 #define UPKLO 1
1766 #endif
1767 #define VUPKPX(suffix, hi)                                              \
1768     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
1769     {                                                                   \
1770         int i;                                                          \
1771         ppc_avr_t result;                                               \
1772                                                                         \
1773         for (i = 0; i < ARRAY_SIZE(r->u32); i++) {                      \
1774             uint16_t e = b->u16[hi ? i : i + 4];                        \
1775             uint8_t a = (e >> 15) ? 0xff : 0;                           \
1776             uint8_t r = (e >> 10) & 0x1f;                               \
1777             uint8_t g = (e >> 5) & 0x1f;                                \
1778             uint8_t b = e & 0x1f;                                       \
1779                                                                         \
1780             result.u32[i] = (a << 24) | (r << 16) | (g << 8) | b;       \
1781         }                                                               \
1782         *r = result;                                                    \
1783     }
1784 VUPKPX(lpx, UPKLO)
1785 VUPKPX(hpx, UPKHI)
1786 #undef VUPKPX
1787 
1788 #define VUPK(suffix, unpacked, packee, hi)                              \
1789     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
1790     {                                                                   \
1791         int i;                                                          \
1792         ppc_avr_t result;                                               \
1793                                                                         \
1794         if (hi) {                                                       \
1795             for (i = 0; i < ARRAY_SIZE(r->unpacked); i++) {             \
1796                 result.unpacked[i] = b->packee[i];                      \
1797             }                                                           \
1798         } else {                                                        \
1799             for (i = ARRAY_SIZE(r->unpacked); i < ARRAY_SIZE(r->packee); \
1800                  i++) {                                                 \
1801                 result.unpacked[i - ARRAY_SIZE(r->unpacked)] = b->packee[i]; \
1802             }                                                           \
1803         }                                                               \
1804         *r = result;                                                    \
1805     }
1806 VUPK(hsb, s16, s8, UPKHI)
1807 VUPK(hsh, s32, s16, UPKHI)
1808 VUPK(hsw, s64, s32, UPKHI)
1809 VUPK(lsb, s16, s8, UPKLO)
1810 VUPK(lsh, s32, s16, UPKLO)
1811 VUPK(lsw, s64, s32, UPKLO)
1812 #undef VUPK
1813 #undef UPKHI
1814 #undef UPKLO
1815 
1816 #define VGENERIC_DO(name, element)                                      \
1817     void helper_v##name(ppc_avr_t *r, ppc_avr_t *b)                     \
1818     {                                                                   \
1819         int i;                                                          \
1820                                                                         \
1821         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1822             r->element[i] = name(b->element[i]);                        \
1823         }                                                               \
1824     }
1825 
1826 #define clzb(v) ((v) ? clz32((uint32_t)(v) << 24) : 8)
1827 #define clzh(v) ((v) ? clz32((uint32_t)(v) << 16) : 16)
1828 
1829 VGENERIC_DO(clzb, u8)
1830 VGENERIC_DO(clzh, u16)
1831 
1832 #undef clzb
1833 #undef clzh
1834 
1835 #define ctzb(v) ((v) ? ctz32(v) : 8)
1836 #define ctzh(v) ((v) ? ctz32(v) : 16)
1837 #define ctzw(v) ctz32((v))
1838 #define ctzd(v) ctz64((v))
1839 
1840 VGENERIC_DO(ctzb, u8)
1841 VGENERIC_DO(ctzh, u16)
1842 VGENERIC_DO(ctzw, u32)
1843 VGENERIC_DO(ctzd, u64)
1844 
1845 #undef ctzb
1846 #undef ctzh
1847 #undef ctzw
1848 #undef ctzd
1849 
1850 #define popcntb(v) ctpop8(v)
1851 #define popcnth(v) ctpop16(v)
1852 #define popcntw(v) ctpop32(v)
1853 #define popcntd(v) ctpop64(v)
1854 
1855 VGENERIC_DO(popcntb, u8)
1856 VGENERIC_DO(popcnth, u16)
1857 VGENERIC_DO(popcntw, u32)
1858 VGENERIC_DO(popcntd, u64)
1859 
1860 #undef popcntb
1861 #undef popcnth
1862 #undef popcntw
1863 #undef popcntd
1864 
1865 #undef VGENERIC_DO
1866 
1867 #if defined(HOST_WORDS_BIGENDIAN)
1868 #define QW_ONE { .u64 = { 0, 1 } }
1869 #else
1870 #define QW_ONE { .u64 = { 1, 0 } }
1871 #endif
1872 
1873 #ifndef CONFIG_INT128
1874 
1875 static inline void avr_qw_not(ppc_avr_t *t, ppc_avr_t a)
1876 {
1877     t->u64[0] = ~a.u64[0];
1878     t->u64[1] = ~a.u64[1];
1879 }
1880 
1881 static int avr_qw_cmpu(ppc_avr_t a, ppc_avr_t b)
1882 {
1883     if (a.VsrD(0) < b.VsrD(0)) {
1884         return -1;
1885     } else if (a.VsrD(0) > b.VsrD(0)) {
1886         return 1;
1887     } else if (a.VsrD(1) < b.VsrD(1)) {
1888         return -1;
1889     } else if (a.VsrD(1) > b.VsrD(1)) {
1890         return 1;
1891     } else {
1892         return 0;
1893     }
1894 }
1895 
1896 static void avr_qw_add(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
1897 {
1898     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
1899     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
1900                      (~a.VsrD(1) < b.VsrD(1));
1901 }
1902 
1903 static int avr_qw_addc(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
1904 {
1905     ppc_avr_t not_a;
1906     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
1907     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
1908                      (~a.VsrD(1) < b.VsrD(1));
1909     avr_qw_not(&not_a, a);
1910     return avr_qw_cmpu(not_a, b) < 0;
1911 }
1912 
1913 #endif
1914 
1915 void helper_vadduqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1916 {
1917 #ifdef CONFIG_INT128
1918     r->u128 = a->u128 + b->u128;
1919 #else
1920     avr_qw_add(r, *a, *b);
1921 #endif
1922 }
1923 
1924 void helper_vaddeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1925 {
1926 #ifdef CONFIG_INT128
1927     r->u128 = a->u128 + b->u128 + (c->u128 & 1);
1928 #else
1929 
1930     if (c->VsrD(1) & 1) {
1931         ppc_avr_t tmp;
1932 
1933         tmp.VsrD(0) = 0;
1934         tmp.VsrD(1) = c->VsrD(1) & 1;
1935         avr_qw_add(&tmp, *a, tmp);
1936         avr_qw_add(r, tmp, *b);
1937     } else {
1938         avr_qw_add(r, *a, *b);
1939     }
1940 #endif
1941 }
1942 
1943 void helper_vaddcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1944 {
1945 #ifdef CONFIG_INT128
1946     r->u128 = (~a->u128 < b->u128);
1947 #else
1948     ppc_avr_t not_a;
1949 
1950     avr_qw_not(&not_a, *a);
1951 
1952     r->VsrD(0) = 0;
1953     r->VsrD(1) = (avr_qw_cmpu(not_a, *b) < 0);
1954 #endif
1955 }
1956 
1957 void helper_vaddecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1958 {
1959 #ifdef CONFIG_INT128
1960     int carry_out = (~a->u128 < b->u128);
1961     if (!carry_out && (c->u128 & 1)) {
1962         carry_out = ((a->u128 + b->u128 + 1) == 0) &&
1963                     ((a->u128 != 0) || (b->u128 != 0));
1964     }
1965     r->u128 = carry_out;
1966 #else
1967 
1968     int carry_in = c->VsrD(1) & 1;
1969     int carry_out = 0;
1970     ppc_avr_t tmp;
1971 
1972     carry_out = avr_qw_addc(&tmp, *a, *b);
1973 
1974     if (!carry_out && carry_in) {
1975         ppc_avr_t one = QW_ONE;
1976         carry_out = avr_qw_addc(&tmp, tmp, one);
1977     }
1978     r->VsrD(0) = 0;
1979     r->VsrD(1) = carry_out;
1980 #endif
1981 }
1982 
1983 void helper_vsubuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1984 {
1985 #ifdef CONFIG_INT128
1986     r->u128 = a->u128 - b->u128;
1987 #else
1988     ppc_avr_t tmp;
1989     ppc_avr_t one = QW_ONE;
1990 
1991     avr_qw_not(&tmp, *b);
1992     avr_qw_add(&tmp, *a, tmp);
1993     avr_qw_add(r, tmp, one);
1994 #endif
1995 }
1996 
1997 void helper_vsubeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1998 {
1999 #ifdef CONFIG_INT128
2000     r->u128 = a->u128 + ~b->u128 + (c->u128 & 1);
2001 #else
2002     ppc_avr_t tmp, sum;
2003 
2004     avr_qw_not(&tmp, *b);
2005     avr_qw_add(&sum, *a, tmp);
2006 
2007     tmp.VsrD(0) = 0;
2008     tmp.VsrD(1) = c->VsrD(1) & 1;
2009     avr_qw_add(r, sum, tmp);
2010 #endif
2011 }
2012 
2013 void helper_vsubcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2014 {
2015 #ifdef CONFIG_INT128
2016     r->u128 = (~a->u128 < ~b->u128) ||
2017                  (a->u128 + ~b->u128 == (__uint128_t)-1);
2018 #else
2019     int carry = (avr_qw_cmpu(*a, *b) > 0);
2020     if (!carry) {
2021         ppc_avr_t tmp;
2022         avr_qw_not(&tmp, *b);
2023         avr_qw_add(&tmp, *a, tmp);
2024         carry = ((tmp.VsrSD(0) == -1ull) && (tmp.VsrSD(1) == -1ull));
2025     }
2026     r->VsrD(0) = 0;
2027     r->VsrD(1) = carry;
2028 #endif
2029 }
2030 
2031 void helper_vsubecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2032 {
2033 #ifdef CONFIG_INT128
2034     r->u128 =
2035         (~a->u128 < ~b->u128) ||
2036         ((c->u128 & 1) && (a->u128 + ~b->u128 == (__uint128_t)-1));
2037 #else
2038     int carry_in = c->VsrD(1) & 1;
2039     int carry_out = (avr_qw_cmpu(*a, *b) > 0);
2040     if (!carry_out && carry_in) {
2041         ppc_avr_t tmp;
2042         avr_qw_not(&tmp, *b);
2043         avr_qw_add(&tmp, *a, tmp);
2044         carry_out = ((tmp.VsrD(0) == -1ull) && (tmp.VsrD(1) == -1ull));
2045     }
2046 
2047     r->VsrD(0) = 0;
2048     r->VsrD(1) = carry_out;
2049 #endif
2050 }
2051 
2052 #define BCD_PLUS_PREF_1 0xC
2053 #define BCD_PLUS_PREF_2 0xF
2054 #define BCD_PLUS_ALT_1  0xA
2055 #define BCD_NEG_PREF    0xD
2056 #define BCD_NEG_ALT     0xB
2057 #define BCD_PLUS_ALT_2  0xE
2058 #define NATIONAL_PLUS   0x2B
2059 #define NATIONAL_NEG    0x2D
2060 
2061 #define BCD_DIG_BYTE(n) (15 - ((n) / 2))
2062 
2063 static int bcd_get_sgn(ppc_avr_t *bcd)
2064 {
2065     switch (bcd->VsrB(BCD_DIG_BYTE(0)) & 0xF) {
2066     case BCD_PLUS_PREF_1:
2067     case BCD_PLUS_PREF_2:
2068     case BCD_PLUS_ALT_1:
2069     case BCD_PLUS_ALT_2:
2070     {
2071         return 1;
2072     }
2073 
2074     case BCD_NEG_PREF:
2075     case BCD_NEG_ALT:
2076     {
2077         return -1;
2078     }
2079 
2080     default:
2081     {
2082         return 0;
2083     }
2084     }
2085 }
2086 
2087 static int bcd_preferred_sgn(int sgn, int ps)
2088 {
2089     if (sgn >= 0) {
2090         return (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2;
2091     } else {
2092         return BCD_NEG_PREF;
2093     }
2094 }
2095 
2096 static uint8_t bcd_get_digit(ppc_avr_t *bcd, int n, int *invalid)
2097 {
2098     uint8_t result;
2099     if (n & 1) {
2100         result = bcd->VsrB(BCD_DIG_BYTE(n)) >> 4;
2101     } else {
2102        result = bcd->VsrB(BCD_DIG_BYTE(n)) & 0xF;
2103     }
2104 
2105     if (unlikely(result > 9)) {
2106         *invalid = true;
2107     }
2108     return result;
2109 }
2110 
2111 static void bcd_put_digit(ppc_avr_t *bcd, uint8_t digit, int n)
2112 {
2113     if (n & 1) {
2114         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0x0F;
2115         bcd->VsrB(BCD_DIG_BYTE(n)) |= (digit << 4);
2116     } else {
2117         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0xF0;
2118         bcd->VsrB(BCD_DIG_BYTE(n)) |= digit;
2119     }
2120 }
2121 
2122 static bool bcd_is_valid(ppc_avr_t *bcd)
2123 {
2124     int i;
2125     int invalid = 0;
2126 
2127     if (bcd_get_sgn(bcd) == 0) {
2128         return false;
2129     }
2130 
2131     for (i = 1; i < 32; i++) {
2132         bcd_get_digit(bcd, i, &invalid);
2133         if (unlikely(invalid)) {
2134             return false;
2135         }
2136     }
2137     return true;
2138 }
2139 
2140 static int bcd_cmp_zero(ppc_avr_t *bcd)
2141 {
2142     if (bcd->VsrD(0) == 0 && (bcd->VsrD(1) >> 4) == 0) {
2143         return CRF_EQ;
2144     } else {
2145         return (bcd_get_sgn(bcd) == 1) ? CRF_GT : CRF_LT;
2146     }
2147 }
2148 
2149 static uint16_t get_national_digit(ppc_avr_t *reg, int n)
2150 {
2151     return reg->VsrH(7 - n);
2152 }
2153 
2154 static void set_national_digit(ppc_avr_t *reg, uint8_t val, int n)
2155 {
2156     reg->VsrH(7 - n) = val;
2157 }
2158 
2159 static int bcd_cmp_mag(ppc_avr_t *a, ppc_avr_t *b)
2160 {
2161     int i;
2162     int invalid = 0;
2163     for (i = 31; i > 0; i--) {
2164         uint8_t dig_a = bcd_get_digit(a, i, &invalid);
2165         uint8_t dig_b = bcd_get_digit(b, i, &invalid);
2166         if (unlikely(invalid)) {
2167             return 0; /* doesn't matter */
2168         } else if (dig_a > dig_b) {
2169             return 1;
2170         } else if (dig_a < dig_b) {
2171             return -1;
2172         }
2173     }
2174 
2175     return 0;
2176 }
2177 
2178 static int bcd_add_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2179                        int *overflow)
2180 {
2181     int carry = 0;
2182     int i;
2183     int is_zero = 1;
2184 
2185     for (i = 1; i <= 31; i++) {
2186         uint8_t digit = bcd_get_digit(a, i, invalid) +
2187                         bcd_get_digit(b, i, invalid) + carry;
2188         is_zero &= (digit == 0);
2189         if (digit > 9) {
2190             carry = 1;
2191             digit -= 10;
2192         } else {
2193             carry = 0;
2194         }
2195 
2196         bcd_put_digit(t, digit, i);
2197     }
2198 
2199     *overflow = carry;
2200     return is_zero;
2201 }
2202 
2203 static void bcd_sub_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2204                        int *overflow)
2205 {
2206     int carry = 0;
2207     int i;
2208 
2209     for (i = 1; i <= 31; i++) {
2210         uint8_t digit = bcd_get_digit(a, i, invalid) -
2211                         bcd_get_digit(b, i, invalid) + carry;
2212         if (digit & 0x80) {
2213             carry = -1;
2214             digit += 10;
2215         } else {
2216             carry = 0;
2217         }
2218 
2219         bcd_put_digit(t, digit, i);
2220     }
2221 
2222     *overflow = carry;
2223 }
2224 
2225 uint32_t helper_bcdadd(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2226 {
2227 
2228     int sgna = bcd_get_sgn(a);
2229     int sgnb = bcd_get_sgn(b);
2230     int invalid = (sgna == 0) || (sgnb == 0);
2231     int overflow = 0;
2232     int zero = 0;
2233     uint32_t cr = 0;
2234     ppc_avr_t result = { .u64 = { 0, 0 } };
2235 
2236     if (!invalid) {
2237         if (sgna == sgnb) {
2238             result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2239             zero = bcd_add_mag(&result, a, b, &invalid, &overflow);
2240             cr = (sgna > 0) ? CRF_GT : CRF_LT;
2241         } else {
2242             int magnitude = bcd_cmp_mag(a, b);
2243             if (magnitude > 0) {
2244                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2245                 bcd_sub_mag(&result, a, b, &invalid, &overflow);
2246                 cr = (sgna > 0) ? CRF_GT : CRF_LT;
2247             } else if (magnitude < 0) {
2248                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgnb, ps);
2249                 bcd_sub_mag(&result, b, a, &invalid, &overflow);
2250                 cr = (sgnb > 0) ? CRF_GT : CRF_LT;
2251             } else {
2252                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(0, ps);
2253                 cr = CRF_EQ;
2254             }
2255         }
2256     }
2257 
2258     if (unlikely(invalid)) {
2259         result.VsrD(0) = result.VsrD(1) = -1;
2260         cr = CRF_SO;
2261     } else if (overflow) {
2262         cr |= CRF_SO;
2263     } else if (zero) {
2264         cr |= CRF_EQ;
2265     }
2266 
2267     *r = result;
2268 
2269     return cr;
2270 }
2271 
2272 uint32_t helper_bcdsub(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2273 {
2274     ppc_avr_t bcopy = *b;
2275     int sgnb = bcd_get_sgn(b);
2276     if (sgnb < 0) {
2277         bcd_put_digit(&bcopy, BCD_PLUS_PREF_1, 0);
2278     } else if (sgnb > 0) {
2279         bcd_put_digit(&bcopy, BCD_NEG_PREF, 0);
2280     }
2281     /* else invalid ... defer to bcdadd code for proper handling */
2282 
2283     return helper_bcdadd(r, a, &bcopy, ps);
2284 }
2285 
2286 uint32_t helper_bcdcfn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2287 {
2288     int i;
2289     int cr = 0;
2290     uint16_t national = 0;
2291     uint16_t sgnb = get_national_digit(b, 0);
2292     ppc_avr_t ret = { .u64 = { 0, 0 } };
2293     int invalid = (sgnb != NATIONAL_PLUS && sgnb != NATIONAL_NEG);
2294 
2295     for (i = 1; i < 8; i++) {
2296         national = get_national_digit(b, i);
2297         if (unlikely(national < 0x30 || national > 0x39)) {
2298             invalid = 1;
2299             break;
2300         }
2301 
2302         bcd_put_digit(&ret, national & 0xf, i);
2303     }
2304 
2305     if (sgnb == NATIONAL_PLUS) {
2306         bcd_put_digit(&ret, (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2, 0);
2307     } else {
2308         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2309     }
2310 
2311     cr = bcd_cmp_zero(&ret);
2312 
2313     if (unlikely(invalid)) {
2314         cr = CRF_SO;
2315     }
2316 
2317     *r = ret;
2318 
2319     return cr;
2320 }
2321 
2322 uint32_t helper_bcdctn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2323 {
2324     int i;
2325     int cr = 0;
2326     int sgnb = bcd_get_sgn(b);
2327     int invalid = (sgnb == 0);
2328     ppc_avr_t ret = { .u64 = { 0, 0 } };
2329 
2330     int ox_flag = (b->VsrD(0) != 0) || ((b->VsrD(1) >> 32) != 0);
2331 
2332     for (i = 1; i < 8; i++) {
2333         set_national_digit(&ret, 0x30 + bcd_get_digit(b, i, &invalid), i);
2334 
2335         if (unlikely(invalid)) {
2336             break;
2337         }
2338     }
2339     set_national_digit(&ret, (sgnb == -1) ? NATIONAL_NEG : NATIONAL_PLUS, 0);
2340 
2341     cr = bcd_cmp_zero(b);
2342 
2343     if (ox_flag) {
2344         cr |= CRF_SO;
2345     }
2346 
2347     if (unlikely(invalid)) {
2348         cr = CRF_SO;
2349     }
2350 
2351     *r = ret;
2352 
2353     return cr;
2354 }
2355 
2356 uint32_t helper_bcdcfz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2357 {
2358     int i;
2359     int cr = 0;
2360     int invalid = 0;
2361     int zone_digit = 0;
2362     int zone_lead = ps ? 0xF : 0x3;
2363     int digit = 0;
2364     ppc_avr_t ret = { .u64 = { 0, 0 } };
2365     int sgnb = b->VsrB(BCD_DIG_BYTE(0)) >> 4;
2366 
2367     if (unlikely((sgnb < 0xA) && ps)) {
2368         invalid = 1;
2369     }
2370 
2371     for (i = 0; i < 16; i++) {
2372         zone_digit = i ? b->VsrB(BCD_DIG_BYTE(i * 2)) >> 4 : zone_lead;
2373         digit = b->VsrB(BCD_DIG_BYTE(i * 2)) & 0xF;
2374         if (unlikely(zone_digit != zone_lead || digit > 0x9)) {
2375             invalid = 1;
2376             break;
2377         }
2378 
2379         bcd_put_digit(&ret, digit, i + 1);
2380     }
2381 
2382     if ((ps && (sgnb == 0xB || sgnb == 0xD)) ||
2383             (!ps && (sgnb & 0x4))) {
2384         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2385     } else {
2386         bcd_put_digit(&ret, BCD_PLUS_PREF_1, 0);
2387     }
2388 
2389     cr = bcd_cmp_zero(&ret);
2390 
2391     if (unlikely(invalid)) {
2392         cr = CRF_SO;
2393     }
2394 
2395     *r = ret;
2396 
2397     return cr;
2398 }
2399 
2400 uint32_t helper_bcdctz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2401 {
2402     int i;
2403     int cr = 0;
2404     uint8_t digit = 0;
2405     int sgnb = bcd_get_sgn(b);
2406     int zone_lead = (ps) ? 0xF0 : 0x30;
2407     int invalid = (sgnb == 0);
2408     ppc_avr_t ret = { .u64 = { 0, 0 } };
2409 
2410     int ox_flag = ((b->VsrD(0) >> 4) != 0);
2411 
2412     for (i = 0; i < 16; i++) {
2413         digit = bcd_get_digit(b, i + 1, &invalid);
2414 
2415         if (unlikely(invalid)) {
2416             break;
2417         }
2418 
2419         ret.VsrB(BCD_DIG_BYTE(i * 2)) = zone_lead + digit;
2420     }
2421 
2422     if (ps) {
2423         bcd_put_digit(&ret, (sgnb == 1) ? 0xC : 0xD, 1);
2424     } else {
2425         bcd_put_digit(&ret, (sgnb == 1) ? 0x3 : 0x7, 1);
2426     }
2427 
2428     cr = bcd_cmp_zero(b);
2429 
2430     if (ox_flag) {
2431         cr |= CRF_SO;
2432     }
2433 
2434     if (unlikely(invalid)) {
2435         cr = CRF_SO;
2436     }
2437 
2438     *r = ret;
2439 
2440     return cr;
2441 }
2442 
2443 uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2444 {
2445     int i;
2446     int cr = 0;
2447     uint64_t lo_value;
2448     uint64_t hi_value;
2449     ppc_avr_t ret = { .u64 = { 0, 0 } };
2450 
2451     if (b->VsrSD(0) < 0) {
2452         lo_value = -b->VsrSD(1);
2453         hi_value = ~b->VsrD(0) + !lo_value;
2454         bcd_put_digit(&ret, 0xD, 0);
2455     } else {
2456         lo_value = b->VsrD(1);
2457         hi_value = b->VsrD(0);
2458         bcd_put_digit(&ret, bcd_preferred_sgn(0, ps), 0);
2459     }
2460 
2461     if (divu128(&lo_value, &hi_value, 1000000000000000ULL) ||
2462             lo_value > 9999999999999999ULL) {
2463         cr = CRF_SO;
2464     }
2465 
2466     for (i = 1; i < 16; hi_value /= 10, i++) {
2467         bcd_put_digit(&ret, hi_value % 10, i);
2468     }
2469 
2470     for (; i < 32; lo_value /= 10, i++) {
2471         bcd_put_digit(&ret, lo_value % 10, i);
2472     }
2473 
2474     cr |= bcd_cmp_zero(&ret);
2475 
2476     *r = ret;
2477 
2478     return cr;
2479 }
2480 
2481 uint32_t helper_bcdctsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2482 {
2483     uint8_t i;
2484     int cr;
2485     uint64_t carry;
2486     uint64_t unused;
2487     uint64_t lo_value;
2488     uint64_t hi_value = 0;
2489     int sgnb = bcd_get_sgn(b);
2490     int invalid = (sgnb == 0);
2491 
2492     lo_value = bcd_get_digit(b, 31, &invalid);
2493     for (i = 30; i > 0; i--) {
2494         mulu64(&lo_value, &carry, lo_value, 10ULL);
2495         mulu64(&hi_value, &unused, hi_value, 10ULL);
2496         lo_value += bcd_get_digit(b, i, &invalid);
2497         hi_value += carry;
2498 
2499         if (unlikely(invalid)) {
2500             break;
2501         }
2502     }
2503 
2504     if (sgnb == -1) {
2505         r->VsrSD(1) = -lo_value;
2506         r->VsrSD(0) = ~hi_value + !r->VsrSD(1);
2507     } else {
2508         r->VsrSD(1) = lo_value;
2509         r->VsrSD(0) = hi_value;
2510     }
2511 
2512     cr = bcd_cmp_zero(b);
2513 
2514     if (unlikely(invalid)) {
2515         cr = CRF_SO;
2516     }
2517 
2518     return cr;
2519 }
2520 
2521 uint32_t helper_bcdcpsgn(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2522 {
2523     int i;
2524     int invalid = 0;
2525 
2526     if (bcd_get_sgn(a) == 0 || bcd_get_sgn(b) == 0) {
2527         return CRF_SO;
2528     }
2529 
2530     *r = *a;
2531     bcd_put_digit(r, b->VsrB(BCD_DIG_BYTE(0)) & 0xF, 0);
2532 
2533     for (i = 1; i < 32; i++) {
2534         bcd_get_digit(a, i, &invalid);
2535         bcd_get_digit(b, i, &invalid);
2536         if (unlikely(invalid)) {
2537             return CRF_SO;
2538         }
2539     }
2540 
2541     return bcd_cmp_zero(r);
2542 }
2543 
2544 uint32_t helper_bcdsetsgn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2545 {
2546     int sgnb = bcd_get_sgn(b);
2547 
2548     *r = *b;
2549     bcd_put_digit(r, bcd_preferred_sgn(sgnb, ps), 0);
2550 
2551     if (bcd_is_valid(b) == false) {
2552         return CRF_SO;
2553     }
2554 
2555     return bcd_cmp_zero(r);
2556 }
2557 
2558 uint32_t helper_bcds(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2559 {
2560     int cr;
2561     int i = a->VsrSB(7);
2562     bool ox_flag = false;
2563     int sgnb = bcd_get_sgn(b);
2564     ppc_avr_t ret = *b;
2565     ret.VsrD(1) &= ~0xf;
2566 
2567     if (bcd_is_valid(b) == false) {
2568         return CRF_SO;
2569     }
2570 
2571     if (unlikely(i > 31)) {
2572         i = 31;
2573     } else if (unlikely(i < -31)) {
2574         i = -31;
2575     }
2576 
2577     if (i > 0) {
2578         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2579     } else {
2580         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2581     }
2582     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2583 
2584     *r = ret;
2585 
2586     cr = bcd_cmp_zero(r);
2587     if (ox_flag) {
2588         cr |= CRF_SO;
2589     }
2590 
2591     return cr;
2592 }
2593 
2594 uint32_t helper_bcdus(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2595 {
2596     int cr;
2597     int i;
2598     int invalid = 0;
2599     bool ox_flag = false;
2600     ppc_avr_t ret = *b;
2601 
2602     for (i = 0; i < 32; i++) {
2603         bcd_get_digit(b, i, &invalid);
2604 
2605         if (unlikely(invalid)) {
2606             return CRF_SO;
2607         }
2608     }
2609 
2610     i = a->VsrSB(7);
2611     if (i >= 32) {
2612         ox_flag = true;
2613         ret.VsrD(1) = ret.VsrD(0) = 0;
2614     } else if (i <= -32) {
2615         ret.VsrD(1) = ret.VsrD(0) = 0;
2616     } else if (i > 0) {
2617         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2618     } else {
2619         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2620     }
2621     *r = ret;
2622 
2623     cr = bcd_cmp_zero(r);
2624     if (ox_flag) {
2625         cr |= CRF_SO;
2626     }
2627 
2628     return cr;
2629 }
2630 
2631 uint32_t helper_bcdsr(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2632 {
2633     int cr;
2634     int unused = 0;
2635     int invalid = 0;
2636     bool ox_flag = false;
2637     int sgnb = bcd_get_sgn(b);
2638     ppc_avr_t ret = *b;
2639     ret.VsrD(1) &= ~0xf;
2640 
2641     int i = a->VsrSB(7);
2642     ppc_avr_t bcd_one;
2643 
2644     bcd_one.VsrD(0) = 0;
2645     bcd_one.VsrD(1) = 0x10;
2646 
2647     if (bcd_is_valid(b) == false) {
2648         return CRF_SO;
2649     }
2650 
2651     if (unlikely(i > 31)) {
2652         i = 31;
2653     } else if (unlikely(i < -31)) {
2654         i = -31;
2655     }
2656 
2657     if (i > 0) {
2658         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2659     } else {
2660         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2661 
2662         if (bcd_get_digit(&ret, 0, &invalid) >= 5) {
2663             bcd_add_mag(&ret, &ret, &bcd_one, &invalid, &unused);
2664         }
2665     }
2666     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2667 
2668     cr = bcd_cmp_zero(&ret);
2669     if (ox_flag) {
2670         cr |= CRF_SO;
2671     }
2672     *r = ret;
2673 
2674     return cr;
2675 }
2676 
2677 uint32_t helper_bcdtrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2678 {
2679     uint64_t mask;
2680     uint32_t ox_flag = 0;
2681     int i = a->VsrSH(3) + 1;
2682     ppc_avr_t ret = *b;
2683 
2684     if (bcd_is_valid(b) == false) {
2685         return CRF_SO;
2686     }
2687 
2688     if (i > 16 && i < 32) {
2689         mask = (uint64_t)-1 >> (128 - i * 4);
2690         if (ret.VsrD(0) & ~mask) {
2691             ox_flag = CRF_SO;
2692         }
2693 
2694         ret.VsrD(0) &= mask;
2695     } else if (i >= 0 && i <= 16) {
2696         mask = (uint64_t)-1 >> (64 - i * 4);
2697         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2698             ox_flag = CRF_SO;
2699         }
2700 
2701         ret.VsrD(1) &= mask;
2702         ret.VsrD(0) = 0;
2703     }
2704     bcd_put_digit(&ret, bcd_preferred_sgn(bcd_get_sgn(b), ps), 0);
2705     *r = ret;
2706 
2707     return bcd_cmp_zero(&ret) | ox_flag;
2708 }
2709 
2710 uint32_t helper_bcdutrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2711 {
2712     int i;
2713     uint64_t mask;
2714     uint32_t ox_flag = 0;
2715     int invalid = 0;
2716     ppc_avr_t ret = *b;
2717 
2718     for (i = 0; i < 32; i++) {
2719         bcd_get_digit(b, i, &invalid);
2720 
2721         if (unlikely(invalid)) {
2722             return CRF_SO;
2723         }
2724     }
2725 
2726     i = a->VsrSH(3);
2727     if (i > 16 && i < 33) {
2728         mask = (uint64_t)-1 >> (128 - i * 4);
2729         if (ret.VsrD(0) & ~mask) {
2730             ox_flag = CRF_SO;
2731         }
2732 
2733         ret.VsrD(0) &= mask;
2734     } else if (i > 0 && i <= 16) {
2735         mask = (uint64_t)-1 >> (64 - i * 4);
2736         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2737             ox_flag = CRF_SO;
2738         }
2739 
2740         ret.VsrD(1) &= mask;
2741         ret.VsrD(0) = 0;
2742     } else if (i == 0) {
2743         if (ret.VsrD(0) || ret.VsrD(1)) {
2744             ox_flag = CRF_SO;
2745         }
2746         ret.VsrD(0) = ret.VsrD(1) = 0;
2747     }
2748 
2749     *r = ret;
2750     if (r->VsrD(0) == 0 && r->VsrD(1) == 0) {
2751         return ox_flag | CRF_EQ;
2752     }
2753 
2754     return ox_flag | CRF_GT;
2755 }
2756 
2757 void helper_vsbox(ppc_avr_t *r, ppc_avr_t *a)
2758 {
2759     int i;
2760     VECTOR_FOR_INORDER_I(i, u8) {
2761         r->u8[i] = AES_sbox[a->u8[i]];
2762     }
2763 }
2764 
2765 void helper_vcipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2766 {
2767     ppc_avr_t result;
2768     int i;
2769 
2770     VECTOR_FOR_INORDER_I(i, u32) {
2771         result.VsrW(i) = b->VsrW(i) ^
2772             (AES_Te0[a->VsrB(AES_shifts[4 * i + 0])] ^
2773              AES_Te1[a->VsrB(AES_shifts[4 * i + 1])] ^
2774              AES_Te2[a->VsrB(AES_shifts[4 * i + 2])] ^
2775              AES_Te3[a->VsrB(AES_shifts[4 * i + 3])]);
2776     }
2777     *r = result;
2778 }
2779 
2780 void helper_vcipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2781 {
2782     ppc_avr_t result;
2783     int i;
2784 
2785     VECTOR_FOR_INORDER_I(i, u8) {
2786         result.VsrB(i) = b->VsrB(i) ^ (AES_sbox[a->VsrB(AES_shifts[i])]);
2787     }
2788     *r = result;
2789 }
2790 
2791 void helper_vncipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2792 {
2793     /* This differs from what is written in ISA V2.07.  The RTL is */
2794     /* incorrect and will be fixed in V2.07B.                      */
2795     int i;
2796     ppc_avr_t tmp;
2797 
2798     VECTOR_FOR_INORDER_I(i, u8) {
2799         tmp.VsrB(i) = b->VsrB(i) ^ AES_isbox[a->VsrB(AES_ishifts[i])];
2800     }
2801 
2802     VECTOR_FOR_INORDER_I(i, u32) {
2803         r->VsrW(i) =
2804             AES_imc[tmp.VsrB(4 * i + 0)][0] ^
2805             AES_imc[tmp.VsrB(4 * i + 1)][1] ^
2806             AES_imc[tmp.VsrB(4 * i + 2)][2] ^
2807             AES_imc[tmp.VsrB(4 * i + 3)][3];
2808     }
2809 }
2810 
2811 void helper_vncipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2812 {
2813     ppc_avr_t result;
2814     int i;
2815 
2816     VECTOR_FOR_INORDER_I(i, u8) {
2817         result.VsrB(i) = b->VsrB(i) ^ (AES_isbox[a->VsrB(AES_ishifts[i])]);
2818     }
2819     *r = result;
2820 }
2821 
2822 void helper_vshasigmaw(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
2823 {
2824     int st = (st_six & 0x10) != 0;
2825     int six = st_six & 0xF;
2826     int i;
2827 
2828     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
2829         if (st == 0) {
2830             if ((six & (0x8 >> i)) == 0) {
2831                 r->VsrW(i) = ror32(a->VsrW(i), 7) ^
2832                              ror32(a->VsrW(i), 18) ^
2833                              (a->VsrW(i) >> 3);
2834             } else { /* six.bit[i] == 1 */
2835                 r->VsrW(i) = ror32(a->VsrW(i), 17) ^
2836                              ror32(a->VsrW(i), 19) ^
2837                              (a->VsrW(i) >> 10);
2838             }
2839         } else { /* st == 1 */
2840             if ((six & (0x8 >> i)) == 0) {
2841                 r->VsrW(i) = ror32(a->VsrW(i), 2) ^
2842                              ror32(a->VsrW(i), 13) ^
2843                              ror32(a->VsrW(i), 22);
2844             } else { /* six.bit[i] == 1 */
2845                 r->VsrW(i) = ror32(a->VsrW(i), 6) ^
2846                              ror32(a->VsrW(i), 11) ^
2847                              ror32(a->VsrW(i), 25);
2848             }
2849         }
2850     }
2851 }
2852 
2853 void helper_vshasigmad(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
2854 {
2855     int st = (st_six & 0x10) != 0;
2856     int six = st_six & 0xF;
2857     int i;
2858 
2859     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
2860         if (st == 0) {
2861             if ((six & (0x8 >> (2 * i))) == 0) {
2862                 r->VsrD(i) = ror64(a->VsrD(i), 1) ^
2863                              ror64(a->VsrD(i), 8) ^
2864                              (a->VsrD(i) >> 7);
2865             } else { /* six.bit[2*i] == 1 */
2866                 r->VsrD(i) = ror64(a->VsrD(i), 19) ^
2867                              ror64(a->VsrD(i), 61) ^
2868                              (a->VsrD(i) >> 6);
2869             }
2870         } else { /* st == 1 */
2871             if ((six & (0x8 >> (2 * i))) == 0) {
2872                 r->VsrD(i) = ror64(a->VsrD(i), 28) ^
2873                              ror64(a->VsrD(i), 34) ^
2874                              ror64(a->VsrD(i), 39);
2875             } else { /* six.bit[2*i] == 1 */
2876                 r->VsrD(i) = ror64(a->VsrD(i), 14) ^
2877                              ror64(a->VsrD(i), 18) ^
2878                              ror64(a->VsrD(i), 41);
2879             }
2880         }
2881     }
2882 }
2883 
2884 void helper_vpermxor(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2885 {
2886     ppc_avr_t result;
2887     int i;
2888 
2889     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
2890         int indexA = c->VsrB(i) >> 4;
2891         int indexB = c->VsrB(i) & 0xF;
2892 
2893         result.VsrB(i) = a->VsrB(indexA) ^ b->VsrB(indexB);
2894     }
2895     *r = result;
2896 }
2897 
2898 #undef VECTOR_FOR_INORDER_I
2899 
2900 /*****************************************************************************/
2901 /* SPE extension helpers */
2902 /* Use a table to make this quicker */
2903 static const uint8_t hbrev[16] = {
2904     0x0, 0x8, 0x4, 0xC, 0x2, 0xA, 0x6, 0xE,
2905     0x1, 0x9, 0x5, 0xD, 0x3, 0xB, 0x7, 0xF,
2906 };
2907 
2908 static inline uint8_t byte_reverse(uint8_t val)
2909 {
2910     return hbrev[val >> 4] | (hbrev[val & 0xF] << 4);
2911 }
2912 
2913 static inline uint32_t word_reverse(uint32_t val)
2914 {
2915     return byte_reverse(val >> 24) | (byte_reverse(val >> 16) << 8) |
2916         (byte_reverse(val >> 8) << 16) | (byte_reverse(val) << 24);
2917 }
2918 
2919 #define MASKBITS 16 /* Random value - to be fixed (implementation dependent) */
2920 target_ulong helper_brinc(target_ulong arg1, target_ulong arg2)
2921 {
2922     uint32_t a, b, d, mask;
2923 
2924     mask = UINT32_MAX >> (32 - MASKBITS);
2925     a = arg1 & mask;
2926     b = arg2 & mask;
2927     d = word_reverse(1 + word_reverse(a | ~b));
2928     return (arg1 & ~mask) | (d & b);
2929 }
2930 
2931 uint32_t helper_cntlsw32(uint32_t val)
2932 {
2933     if (val & 0x80000000) {
2934         return clz32(~val);
2935     } else {
2936         return clz32(val);
2937     }
2938 }
2939 
2940 uint32_t helper_cntlzw32(uint32_t val)
2941 {
2942     return clz32(val);
2943 }
2944 
2945 /* 440 specific */
2946 target_ulong helper_dlmzb(CPUPPCState *env, target_ulong high,
2947                           target_ulong low, uint32_t update_Rc)
2948 {
2949     target_ulong mask;
2950     int i;
2951 
2952     i = 1;
2953     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
2954         if ((high & mask) == 0) {
2955             if (update_Rc) {
2956                 env->crf[0] = 0x4;
2957             }
2958             goto done;
2959         }
2960         i++;
2961     }
2962     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
2963         if ((low & mask) == 0) {
2964             if (update_Rc) {
2965                 env->crf[0] = 0x8;
2966             }
2967             goto done;
2968         }
2969         i++;
2970     }
2971     i = 8;
2972     if (update_Rc) {
2973         env->crf[0] = 0x2;
2974     }
2975  done:
2976     env->xer = (env->xer & ~0x7F) | i;
2977     if (update_Rc) {
2978         env->crf[0] |= xer_so;
2979     }
2980     return i;
2981 }
2982