xref: /openbmc/qemu/target/ppc/int_helper.c (revision 9eafdeea)
1 /*
2  *  PowerPC integer and vector emulation helpers for QEMU.
3  *
4  *  Copyright (c) 2003-2007 Jocelyn Mayer
5  *
6  * This library is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * This library is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
18  */
19 
20 #include "qemu/osdep.h"
21 #include "cpu.h"
22 #include "internal.h"
23 #include "qemu/host-utils.h"
24 #include "qemu/main-loop.h"
25 #include "qemu/log.h"
26 #include "exec/helper-proto.h"
27 #include "crypto/aes.h"
28 #include "fpu/softfloat.h"
29 #include "qapi/error.h"
30 #include "qemu/guest-random.h"
31 #include "tcg/tcg-gvec-desc.h"
32 
33 #include "helper_regs.h"
34 /*****************************************************************************/
35 /* Fixed point operations helpers */
36 
37 static inline void helper_update_ov_legacy(CPUPPCState *env, int ov)
38 {
39     if (unlikely(ov)) {
40         env->so = env->ov = 1;
41     } else {
42         env->ov = 0;
43     }
44 }
45 
46 target_ulong helper_divweu(CPUPPCState *env, target_ulong ra, target_ulong rb,
47                            uint32_t oe)
48 {
49     uint64_t rt = 0;
50     int overflow = 0;
51 
52     uint64_t dividend = (uint64_t)ra << 32;
53     uint64_t divisor = (uint32_t)rb;
54 
55     if (unlikely(divisor == 0)) {
56         overflow = 1;
57     } else {
58         rt = dividend / divisor;
59         overflow = rt > UINT32_MAX;
60     }
61 
62     if (unlikely(overflow)) {
63         rt = 0; /* Undefined */
64     }
65 
66     if (oe) {
67         helper_update_ov_legacy(env, overflow);
68     }
69 
70     return (target_ulong)rt;
71 }
72 
73 target_ulong helper_divwe(CPUPPCState *env, target_ulong ra, target_ulong rb,
74                           uint32_t oe)
75 {
76     int64_t rt = 0;
77     int overflow = 0;
78 
79     int64_t dividend = (int64_t)ra << 32;
80     int64_t divisor = (int64_t)((int32_t)rb);
81 
82     if (unlikely((divisor == 0) ||
83                  ((divisor == -1ull) && (dividend == INT64_MIN)))) {
84         overflow = 1;
85     } else {
86         rt = dividend / divisor;
87         overflow = rt != (int32_t)rt;
88     }
89 
90     if (unlikely(overflow)) {
91         rt = 0; /* Undefined */
92     }
93 
94     if (oe) {
95         helper_update_ov_legacy(env, overflow);
96     }
97 
98     return (target_ulong)rt;
99 }
100 
101 #if defined(TARGET_PPC64)
102 
103 uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
104 {
105     uint64_t rt = 0;
106     int overflow = 0;
107 
108     if (unlikely(rb == 0 || ra >= rb)) {
109         overflow = 1;
110         rt = 0; /* Undefined */
111     } else {
112         divu128(&rt, &ra, rb);
113     }
114 
115     if (oe) {
116         helper_update_ov_legacy(env, overflow);
117     }
118 
119     return rt;
120 }
121 
122 uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
123 {
124     uint64_t rt = 0;
125     int64_t ra = (int64_t)rau;
126     int64_t rb = (int64_t)rbu;
127     int overflow = 0;
128 
129     if (unlikely(rb == 0 || uabs64(ra) >= uabs64(rb))) {
130         overflow = 1;
131         rt = 0; /* Undefined */
132     } else {
133         divs128(&rt, &ra, rb);
134     }
135 
136     if (oe) {
137         helper_update_ov_legacy(env, overflow);
138     }
139 
140     return rt;
141 }
142 
143 #endif
144 
145 
146 #if defined(TARGET_PPC64)
147 /* if x = 0xab, returns 0xababababababababa */
148 #define pattern(x) (((x) & 0xff) * (~(target_ulong)0 / 0xff))
149 
150 /*
151  * subtract 1 from each byte, and with inverse, check if MSB is set at each
152  * byte.
153  * i.e. ((0x00 - 0x01) & ~(0x00)) & 0x80
154  *      (0xFF & 0xFF) & 0x80 = 0x80 (zero found)
155  */
156 #define haszero(v) (((v) - pattern(0x01)) & ~(v) & pattern(0x80))
157 
158 /* When you XOR the pattern and there is a match, that byte will be zero */
159 #define hasvalue(x, n)  (haszero((x) ^ pattern(n)))
160 
161 uint32_t helper_cmpeqb(target_ulong ra, target_ulong rb)
162 {
163     return hasvalue(rb, ra) ? CRF_GT : 0;
164 }
165 
166 #undef pattern
167 #undef haszero
168 #undef hasvalue
169 
170 /*
171  * Return a random number.
172  */
173 uint64_t helper_darn32(void)
174 {
175     Error *err = NULL;
176     uint32_t ret;
177 
178     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
179         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
180                       error_get_pretty(err));
181         error_free(err);
182         return -1;
183     }
184 
185     return ret;
186 }
187 
188 uint64_t helper_darn64(void)
189 {
190     Error *err = NULL;
191     uint64_t ret;
192 
193     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
194         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
195                       error_get_pretty(err));
196         error_free(err);
197         return -1;
198     }
199 
200     return ret;
201 }
202 
203 uint64_t helper_bpermd(uint64_t rs, uint64_t rb)
204 {
205     int i;
206     uint64_t ra = 0;
207 
208     for (i = 0; i < 8; i++) {
209         int index = (rs >> (i * 8)) & 0xFF;
210         if (index < 64) {
211             if (rb & PPC_BIT(index)) {
212                 ra |= 1 << i;
213             }
214         }
215     }
216     return ra;
217 }
218 
219 #endif
220 
221 target_ulong helper_cmpb(target_ulong rs, target_ulong rb)
222 {
223     target_ulong mask = 0xff;
224     target_ulong ra = 0;
225     int i;
226 
227     for (i = 0; i < sizeof(target_ulong); i++) {
228         if ((rs & mask) == (rb & mask)) {
229             ra |= mask;
230         }
231         mask <<= 8;
232     }
233     return ra;
234 }
235 
236 /* shift right arithmetic helper */
237 target_ulong helper_sraw(CPUPPCState *env, target_ulong value,
238                          target_ulong shift)
239 {
240     int32_t ret;
241 
242     if (likely(!(shift & 0x20))) {
243         if (likely((uint32_t)shift != 0)) {
244             shift &= 0x1f;
245             ret = (int32_t)value >> shift;
246             if (likely(ret >= 0 || (value & ((1 << shift) - 1)) == 0)) {
247                 env->ca32 = env->ca = 0;
248             } else {
249                 env->ca32 = env->ca = 1;
250             }
251         } else {
252             ret = (int32_t)value;
253             env->ca32 = env->ca = 0;
254         }
255     } else {
256         ret = (int32_t)value >> 31;
257         env->ca32 = env->ca = (ret != 0);
258     }
259     return (target_long)ret;
260 }
261 
262 #if defined(TARGET_PPC64)
263 target_ulong helper_srad(CPUPPCState *env, target_ulong value,
264                          target_ulong shift)
265 {
266     int64_t ret;
267 
268     if (likely(!(shift & 0x40))) {
269         if (likely((uint64_t)shift != 0)) {
270             shift &= 0x3f;
271             ret = (int64_t)value >> shift;
272             if (likely(ret >= 0 || (value & ((1ULL << shift) - 1)) == 0)) {
273                 env->ca32 = env->ca = 0;
274             } else {
275                 env->ca32 = env->ca = 1;
276             }
277         } else {
278             ret = (int64_t)value;
279             env->ca32 = env->ca = 0;
280         }
281     } else {
282         ret = (int64_t)value >> 63;
283         env->ca32 = env->ca = (ret != 0);
284     }
285     return ret;
286 }
287 #endif
288 
289 #if defined(TARGET_PPC64)
290 target_ulong helper_popcntb(target_ulong val)
291 {
292     /* Note that we don't fold past bytes */
293     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
294                                            0x5555555555555555ULL);
295     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
296                                            0x3333333333333333ULL);
297     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
298                                            0x0f0f0f0f0f0f0f0fULL);
299     return val;
300 }
301 
302 target_ulong helper_popcntw(target_ulong val)
303 {
304     /* Note that we don't fold past words.  */
305     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
306                                            0x5555555555555555ULL);
307     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
308                                            0x3333333333333333ULL);
309     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
310                                            0x0f0f0f0f0f0f0f0fULL);
311     val = (val & 0x00ff00ff00ff00ffULL) + ((val >>  8) &
312                                            0x00ff00ff00ff00ffULL);
313     val = (val & 0x0000ffff0000ffffULL) + ((val >> 16) &
314                                            0x0000ffff0000ffffULL);
315     return val;
316 }
317 #else
318 target_ulong helper_popcntb(target_ulong val)
319 {
320     /* Note that we don't fold past bytes */
321     val = (val & 0x55555555) + ((val >>  1) & 0x55555555);
322     val = (val & 0x33333333) + ((val >>  2) & 0x33333333);
323     val = (val & 0x0f0f0f0f) + ((val >>  4) & 0x0f0f0f0f);
324     return val;
325 }
326 #endif
327 
328 uint64_t helper_CFUGED(uint64_t src, uint64_t mask)
329 {
330     /*
331      * Instead of processing the mask bit-by-bit from the most significant to
332      * the least significant bit, as described in PowerISA, we'll handle it in
333      * blocks of 'n' zeros/ones from LSB to MSB. To avoid the decision to use
334      * ctz or cto, we negate the mask at the end of the loop.
335      */
336     target_ulong m, left = 0, right = 0;
337     unsigned int n, i = 64;
338     bool bit = false; /* tracks if we are processing zeros or ones */
339 
340     if (mask == 0 || mask == -1) {
341         return src;
342     }
343 
344     /* Processes the mask in blocks, from LSB to MSB */
345     while (i) {
346         /* Find how many bits we should take */
347         n = ctz64(mask);
348         if (n > i) {
349             n = i;
350         }
351 
352         /*
353          * Extracts 'n' trailing bits of src and put them on the leading 'n'
354          * bits of 'right' or 'left', pushing down the previously extracted
355          * values.
356          */
357         m = (1ll << n) - 1;
358         if (bit) {
359             right = ror64(right | (src & m), n);
360         } else {
361             left = ror64(left | (src & m), n);
362         }
363 
364         /*
365          * Discards the processed bits from 'src' and 'mask'. Note that we are
366          * removing 'n' trailing zeros from 'mask', but the logical shift will
367          * add 'n' leading zeros back, so the population count of 'mask' is kept
368          * the same.
369          */
370         src >>= n;
371         mask >>= n;
372         i -= n;
373         bit = !bit;
374         mask = ~mask;
375     }
376 
377     /*
378      * At the end, right was ror'ed ctpop(mask) times. To put it back in place,
379      * we'll shift it more 64-ctpop(mask) times.
380      */
381     if (bit) {
382         n = ctpop64(mask);
383     } else {
384         n = 64 - ctpop64(mask);
385     }
386 
387     return left | (right >> n);
388 }
389 
390 uint64_t helper_PDEPD(uint64_t src, uint64_t mask)
391 {
392     int i, o;
393     uint64_t result = 0;
394 
395     if (mask == -1) {
396         return src;
397     }
398 
399     for (i = 0; mask != 0; i++) {
400         o = ctz64(mask);
401         mask &= mask - 1;
402         result |= ((src >> i) & 1) << o;
403     }
404 
405     return result;
406 }
407 
408 uint64_t helper_PEXTD(uint64_t src, uint64_t mask)
409 {
410     int i, o;
411     uint64_t result = 0;
412 
413     if (mask == -1) {
414         return src;
415     }
416 
417     for (o = 0; mask != 0; o++) {
418         i = ctz64(mask);
419         mask &= mask - 1;
420         result |= ((src >> i) & 1) << o;
421     }
422 
423     return result;
424 }
425 
426 /*****************************************************************************/
427 /* Altivec extension helpers */
428 #if HOST_BIG_ENDIAN
429 #define VECTOR_FOR_INORDER_I(index, element)                    \
430     for (index = 0; index < ARRAY_SIZE(r->element); index++)
431 #else
432 #define VECTOR_FOR_INORDER_I(index, element)                    \
433     for (index = ARRAY_SIZE(r->element) - 1; index >= 0; index--)
434 #endif
435 
436 /* Saturating arithmetic helpers.  */
437 #define SATCVT(from, to, from_type, to_type, min, max)          \
438     static inline to_type cvt##from##to(from_type x, int *sat)  \
439     {                                                           \
440         to_type r;                                              \
441                                                                 \
442         if (x < (from_type)min) {                               \
443             r = min;                                            \
444             *sat = 1;                                           \
445         } else if (x > (from_type)max) {                        \
446             r = max;                                            \
447             *sat = 1;                                           \
448         } else {                                                \
449             r = x;                                              \
450         }                                                       \
451         return r;                                               \
452     }
453 #define SATCVTU(from, to, from_type, to_type, min, max)         \
454     static inline to_type cvt##from##to(from_type x, int *sat)  \
455     {                                                           \
456         to_type r;                                              \
457                                                                 \
458         if (x > (from_type)max) {                               \
459             r = max;                                            \
460             *sat = 1;                                           \
461         } else {                                                \
462             r = x;                                              \
463         }                                                       \
464         return r;                                               \
465     }
466 SATCVT(sh, sb, int16_t, int8_t, INT8_MIN, INT8_MAX)
467 SATCVT(sw, sh, int32_t, int16_t, INT16_MIN, INT16_MAX)
468 SATCVT(sd, sw, int64_t, int32_t, INT32_MIN, INT32_MAX)
469 
470 SATCVTU(uh, ub, uint16_t, uint8_t, 0, UINT8_MAX)
471 SATCVTU(uw, uh, uint32_t, uint16_t, 0, UINT16_MAX)
472 SATCVTU(ud, uw, uint64_t, uint32_t, 0, UINT32_MAX)
473 SATCVT(sh, ub, int16_t, uint8_t, 0, UINT8_MAX)
474 SATCVT(sw, uh, int32_t, uint16_t, 0, UINT16_MAX)
475 SATCVT(sd, uw, int64_t, uint32_t, 0, UINT32_MAX)
476 #undef SATCVT
477 #undef SATCVTU
478 
479 void helper_mtvscr(CPUPPCState *env, uint32_t vscr)
480 {
481     ppc_store_vscr(env, vscr);
482 }
483 
484 uint32_t helper_mfvscr(CPUPPCState *env)
485 {
486     return ppc_get_vscr(env);
487 }
488 
489 static inline void set_vscr_sat(CPUPPCState *env)
490 {
491     /* The choice of non-zero value is arbitrary.  */
492     env->vscr_sat.u32[0] = 1;
493 }
494 
495 void helper_vaddcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
496 {
497     int i;
498 
499     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
500         r->u32[i] = ~a->u32[i] < b->u32[i];
501     }
502 }
503 
504 /* vprtybw */
505 void helper_vprtybw(ppc_avr_t *r, ppc_avr_t *b)
506 {
507     int i;
508     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
509         uint64_t res = b->u32[i] ^ (b->u32[i] >> 16);
510         res ^= res >> 8;
511         r->u32[i] = res & 1;
512     }
513 }
514 
515 /* vprtybd */
516 void helper_vprtybd(ppc_avr_t *r, ppc_avr_t *b)
517 {
518     int i;
519     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
520         uint64_t res = b->u64[i] ^ (b->u64[i] >> 32);
521         res ^= res >> 16;
522         res ^= res >> 8;
523         r->u64[i] = res & 1;
524     }
525 }
526 
527 /* vprtybq */
528 void helper_vprtybq(ppc_avr_t *r, ppc_avr_t *b)
529 {
530     uint64_t res = b->u64[0] ^ b->u64[1];
531     res ^= res >> 32;
532     res ^= res >> 16;
533     res ^= res >> 8;
534     r->VsrD(1) = res & 1;
535     r->VsrD(0) = 0;
536 }
537 
538 #define VARITHFP(suffix, func)                                          \
539     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
540                           ppc_avr_t *b)                                 \
541     {                                                                   \
542         int i;                                                          \
543                                                                         \
544         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
545             r->f32[i] = func(a->f32[i], b->f32[i], &env->vec_status);   \
546         }                                                               \
547     }
548 VARITHFP(addfp, float32_add)
549 VARITHFP(subfp, float32_sub)
550 VARITHFP(minfp, float32_min)
551 VARITHFP(maxfp, float32_max)
552 #undef VARITHFP
553 
554 #define VARITHFPFMA(suffix, type)                                       \
555     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
556                            ppc_avr_t *b, ppc_avr_t *c)                  \
557     {                                                                   \
558         int i;                                                          \
559         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
560             r->f32[i] = float32_muladd(a->f32[i], c->f32[i], b->f32[i], \
561                                        type, &env->vec_status);         \
562         }                                                               \
563     }
564 VARITHFPFMA(maddfp, 0);
565 VARITHFPFMA(nmsubfp, float_muladd_negate_result | float_muladd_negate_c);
566 #undef VARITHFPFMA
567 
568 #define VARITHSAT_CASE(type, op, cvt, element)                          \
569     {                                                                   \
570         type result = (type)a->element[i] op (type)b->element[i];       \
571         r->element[i] = cvt(result, &sat);                              \
572     }
573 
574 #define VARITHSAT_DO(name, op, optype, cvt, element)                    \
575     void helper_v##name(ppc_avr_t *r, ppc_avr_t *vscr_sat,              \
576                         ppc_avr_t *a, ppc_avr_t *b, uint32_t desc)      \
577     {                                                                   \
578         int sat = 0;                                                    \
579         int i;                                                          \
580                                                                         \
581         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
582             VARITHSAT_CASE(optype, op, cvt, element);                   \
583         }                                                               \
584         if (sat) {                                                      \
585             vscr_sat->u32[0] = 1;                                       \
586         }                                                               \
587     }
588 #define VARITHSAT_SIGNED(suffix, element, optype, cvt)          \
589     VARITHSAT_DO(adds##suffix##s, +, optype, cvt, element)      \
590     VARITHSAT_DO(subs##suffix##s, -, optype, cvt, element)
591 #define VARITHSAT_UNSIGNED(suffix, element, optype, cvt)        \
592     VARITHSAT_DO(addu##suffix##s, +, optype, cvt, element)      \
593     VARITHSAT_DO(subu##suffix##s, -, optype, cvt, element)
594 VARITHSAT_SIGNED(b, s8, int16_t, cvtshsb)
595 VARITHSAT_SIGNED(h, s16, int32_t, cvtswsh)
596 VARITHSAT_SIGNED(w, s32, int64_t, cvtsdsw)
597 VARITHSAT_UNSIGNED(b, u8, uint16_t, cvtshub)
598 VARITHSAT_UNSIGNED(h, u16, uint32_t, cvtswuh)
599 VARITHSAT_UNSIGNED(w, u32, uint64_t, cvtsduw)
600 #undef VARITHSAT_CASE
601 #undef VARITHSAT_DO
602 #undef VARITHSAT_SIGNED
603 #undef VARITHSAT_UNSIGNED
604 
605 #define VAVG_DO(name, element, etype)                                   \
606     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
607     {                                                                   \
608         int i;                                                          \
609                                                                         \
610         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
611             etype x = (etype)a->element[i] + (etype)b->element[i] + 1;  \
612             r->element[i] = x >> 1;                                     \
613         }                                                               \
614     }
615 
616 #define VAVG(type, signed_element, signed_type, unsigned_element,       \
617              unsigned_type)                                             \
618     VAVG_DO(avgs##type, signed_element, signed_type)                    \
619     VAVG_DO(avgu##type, unsigned_element, unsigned_type)
620 VAVG(b, s8, int16_t, u8, uint16_t)
621 VAVG(h, s16, int32_t, u16, uint32_t)
622 VAVG(w, s32, int64_t, u32, uint64_t)
623 #undef VAVG_DO
624 #undef VAVG
625 
626 #define VABSDU_DO(name, element)                                        \
627 void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)           \
628 {                                                                       \
629     int i;                                                              \
630                                                                         \
631     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
632         r->element[i] = (a->element[i] > b->element[i]) ?               \
633             (a->element[i] - b->element[i]) :                           \
634             (b->element[i] - a->element[i]);                            \
635     }                                                                   \
636 }
637 
638 /*
639  * VABSDU - Vector absolute difference unsigned
640  *   name    - instruction mnemonic suffix (b: byte, h: halfword, w: word)
641  *   element - element type to access from vector
642  */
643 #define VABSDU(type, element)                   \
644     VABSDU_DO(absdu##type, element)
645 VABSDU(b, u8)
646 VABSDU(h, u16)
647 VABSDU(w, u32)
648 #undef VABSDU_DO
649 #undef VABSDU
650 
651 #define VCF(suffix, cvt, element)                                       \
652     void helper_vcf##suffix(CPUPPCState *env, ppc_avr_t *r,             \
653                             ppc_avr_t *b, uint32_t uim)                 \
654     {                                                                   \
655         int i;                                                          \
656                                                                         \
657         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
658             float32 t = cvt(b->element[i], &env->vec_status);           \
659             r->f32[i] = float32_scalbn(t, -uim, &env->vec_status);      \
660         }                                                               \
661     }
662 VCF(ux, uint32_to_float32, u32)
663 VCF(sx, int32_to_float32, s32)
664 #undef VCF
665 
666 #define VCMPNEZ(NAME, ELEM) \
667 void helper_##NAME(ppc_vsr_t *t, ppc_vsr_t *a, ppc_vsr_t *b, uint32_t desc) \
668 {                                                                           \
669     for (int i = 0; i < ARRAY_SIZE(t->ELEM); i++) {                         \
670         t->ELEM[i] = ((a->ELEM[i] == 0) || (b->ELEM[i] == 0) ||             \
671                       (a->ELEM[i] != b->ELEM[i])) ? -1 : 0;                 \
672     }                                                                       \
673 }
674 VCMPNEZ(VCMPNEZB, u8)
675 VCMPNEZ(VCMPNEZH, u16)
676 VCMPNEZ(VCMPNEZW, u32)
677 #undef VCMPNEZ
678 
679 #define VCMPFP_DO(suffix, compare, order, record)                       \
680     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
681                              ppc_avr_t *a, ppc_avr_t *b)                \
682     {                                                                   \
683         uint32_t ones = (uint32_t)-1;                                   \
684         uint32_t all = ones;                                            \
685         uint32_t none = 0;                                              \
686         int i;                                                          \
687                                                                         \
688         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
689             uint32_t result;                                            \
690             FloatRelation rel =                                         \
691                 float32_compare_quiet(a->f32[i], b->f32[i],             \
692                                       &env->vec_status);                \
693             if (rel == float_relation_unordered) {                      \
694                 result = 0;                                             \
695             } else if (rel compare order) {                             \
696                 result = ones;                                          \
697             } else {                                                    \
698                 result = 0;                                             \
699             }                                                           \
700             r->u32[i] = result;                                         \
701             all &= result;                                              \
702             none |= result;                                             \
703         }                                                               \
704         if (record) {                                                   \
705             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
706         }                                                               \
707     }
708 #define VCMPFP(suffix, compare, order)          \
709     VCMPFP_DO(suffix, compare, order, 0)        \
710     VCMPFP_DO(suffix##_dot, compare, order, 1)
711 VCMPFP(eqfp, ==, float_relation_equal)
712 VCMPFP(gefp, !=, float_relation_less)
713 VCMPFP(gtfp, ==, float_relation_greater)
714 #undef VCMPFP_DO
715 #undef VCMPFP
716 
717 static inline void vcmpbfp_internal(CPUPPCState *env, ppc_avr_t *r,
718                                     ppc_avr_t *a, ppc_avr_t *b, int record)
719 {
720     int i;
721     int all_in = 0;
722 
723     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
724         FloatRelation le_rel = float32_compare_quiet(a->f32[i], b->f32[i],
725                                                      &env->vec_status);
726         if (le_rel == float_relation_unordered) {
727             r->u32[i] = 0xc0000000;
728             all_in = 1;
729         } else {
730             float32 bneg = float32_chs(b->f32[i]);
731             FloatRelation ge_rel = float32_compare_quiet(a->f32[i], bneg,
732                                                          &env->vec_status);
733             int le = le_rel != float_relation_greater;
734             int ge = ge_rel != float_relation_less;
735 
736             r->u32[i] = ((!le) << 31) | ((!ge) << 30);
737             all_in |= (!le | !ge);
738         }
739     }
740     if (record) {
741         env->crf[6] = (all_in == 0) << 1;
742     }
743 }
744 
745 void helper_vcmpbfp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
746 {
747     vcmpbfp_internal(env, r, a, b, 0);
748 }
749 
750 void helper_vcmpbfp_dot(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
751                         ppc_avr_t *b)
752 {
753     vcmpbfp_internal(env, r, a, b, 1);
754 }
755 
756 #define VCT(suffix, satcvt, element)                                    \
757     void helper_vct##suffix(CPUPPCState *env, ppc_avr_t *r,             \
758                             ppc_avr_t *b, uint32_t uim)                 \
759     {                                                                   \
760         int i;                                                          \
761         int sat = 0;                                                    \
762         float_status s = env->vec_status;                               \
763                                                                         \
764         set_float_rounding_mode(float_round_to_zero, &s);               \
765         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
766             if (float32_is_any_nan(b->f32[i])) {                        \
767                 r->element[i] = 0;                                      \
768             } else {                                                    \
769                 float64 t = float32_to_float64(b->f32[i], &s);          \
770                 int64_t j;                                              \
771                                                                         \
772                 t = float64_scalbn(t, uim, &s);                         \
773                 j = float64_to_int64(t, &s);                            \
774                 r->element[i] = satcvt(j, &sat);                        \
775             }                                                           \
776         }                                                               \
777         if (sat) {                                                      \
778             set_vscr_sat(env);                                          \
779         }                                                               \
780     }
781 VCT(uxs, cvtsduw, u32)
782 VCT(sxs, cvtsdsw, s32)
783 #undef VCT
784 
785 typedef int64_t do_ger(uint32_t, uint32_t, uint32_t);
786 
787 static int64_t ger_rank8(uint32_t a, uint32_t b, uint32_t mask)
788 {
789     int64_t psum = 0;
790     for (int i = 0; i < 8; i++, mask >>= 1) {
791         if (mask & 1) {
792             psum += sextract32(a, 4 * i, 4) * sextract32(b, 4 * i, 4);
793         }
794     }
795     return psum;
796 }
797 
798 static int64_t ger_rank4(uint32_t a, uint32_t b, uint32_t mask)
799 {
800     int64_t psum = 0;
801     for (int i = 0; i < 4; i++, mask >>= 1) {
802         if (mask & 1) {
803             psum += sextract32(a, 8 * i, 8) * (int64_t)extract32(b, 8 * i, 8);
804         }
805     }
806     return psum;
807 }
808 
809 static int64_t ger_rank2(uint32_t a, uint32_t b, uint32_t mask)
810 {
811     int64_t psum = 0;
812     for (int i = 0; i < 2; i++, mask >>= 1) {
813         if (mask & 1) {
814             psum += sextract32(a, 16 * i, 16) * sextract32(b, 16 * i, 16);
815         }
816     }
817     return psum;
818 }
819 
820 static void xviger(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b, ppc_acc_t  *at,
821                    uint32_t mask, bool sat, bool acc, do_ger ger)
822 {
823     uint8_t pmsk = FIELD_EX32(mask, GER_MSK, PMSK),
824             xmsk = FIELD_EX32(mask, GER_MSK, XMSK),
825             ymsk = FIELD_EX32(mask, GER_MSK, YMSK);
826     uint8_t xmsk_bit, ymsk_bit;
827     int64_t psum;
828     int i, j;
829     for (i = 0, xmsk_bit = 1 << 3; i < 4; i++, xmsk_bit >>= 1) {
830         for (j = 0, ymsk_bit = 1 << 3; j < 4; j++, ymsk_bit >>= 1) {
831             if ((xmsk_bit & xmsk) && (ymsk_bit & ymsk)) {
832                 psum = ger(a->VsrW(i), b->VsrW(j), pmsk);
833                 if (acc) {
834                     psum += at[i].VsrSW(j);
835                 }
836                 if (sat && psum > INT32_MAX) {
837                     set_vscr_sat(env);
838                     at[i].VsrSW(j) = INT32_MAX;
839                 } else if (sat && psum < INT32_MIN) {
840                     set_vscr_sat(env);
841                     at[i].VsrSW(j) = INT32_MIN;
842                 } else {
843                     at[i].VsrSW(j) = (int32_t) psum;
844                 }
845             } else {
846                 at[i].VsrSW(j) = 0;
847             }
848         }
849     }
850 }
851 
852 QEMU_FLATTEN
853 void helper_XVI4GER8(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
854                      ppc_acc_t *at, uint32_t mask)
855 {
856     xviger(env, a, b, at, mask, false, false, ger_rank8);
857 }
858 
859 QEMU_FLATTEN
860 void helper_XVI4GER8PP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
861                        ppc_acc_t *at, uint32_t mask)
862 {
863     xviger(env, a, b, at, mask, false, true, ger_rank8);
864 }
865 
866 QEMU_FLATTEN
867 void helper_XVI8GER4(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
868                      ppc_acc_t *at, uint32_t mask)
869 {
870     xviger(env, a, b, at, mask, false, false, ger_rank4);
871 }
872 
873 QEMU_FLATTEN
874 void helper_XVI8GER4PP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
875                        ppc_acc_t *at, uint32_t mask)
876 {
877     xviger(env, a, b, at, mask, false, true, ger_rank4);
878 }
879 
880 QEMU_FLATTEN
881 void helper_XVI8GER4SPP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
882                         ppc_acc_t *at, uint32_t mask)
883 {
884     xviger(env, a, b, at, mask, true, true, ger_rank4);
885 }
886 
887 QEMU_FLATTEN
888 void helper_XVI16GER2(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
889                       ppc_acc_t *at, uint32_t mask)
890 {
891     xviger(env, a, b, at, mask, false, false, ger_rank2);
892 }
893 
894 QEMU_FLATTEN
895 void helper_XVI16GER2S(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
896                        ppc_acc_t *at, uint32_t mask)
897 {
898     xviger(env, a, b, at, mask, true, false, ger_rank2);
899 }
900 
901 QEMU_FLATTEN
902 void helper_XVI16GER2PP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
903                         ppc_acc_t *at, uint32_t mask)
904 {
905     xviger(env, a, b, at, mask, false, true, ger_rank2);
906 }
907 
908 QEMU_FLATTEN
909 void helper_XVI16GER2SPP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
910                          ppc_acc_t *at, uint32_t mask)
911 {
912     xviger(env, a, b, at, mask, true, true, ger_rank2);
913 }
914 
915 target_ulong helper_vclzlsbb(ppc_avr_t *r)
916 {
917     target_ulong count = 0;
918     int i;
919     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
920         if (r->VsrB(i) & 0x01) {
921             break;
922         }
923         count++;
924     }
925     return count;
926 }
927 
928 target_ulong helper_vctzlsbb(ppc_avr_t *r)
929 {
930     target_ulong count = 0;
931     int i;
932     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
933         if (r->VsrB(i) & 0x01) {
934             break;
935         }
936         count++;
937     }
938     return count;
939 }
940 
941 void helper_vmhaddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
942                       ppc_avr_t *b, ppc_avr_t *c)
943 {
944     int sat = 0;
945     int i;
946 
947     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
948         int32_t prod = a->s16[i] * b->s16[i];
949         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
950 
951         r->s16[i] = cvtswsh(t, &sat);
952     }
953 
954     if (sat) {
955         set_vscr_sat(env);
956     }
957 }
958 
959 void helper_vmhraddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
960                        ppc_avr_t *b, ppc_avr_t *c)
961 {
962     int sat = 0;
963     int i;
964 
965     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
966         int32_t prod = a->s16[i] * b->s16[i] + 0x00004000;
967         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
968         r->s16[i] = cvtswsh(t, &sat);
969     }
970 
971     if (sat) {
972         set_vscr_sat(env);
973     }
974 }
975 
976 void helper_vmladduhm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
977 {
978     int i;
979 
980     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
981         int32_t prod = a->s16[i] * b->s16[i];
982         r->s16[i] = (int16_t) (prod + c->s16[i]);
983     }
984 }
985 
986 #define VMRG_DO(name, element, access, ofs)                                  \
987     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)            \
988     {                                                                        \
989         ppc_avr_t result;                                                    \
990         int i, half = ARRAY_SIZE(r->element) / 2;                            \
991                                                                              \
992         for (i = 0; i < half; i++) {                                         \
993             result.access(i * 2 + 0) = a->access(i + ofs);                   \
994             result.access(i * 2 + 1) = b->access(i + ofs);                   \
995         }                                                                    \
996         *r = result;                                                         \
997     }
998 
999 #define VMRG(suffix, element, access)          \
1000     VMRG_DO(mrgl##suffix, element, access, half)   \
1001     VMRG_DO(mrgh##suffix, element, access, 0)
1002 VMRG(b, u8, VsrB)
1003 VMRG(h, u16, VsrH)
1004 VMRG(w, u32, VsrW)
1005 #undef VMRG_DO
1006 #undef VMRG
1007 
1008 void helper_VMSUMMBM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1009 {
1010     int32_t prod[16];
1011     int i;
1012 
1013     for (i = 0; i < ARRAY_SIZE(r->s8); i++) {
1014         prod[i] = (int32_t)a->s8[i] * b->u8[i];
1015     }
1016 
1017     VECTOR_FOR_INORDER_I(i, s32) {
1018         r->s32[i] = c->s32[i] + prod[4 * i] + prod[4 * i + 1] +
1019             prod[4 * i + 2] + prod[4 * i + 3];
1020     }
1021 }
1022 
1023 void helper_VMSUMSHM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1024 {
1025     int32_t prod[8];
1026     int i;
1027 
1028     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
1029         prod[i] = a->s16[i] * b->s16[i];
1030     }
1031 
1032     VECTOR_FOR_INORDER_I(i, s32) {
1033         r->s32[i] = c->s32[i] + prod[2 * i] + prod[2 * i + 1];
1034     }
1035 }
1036 
1037 void helper_VMSUMSHS(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1038                      ppc_avr_t *b, ppc_avr_t *c)
1039 {
1040     int32_t prod[8];
1041     int i;
1042     int sat = 0;
1043 
1044     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
1045         prod[i] = (int32_t)a->s16[i] * b->s16[i];
1046     }
1047 
1048     VECTOR_FOR_INORDER_I(i, s32) {
1049         int64_t t = (int64_t)c->s32[i] + prod[2 * i] + prod[2 * i + 1];
1050 
1051         r->u32[i] = cvtsdsw(t, &sat);
1052     }
1053 
1054     if (sat) {
1055         set_vscr_sat(env);
1056     }
1057 }
1058 
1059 void helper_VMSUMUBM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1060 {
1061     uint16_t prod[16];
1062     int i;
1063 
1064     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1065         prod[i] = a->u8[i] * b->u8[i];
1066     }
1067 
1068     VECTOR_FOR_INORDER_I(i, u32) {
1069         r->u32[i] = c->u32[i] + prod[4 * i] + prod[4 * i + 1] +
1070             prod[4 * i + 2] + prod[4 * i + 3];
1071     }
1072 }
1073 
1074 void helper_VMSUMUHM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1075 {
1076     uint32_t prod[8];
1077     int i;
1078 
1079     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1080         prod[i] = a->u16[i] * b->u16[i];
1081     }
1082 
1083     VECTOR_FOR_INORDER_I(i, u32) {
1084         r->u32[i] = c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1085     }
1086 }
1087 
1088 void helper_VMSUMUHS(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1089                      ppc_avr_t *b, ppc_avr_t *c)
1090 {
1091     uint32_t prod[8];
1092     int i;
1093     int sat = 0;
1094 
1095     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1096         prod[i] = a->u16[i] * b->u16[i];
1097     }
1098 
1099     VECTOR_FOR_INORDER_I(i, s32) {
1100         uint64_t t = (uint64_t)c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1101 
1102         r->u32[i] = cvtuduw(t, &sat);
1103     }
1104 
1105     if (sat) {
1106         set_vscr_sat(env);
1107     }
1108 }
1109 
1110 #define VMUL_DO_EVN(name, mul_element, mul_access, prod_access, cast)   \
1111     void helper_V##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1112     {                                                                   \
1113         int i;                                                          \
1114                                                                         \
1115         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1116             r->prod_access(i >> 1) = (cast)a->mul_access(i) *           \
1117                                      (cast)b->mul_access(i);            \
1118         }                                                               \
1119     }
1120 
1121 #define VMUL_DO_ODD(name, mul_element, mul_access, prod_access, cast)   \
1122     void helper_V##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1123     {                                                                   \
1124         int i;                                                          \
1125                                                                         \
1126         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1127             r->prod_access(i >> 1) = (cast)a->mul_access(i + 1) *       \
1128                                      (cast)b->mul_access(i + 1);        \
1129         }                                                               \
1130     }
1131 
1132 #define VMUL(suffix, mul_element, mul_access, prod_access, cast)       \
1133     VMUL_DO_EVN(MULE##suffix, mul_element, mul_access, prod_access, cast)  \
1134     VMUL_DO_ODD(MULO##suffix, mul_element, mul_access, prod_access, cast)
1135 VMUL(SB, s8, VsrSB, VsrSH, int16_t)
1136 VMUL(SH, s16, VsrSH, VsrSW, int32_t)
1137 VMUL(SW, s32, VsrSW, VsrSD, int64_t)
1138 VMUL(UB, u8, VsrB, VsrH, uint16_t)
1139 VMUL(UH, u16, VsrH, VsrW, uint32_t)
1140 VMUL(UW, u32, VsrW, VsrD, uint64_t)
1141 #undef VMUL_DO_EVN
1142 #undef VMUL_DO_ODD
1143 #undef VMUL
1144 
1145 void helper_XXPERMX(ppc_vsr_t *t, ppc_vsr_t *s0, ppc_vsr_t *s1, ppc_vsr_t *pcv,
1146                     target_ulong uim)
1147 {
1148     int i, idx;
1149     ppc_vsr_t tmp = { .u64 = {0, 0} };
1150 
1151     for (i = 0; i < ARRAY_SIZE(t->u8); i++) {
1152         if ((pcv->VsrB(i) >> 5) == uim) {
1153             idx = pcv->VsrB(i) & 0x1f;
1154             if (idx < ARRAY_SIZE(t->u8)) {
1155                 tmp.VsrB(i) = s0->VsrB(idx);
1156             } else {
1157                 tmp.VsrB(i) = s1->VsrB(idx - ARRAY_SIZE(t->u8));
1158             }
1159         }
1160     }
1161 
1162     *t = tmp;
1163 }
1164 
1165 void helper_VPERM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1166 {
1167     ppc_avr_t result;
1168     int i;
1169 
1170     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1171         int s = c->VsrB(i) & 0x1f;
1172         int index = s & 0xf;
1173 
1174         if (s & 0x10) {
1175             result.VsrB(i) = b->VsrB(index);
1176         } else {
1177             result.VsrB(i) = a->VsrB(index);
1178         }
1179     }
1180     *r = result;
1181 }
1182 
1183 void helper_VPERMR(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1184 {
1185     ppc_avr_t result;
1186     int i;
1187 
1188     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1189         int s = c->VsrB(i) & 0x1f;
1190         int index = 15 - (s & 0xf);
1191 
1192         if (s & 0x10) {
1193             result.VsrB(i) = a->VsrB(index);
1194         } else {
1195             result.VsrB(i) = b->VsrB(index);
1196         }
1197     }
1198     *r = result;
1199 }
1200 
1201 #define XXGENPCV_BE_EXP(NAME, SZ) \
1202 void glue(helper_, glue(NAME, _be_exp))(ppc_vsr_t *t, ppc_vsr_t *b) \
1203 {                                                                   \
1204     ppc_vsr_t tmp;                                                  \
1205                                                                     \
1206     /* Initialize tmp with the result of an all-zeros mask */       \
1207     tmp.VsrD(0) = 0x1011121314151617;                               \
1208     tmp.VsrD(1) = 0x18191A1B1C1D1E1F;                               \
1209                                                                     \
1210     /* Iterate over the most significant byte of each element */    \
1211     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1212         if (b->VsrB(i) & 0x80) {                                    \
1213             /* Update each byte of the element */                   \
1214             for (int k = 0; k < SZ; k++) {                          \
1215                 tmp.VsrB(i + k) = j + k;                            \
1216             }                                                       \
1217             j += SZ;                                                \
1218         }                                                           \
1219     }                                                               \
1220                                                                     \
1221     *t = tmp;                                                       \
1222 }
1223 
1224 #define XXGENPCV_BE_COMP(NAME, SZ) \
1225 void glue(helper_, glue(NAME, _be_comp))(ppc_vsr_t *t, ppc_vsr_t *b)\
1226 {                                                                   \
1227     ppc_vsr_t tmp = { .u64 = { 0, 0 } };                            \
1228                                                                     \
1229     /* Iterate over the most significant byte of each element */    \
1230     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1231         if (b->VsrB(i) & 0x80) {                                    \
1232             /* Update each byte of the element */                   \
1233             for (int k = 0; k < SZ; k++) {                          \
1234                 tmp.VsrB(j + k) = i + k;                            \
1235             }                                                       \
1236             j += SZ;                                                \
1237         }                                                           \
1238     }                                                               \
1239                                                                     \
1240     *t = tmp;                                                       \
1241 }
1242 
1243 #define XXGENPCV_LE_EXP(NAME, SZ) \
1244 void glue(helper_, glue(NAME, _le_exp))(ppc_vsr_t *t, ppc_vsr_t *b) \
1245 {                                                                   \
1246     ppc_vsr_t tmp;                                                  \
1247                                                                     \
1248     /* Initialize tmp with the result of an all-zeros mask */       \
1249     tmp.VsrD(0) = 0x1F1E1D1C1B1A1918;                               \
1250     tmp.VsrD(1) = 0x1716151413121110;                               \
1251                                                                     \
1252     /* Iterate over the most significant byte of each element */    \
1253     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1254         /* Reverse indexing of "i" */                               \
1255         const int idx = ARRAY_SIZE(b->u8) - i - SZ;                 \
1256         if (b->VsrB(idx) & 0x80) {                                  \
1257             /* Update each byte of the element */                   \
1258             for (int k = 0, rk = SZ - 1; k < SZ; k++, rk--) {       \
1259                 tmp.VsrB(idx + rk) = j + k;                         \
1260             }                                                       \
1261             j += SZ;                                                \
1262         }                                                           \
1263     }                                                               \
1264                                                                     \
1265     *t = tmp;                                                       \
1266 }
1267 
1268 #define XXGENPCV_LE_COMP(NAME, SZ) \
1269 void glue(helper_, glue(NAME, _le_comp))(ppc_vsr_t *t, ppc_vsr_t *b)\
1270 {                                                                   \
1271     ppc_vsr_t tmp = { .u64 = { 0, 0 } };                            \
1272                                                                     \
1273     /* Iterate over the most significant byte of each element */    \
1274     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1275         if (b->VsrB(ARRAY_SIZE(b->u8) - i - SZ) & 0x80) {           \
1276             /* Update each byte of the element */                   \
1277             for (int k = 0, rk = SZ - 1; k < SZ; k++, rk--) {       \
1278                 /* Reverse indexing of "j" */                       \
1279                 const int idx = ARRAY_SIZE(b->u8) - j - SZ;         \
1280                 tmp.VsrB(idx + rk) = i + k;                         \
1281             }                                                       \
1282             j += SZ;                                                \
1283         }                                                           \
1284     }                                                               \
1285                                                                     \
1286     *t = tmp;                                                       \
1287 }
1288 
1289 #define XXGENPCV(NAME, SZ) \
1290     XXGENPCV_BE_EXP(NAME, SZ)  \
1291     XXGENPCV_BE_COMP(NAME, SZ) \
1292     XXGENPCV_LE_EXP(NAME, SZ)  \
1293     XXGENPCV_LE_COMP(NAME, SZ) \
1294 
1295 XXGENPCV(XXGENPCVBM, 1)
1296 XXGENPCV(XXGENPCVHM, 2)
1297 XXGENPCV(XXGENPCVWM, 4)
1298 XXGENPCV(XXGENPCVDM, 8)
1299 
1300 #undef XXGENPCV_BE_EXP
1301 #undef XXGENPCV_BE_COMP
1302 #undef XXGENPCV_LE_EXP
1303 #undef XXGENPCV_LE_COMP
1304 #undef XXGENPCV
1305 
1306 #if HOST_BIG_ENDIAN
1307 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[(i)])
1308 #define VBPERMD_INDEX(i) (i)
1309 #define VBPERMQ_DW(index) (((index) & 0x40) != 0)
1310 #define EXTRACT_BIT(avr, i, index) (extract64((avr)->u64[i], index, 1))
1311 #else
1312 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[15 - (i)])
1313 #define VBPERMD_INDEX(i) (1 - i)
1314 #define VBPERMQ_DW(index) (((index) & 0x40) == 0)
1315 #define EXTRACT_BIT(avr, i, index) \
1316         (extract64((avr)->u64[1 - i], 63 - index, 1))
1317 #endif
1318 
1319 void helper_vbpermd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1320 {
1321     int i, j;
1322     ppc_avr_t result = { .u64 = { 0, 0 } };
1323     VECTOR_FOR_INORDER_I(i, u64) {
1324         for (j = 0; j < 8; j++) {
1325             int index = VBPERMQ_INDEX(b, (i * 8) + j);
1326             if (index < 64 && EXTRACT_BIT(a, i, index)) {
1327                 result.u64[VBPERMD_INDEX(i)] |= (0x80 >> j);
1328             }
1329         }
1330     }
1331     *r = result;
1332 }
1333 
1334 void helper_vbpermq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1335 {
1336     int i;
1337     uint64_t perm = 0;
1338 
1339     VECTOR_FOR_INORDER_I(i, u8) {
1340         int index = VBPERMQ_INDEX(b, i);
1341 
1342         if (index < 128) {
1343             uint64_t mask = (1ull << (63 - (index & 0x3F)));
1344             if (a->u64[VBPERMQ_DW(index)] & mask) {
1345                 perm |= (0x8000 >> i);
1346             }
1347         }
1348     }
1349 
1350     r->VsrD(0) = perm;
1351     r->VsrD(1) = 0;
1352 }
1353 
1354 #undef VBPERMQ_INDEX
1355 #undef VBPERMQ_DW
1356 
1357 #define PMSUM(name, srcfld, trgfld, trgtyp)                   \
1358 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)  \
1359 {                                                             \
1360     int i, j;                                                 \
1361     trgtyp prod[sizeof(ppc_avr_t) / sizeof(a->srcfld[0])];    \
1362                                                               \
1363     VECTOR_FOR_INORDER_I(i, srcfld) {                         \
1364         prod[i] = 0;                                          \
1365         for (j = 0; j < sizeof(a->srcfld[0]) * 8; j++) {      \
1366             if (a->srcfld[i] & (1ull << j)) {                 \
1367                 prod[i] ^= ((trgtyp)b->srcfld[i] << j);       \
1368             }                                                 \
1369         }                                                     \
1370     }                                                         \
1371                                                               \
1372     VECTOR_FOR_INORDER_I(i, trgfld) {                         \
1373         r->trgfld[i] = prod[2 * i] ^ prod[2 * i + 1];         \
1374     }                                                         \
1375 }
1376 
1377 PMSUM(vpmsumb, u8, u16, uint16_t)
1378 PMSUM(vpmsumh, u16, u32, uint32_t)
1379 PMSUM(vpmsumw, u32, u64, uint64_t)
1380 
1381 void helper_vpmsumd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1382 {
1383 
1384 #ifdef CONFIG_INT128
1385     int i, j;
1386     __uint128_t prod[2];
1387 
1388     VECTOR_FOR_INORDER_I(i, u64) {
1389         prod[i] = 0;
1390         for (j = 0; j < 64; j++) {
1391             if (a->u64[i] & (1ull << j)) {
1392                 prod[i] ^= (((__uint128_t)b->u64[i]) << j);
1393             }
1394         }
1395     }
1396 
1397     r->u128 = prod[0] ^ prod[1];
1398 
1399 #else
1400     int i, j;
1401     ppc_avr_t prod[2];
1402 
1403     VECTOR_FOR_INORDER_I(i, u64) {
1404         prod[i].VsrD(1) = prod[i].VsrD(0) = 0;
1405         for (j = 0; j < 64; j++) {
1406             if (a->u64[i] & (1ull << j)) {
1407                 ppc_avr_t bshift;
1408                 if (j == 0) {
1409                     bshift.VsrD(0) = 0;
1410                     bshift.VsrD(1) = b->u64[i];
1411                 } else {
1412                     bshift.VsrD(0) = b->u64[i] >> (64 - j);
1413                     bshift.VsrD(1) = b->u64[i] << j;
1414                 }
1415                 prod[i].VsrD(1) ^= bshift.VsrD(1);
1416                 prod[i].VsrD(0) ^= bshift.VsrD(0);
1417             }
1418         }
1419     }
1420 
1421     r->VsrD(1) = prod[0].VsrD(1) ^ prod[1].VsrD(1);
1422     r->VsrD(0) = prod[0].VsrD(0) ^ prod[1].VsrD(0);
1423 #endif
1424 }
1425 
1426 
1427 #if HOST_BIG_ENDIAN
1428 #define PKBIG 1
1429 #else
1430 #define PKBIG 0
1431 #endif
1432 void helper_vpkpx(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1433 {
1434     int i, j;
1435     ppc_avr_t result;
1436 #if HOST_BIG_ENDIAN
1437     const ppc_avr_t *x[2] = { a, b };
1438 #else
1439     const ppc_avr_t *x[2] = { b, a };
1440 #endif
1441 
1442     VECTOR_FOR_INORDER_I(i, u64) {
1443         VECTOR_FOR_INORDER_I(j, u32) {
1444             uint32_t e = x[i]->u32[j];
1445 
1446             result.u16[4 * i + j] = (((e >> 9) & 0xfc00) |
1447                                      ((e >> 6) & 0x3e0) |
1448                                      ((e >> 3) & 0x1f));
1449         }
1450     }
1451     *r = result;
1452 }
1453 
1454 #define VPK(suffix, from, to, cvt, dosat)                               \
1455     void helper_vpk##suffix(CPUPPCState *env, ppc_avr_t *r,             \
1456                             ppc_avr_t *a, ppc_avr_t *b)                 \
1457     {                                                                   \
1458         int i;                                                          \
1459         int sat = 0;                                                    \
1460         ppc_avr_t result;                                               \
1461         ppc_avr_t *a0 = PKBIG ? a : b;                                  \
1462         ppc_avr_t *a1 = PKBIG ? b : a;                                  \
1463                                                                         \
1464         VECTOR_FOR_INORDER_I(i, from) {                                 \
1465             result.to[i] = cvt(a0->from[i], &sat);                      \
1466             result.to[i + ARRAY_SIZE(r->from)] = cvt(a1->from[i], &sat);\
1467         }                                                               \
1468         *r = result;                                                    \
1469         if (dosat && sat) {                                             \
1470             set_vscr_sat(env);                                          \
1471         }                                                               \
1472     }
1473 #define I(x, y) (x)
1474 VPK(shss, s16, s8, cvtshsb, 1)
1475 VPK(shus, s16, u8, cvtshub, 1)
1476 VPK(swss, s32, s16, cvtswsh, 1)
1477 VPK(swus, s32, u16, cvtswuh, 1)
1478 VPK(sdss, s64, s32, cvtsdsw, 1)
1479 VPK(sdus, s64, u32, cvtsduw, 1)
1480 VPK(uhus, u16, u8, cvtuhub, 1)
1481 VPK(uwus, u32, u16, cvtuwuh, 1)
1482 VPK(udus, u64, u32, cvtuduw, 1)
1483 VPK(uhum, u16, u8, I, 0)
1484 VPK(uwum, u32, u16, I, 0)
1485 VPK(udum, u64, u32, I, 0)
1486 #undef I
1487 #undef VPK
1488 #undef PKBIG
1489 
1490 void helper_vrefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1491 {
1492     int i;
1493 
1494     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1495         r->f32[i] = float32_div(float32_one, b->f32[i], &env->vec_status);
1496     }
1497 }
1498 
1499 #define VRFI(suffix, rounding)                                  \
1500     void helper_vrfi##suffix(CPUPPCState *env, ppc_avr_t *r,    \
1501                              ppc_avr_t *b)                      \
1502     {                                                           \
1503         int i;                                                  \
1504         float_status s = env->vec_status;                       \
1505                                                                 \
1506         set_float_rounding_mode(rounding, &s);                  \
1507         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {              \
1508             r->f32[i] = float32_round_to_int (b->f32[i], &s);   \
1509         }                                                       \
1510     }
1511 VRFI(n, float_round_nearest_even)
1512 VRFI(m, float_round_down)
1513 VRFI(p, float_round_up)
1514 VRFI(z, float_round_to_zero)
1515 #undef VRFI
1516 
1517 void helper_vrsqrtefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1518 {
1519     int i;
1520 
1521     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1522         float32 t = float32_sqrt(b->f32[i], &env->vec_status);
1523 
1524         r->f32[i] = float32_div(float32_one, t, &env->vec_status);
1525     }
1526 }
1527 
1528 #define VRLMI(name, size, element, insert)                                  \
1529 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t desc) \
1530 {                                                                           \
1531     int i;                                                                  \
1532     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                          \
1533         uint##size##_t src1 = a->element[i];                                \
1534         uint##size##_t src2 = b->element[i];                                \
1535         uint##size##_t src3 = r->element[i];                                \
1536         uint##size##_t begin, end, shift, mask, rot_val;                    \
1537                                                                             \
1538         shift = extract##size(src2, 0, 6);                                  \
1539         end   = extract##size(src2, 8, 6);                                  \
1540         begin = extract##size(src2, 16, 6);                                 \
1541         rot_val = rol##size(src1, shift);                                   \
1542         mask = mask_u##size(begin, end);                                    \
1543         if (insert) {                                                       \
1544             r->element[i] = (rot_val & mask) | (src3 & ~mask);              \
1545         } else {                                                            \
1546             r->element[i] = (rot_val & mask);                               \
1547         }                                                                   \
1548     }                                                                       \
1549 }
1550 
1551 VRLMI(VRLDMI, 64, u64, 1);
1552 VRLMI(VRLWMI, 32, u32, 1);
1553 VRLMI(VRLDNM, 64, u64, 0);
1554 VRLMI(VRLWNM, 32, u32, 0);
1555 
1556 void helper_vexptefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1557 {
1558     int i;
1559 
1560     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1561         r->f32[i] = float32_exp2(b->f32[i], &env->vec_status);
1562     }
1563 }
1564 
1565 void helper_vlogefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1566 {
1567     int i;
1568 
1569     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1570         r->f32[i] = float32_log2(b->f32[i], &env->vec_status);
1571     }
1572 }
1573 
1574 #define VEXTU_X_DO(name, size, left)                            \
1575 target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1576 {                                                               \
1577     int index = (a & 0xf) * 8;                                  \
1578     if (left) {                                                 \
1579         index = 128 - index - size;                             \
1580     }                                                           \
1581     return int128_getlo(int128_rshift(b->s128, index)) &        \
1582         MAKE_64BIT_MASK(0, size);                               \
1583 }
1584 VEXTU_X_DO(vextublx,  8, 1)
1585 VEXTU_X_DO(vextuhlx, 16, 1)
1586 VEXTU_X_DO(vextuwlx, 32, 1)
1587 VEXTU_X_DO(vextubrx,  8, 0)
1588 VEXTU_X_DO(vextuhrx, 16, 0)
1589 VEXTU_X_DO(vextuwrx, 32, 0)
1590 #undef VEXTU_X_DO
1591 
1592 void helper_vslv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1593 {
1594     int i;
1595     unsigned int shift, bytes, size;
1596 
1597     size = ARRAY_SIZE(r->u8);
1598     for (i = 0; i < size; i++) {
1599         shift = b->VsrB(i) & 0x7;             /* extract shift value */
1600         bytes = (a->VsrB(i) << 8) +           /* extract adjacent bytes */
1601             (((i + 1) < size) ? a->VsrB(i + 1) : 0);
1602         r->VsrB(i) = (bytes << shift) >> 8;   /* shift and store result */
1603     }
1604 }
1605 
1606 void helper_vsrv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1607 {
1608     int i;
1609     unsigned int shift, bytes;
1610 
1611     /*
1612      * Use reverse order, as destination and source register can be
1613      * same. Its being modified in place saving temporary, reverse
1614      * order will guarantee that computed result is not fed back.
1615      */
1616     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
1617         shift = b->VsrB(i) & 0x7;               /* extract shift value */
1618         bytes = ((i ? a->VsrB(i - 1) : 0) << 8) + a->VsrB(i);
1619                                                 /* extract adjacent bytes */
1620         r->VsrB(i) = (bytes >> shift) & 0xFF;   /* shift and store result */
1621     }
1622 }
1623 
1624 void helper_vsldoi(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t shift)
1625 {
1626     int sh = shift & 0xf;
1627     int i;
1628     ppc_avr_t result;
1629 
1630     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1631         int index = sh + i;
1632         if (index > 0xf) {
1633             result.VsrB(i) = b->VsrB(index - 0x10);
1634         } else {
1635             result.VsrB(i) = a->VsrB(index);
1636         }
1637     }
1638     *r = result;
1639 }
1640 
1641 void helper_vslo(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1642 {
1643     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1644 
1645 #if HOST_BIG_ENDIAN
1646     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1647     memset(&r->u8[16 - sh], 0, sh);
1648 #else
1649     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1650     memset(&r->u8[0], 0, sh);
1651 #endif
1652 }
1653 
1654 #if HOST_BIG_ENDIAN
1655 #define ELEM_ADDR(VEC, IDX, SIZE) (&(VEC)->u8[IDX])
1656 #else
1657 #define ELEM_ADDR(VEC, IDX, SIZE) (&(VEC)->u8[15 - (IDX)] - (SIZE) + 1)
1658 #endif
1659 
1660 #define VINSX(SUFFIX, TYPE) \
1661 void glue(glue(helper_VINS, SUFFIX), LX)(CPUPPCState *env, ppc_avr_t *t,       \
1662                                          uint64_t val, target_ulong index)     \
1663 {                                                                              \
1664     const int maxidx = ARRAY_SIZE(t->u8) - sizeof(TYPE);                       \
1665     target_long idx = index;                                                   \
1666                                                                                \
1667     if (idx < 0 || idx > maxidx) {                                             \
1668         idx =  idx < 0 ? sizeof(TYPE) - idx : idx;                             \
1669         qemu_log_mask(LOG_GUEST_ERROR,                                         \
1670             "Invalid index for Vector Insert Element after 0x" TARGET_FMT_lx   \
1671             ", RA = " TARGET_FMT_ld " > %d\n", env->nip, idx, maxidx);         \
1672     } else {                                                                   \
1673         TYPE src = val;                                                        \
1674         memcpy(ELEM_ADDR(t, idx, sizeof(TYPE)), &src, sizeof(TYPE));           \
1675     }                                                                          \
1676 }
1677 VINSX(B, uint8_t)
1678 VINSX(H, uint16_t)
1679 VINSX(W, uint32_t)
1680 VINSX(D, uint64_t)
1681 #undef ELEM_ADDR
1682 #undef VINSX
1683 #if HOST_BIG_ENDIAN
1684 #define VEXTDVLX(NAME, SIZE) \
1685 void helper_##NAME(CPUPPCState *env, ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, \
1686                    target_ulong index)                                         \
1687 {                                                                              \
1688     const target_long idx = index;                                             \
1689     ppc_avr_t tmp[2] = { *a, *b };                                             \
1690     memset(t, 0, sizeof(*t));                                                  \
1691     if (idx >= 0 && idx + SIZE <= sizeof(tmp)) {                               \
1692         memcpy(&t->u8[ARRAY_SIZE(t->u8) / 2 - SIZE], (void *)tmp + idx, SIZE); \
1693     } else {                                                                   \
1694         qemu_log_mask(LOG_GUEST_ERROR, "Invalid index for " #NAME " after 0x"  \
1695                       TARGET_FMT_lx ", RC = " TARGET_FMT_ld " > %d\n",         \
1696                       env->nip, idx < 0 ? SIZE - idx : idx, 32 - SIZE);        \
1697     }                                                                          \
1698 }
1699 #else
1700 #define VEXTDVLX(NAME, SIZE) \
1701 void helper_##NAME(CPUPPCState *env, ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, \
1702                    target_ulong index)                                         \
1703 {                                                                              \
1704     const target_long idx = index;                                             \
1705     ppc_avr_t tmp[2] = { *b, *a };                                             \
1706     memset(t, 0, sizeof(*t));                                                  \
1707     if (idx >= 0 && idx + SIZE <= sizeof(tmp)) {                               \
1708         memcpy(&t->u8[ARRAY_SIZE(t->u8) / 2],                                  \
1709                (void *)tmp + sizeof(tmp) - SIZE - idx, SIZE);                  \
1710     } else {                                                                   \
1711         qemu_log_mask(LOG_GUEST_ERROR, "Invalid index for " #NAME " after 0x"  \
1712                       TARGET_FMT_lx ", RC = " TARGET_FMT_ld " > %d\n",         \
1713                       env->nip, idx < 0 ? SIZE - idx : idx, 32 - SIZE);        \
1714     }                                                                          \
1715 }
1716 #endif
1717 VEXTDVLX(VEXTDUBVLX, 1)
1718 VEXTDVLX(VEXTDUHVLX, 2)
1719 VEXTDVLX(VEXTDUWVLX, 4)
1720 VEXTDVLX(VEXTDDVLX, 8)
1721 #undef VEXTDVLX
1722 #if HOST_BIG_ENDIAN
1723 #define VEXTRACT(suffix, element)                                            \
1724     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1725     {                                                                        \
1726         uint32_t es = sizeof(r->element[0]);                                 \
1727         memmove(&r->u8[8 - es], &b->u8[index], es);                          \
1728         memset(&r->u8[8], 0, 8);                                             \
1729         memset(&r->u8[0], 0, 8 - es);                                        \
1730     }
1731 #else
1732 #define VEXTRACT(suffix, element)                                            \
1733     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1734     {                                                                        \
1735         uint32_t es = sizeof(r->element[0]);                                 \
1736         uint32_t s = (16 - index) - es;                                      \
1737         memmove(&r->u8[8], &b->u8[s], es);                                   \
1738         memset(&r->u8[0], 0, 8);                                             \
1739         memset(&r->u8[8 + es], 0, 8 - es);                                   \
1740     }
1741 #endif
1742 VEXTRACT(ub, u8)
1743 VEXTRACT(uh, u16)
1744 VEXTRACT(uw, u32)
1745 VEXTRACT(d, u64)
1746 #undef VEXTRACT
1747 
1748 #define VSTRI(NAME, ELEM, NUM_ELEMS, LEFT) \
1749 uint32_t helper_##NAME(ppc_avr_t *t, ppc_avr_t *b) \
1750 {                                                   \
1751     int i, idx, crf = 0;                            \
1752                                                     \
1753     for (i = 0; i < NUM_ELEMS; i++) {               \
1754         idx = LEFT ? i : NUM_ELEMS - i - 1;         \
1755         if (b->Vsr##ELEM(idx)) {                    \
1756             t->Vsr##ELEM(idx) = b->Vsr##ELEM(idx);  \
1757         } else {                                    \
1758             crf = 0b0010;                           \
1759             break;                                  \
1760         }                                           \
1761     }                                               \
1762                                                     \
1763     for (; i < NUM_ELEMS; i++) {                    \
1764         idx = LEFT ? i : NUM_ELEMS - i - 1;         \
1765         t->Vsr##ELEM(idx) = 0;                      \
1766     }                                               \
1767                                                     \
1768     return crf;                                     \
1769 }
1770 VSTRI(VSTRIBL, B, 16, true)
1771 VSTRI(VSTRIBR, B, 16, false)
1772 VSTRI(VSTRIHL, H, 8, true)
1773 VSTRI(VSTRIHR, H, 8, false)
1774 #undef VSTRI
1775 
1776 void helper_XXEXTRACTUW(ppc_vsr_t *xt, ppc_vsr_t *xb, uint32_t index)
1777 {
1778     ppc_vsr_t t = { };
1779     size_t es = sizeof(uint32_t);
1780     uint32_t ext_index;
1781     int i;
1782 
1783     ext_index = index;
1784     for (i = 0; i < es; i++, ext_index++) {
1785         t.VsrB(8 - es + i) = xb->VsrB(ext_index % 16);
1786     }
1787 
1788     *xt = t;
1789 }
1790 
1791 void helper_XXINSERTW(ppc_vsr_t *xt, ppc_vsr_t *xb, uint32_t index)
1792 {
1793     ppc_vsr_t t = *xt;
1794     size_t es = sizeof(uint32_t);
1795     int ins_index, i = 0;
1796 
1797     ins_index = index;
1798     for (i = 0; i < es && ins_index < 16; i++, ins_index++) {
1799         t.VsrB(ins_index) = xb->VsrB(8 - es + i);
1800     }
1801 
1802     *xt = t;
1803 }
1804 
1805 void helper_XXEVAL(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c,
1806                    uint32_t desc)
1807 {
1808     /*
1809      * Instead of processing imm bit-by-bit, we'll skip the computation of
1810      * conjunctions whose corresponding bit is unset.
1811      */
1812     int bit, imm = simd_data(desc);
1813     Int128 conj, disj = int128_zero();
1814 
1815     /* Iterate over set bits from the least to the most significant bit */
1816     while (imm) {
1817         /*
1818          * Get the next bit to be processed with ctz64. Invert the result of
1819          * ctz64 to match the indexing used by PowerISA.
1820          */
1821         bit = 7 - ctzl(imm);
1822         if (bit & 0x4) {
1823             conj = a->s128;
1824         } else {
1825             conj = int128_not(a->s128);
1826         }
1827         if (bit & 0x2) {
1828             conj = int128_and(conj, b->s128);
1829         } else {
1830             conj = int128_and(conj, int128_not(b->s128));
1831         }
1832         if (bit & 0x1) {
1833             conj = int128_and(conj, c->s128);
1834         } else {
1835             conj = int128_and(conj, int128_not(c->s128));
1836         }
1837         disj = int128_or(disj, conj);
1838 
1839         /* Unset the least significant bit that is set */
1840         imm &= imm - 1;
1841     }
1842 
1843     t->s128 = disj;
1844 }
1845 
1846 #define XXBLEND(name, sz) \
1847 void glue(helper_XXBLENDV, name)(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b,  \
1848                                  ppc_avr_t *c, uint32_t desc)               \
1849 {                                                                           \
1850     for (int i = 0; i < ARRAY_SIZE(t->glue(u, sz)); i++) {                  \
1851         t->glue(u, sz)[i] = (c->glue(s, sz)[i] >> (sz - 1)) ?               \
1852             b->glue(u, sz)[i] : a->glue(u, sz)[i];                          \
1853     }                                                                       \
1854 }
1855 XXBLEND(B, 8)
1856 XXBLEND(H, 16)
1857 XXBLEND(W, 32)
1858 XXBLEND(D, 64)
1859 #undef XXBLEND
1860 
1861 #define VNEG(name, element)                                         \
1862 void helper_##name(ppc_avr_t *r, ppc_avr_t *b)                      \
1863 {                                                                   \
1864     int i;                                                          \
1865     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1866         r->element[i] = -b->element[i];                             \
1867     }                                                               \
1868 }
1869 VNEG(vnegw, s32)
1870 VNEG(vnegd, s64)
1871 #undef VNEG
1872 
1873 void helper_vsro(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1874 {
1875     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1876 
1877 #if HOST_BIG_ENDIAN
1878     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1879     memset(&r->u8[0], 0, sh);
1880 #else
1881     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1882     memset(&r->u8[16 - sh], 0, sh);
1883 #endif
1884 }
1885 
1886 void helper_vsubcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1887 {
1888     int i;
1889 
1890     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1891         r->u32[i] = a->u32[i] >= b->u32[i];
1892     }
1893 }
1894 
1895 void helper_vsumsws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1896 {
1897     int64_t t;
1898     int i, upper;
1899     ppc_avr_t result;
1900     int sat = 0;
1901 
1902     upper = ARRAY_SIZE(r->s32) - 1;
1903     t = (int64_t)b->VsrSW(upper);
1904     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1905         t += a->VsrSW(i);
1906         result.VsrSW(i) = 0;
1907     }
1908     result.VsrSW(upper) = cvtsdsw(t, &sat);
1909     *r = result;
1910 
1911     if (sat) {
1912         set_vscr_sat(env);
1913     }
1914 }
1915 
1916 void helper_vsum2sws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1917 {
1918     int i, j, upper;
1919     ppc_avr_t result;
1920     int sat = 0;
1921 
1922     upper = 1;
1923     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
1924         int64_t t = (int64_t)b->VsrSW(upper + i * 2);
1925 
1926         result.VsrD(i) = 0;
1927         for (j = 0; j < ARRAY_SIZE(r->u64); j++) {
1928             t += a->VsrSW(2 * i + j);
1929         }
1930         result.VsrSW(upper + i * 2) = cvtsdsw(t, &sat);
1931     }
1932 
1933     *r = result;
1934     if (sat) {
1935         set_vscr_sat(env);
1936     }
1937 }
1938 
1939 void helper_vsum4sbs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1940 {
1941     int i, j;
1942     int sat = 0;
1943 
1944     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1945         int64_t t = (int64_t)b->s32[i];
1946 
1947         for (j = 0; j < ARRAY_SIZE(r->s32); j++) {
1948             t += a->s8[4 * i + j];
1949         }
1950         r->s32[i] = cvtsdsw(t, &sat);
1951     }
1952 
1953     if (sat) {
1954         set_vscr_sat(env);
1955     }
1956 }
1957 
1958 void helper_vsum4shs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1959 {
1960     int sat = 0;
1961     int i;
1962 
1963     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1964         int64_t t = (int64_t)b->s32[i];
1965 
1966         t += a->s16[2 * i] + a->s16[2 * i + 1];
1967         r->s32[i] = cvtsdsw(t, &sat);
1968     }
1969 
1970     if (sat) {
1971         set_vscr_sat(env);
1972     }
1973 }
1974 
1975 void helper_vsum4ubs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1976 {
1977     int i, j;
1978     int sat = 0;
1979 
1980     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1981         uint64_t t = (uint64_t)b->u32[i];
1982 
1983         for (j = 0; j < ARRAY_SIZE(r->u32); j++) {
1984             t += a->u8[4 * i + j];
1985         }
1986         r->u32[i] = cvtuduw(t, &sat);
1987     }
1988 
1989     if (sat) {
1990         set_vscr_sat(env);
1991     }
1992 }
1993 
1994 #if HOST_BIG_ENDIAN
1995 #define UPKHI 1
1996 #define UPKLO 0
1997 #else
1998 #define UPKHI 0
1999 #define UPKLO 1
2000 #endif
2001 #define VUPKPX(suffix, hi)                                              \
2002     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
2003     {                                                                   \
2004         int i;                                                          \
2005         ppc_avr_t result;                                               \
2006                                                                         \
2007         for (i = 0; i < ARRAY_SIZE(r->u32); i++) {                      \
2008             uint16_t e = b->u16[hi ? i : i + 4];                        \
2009             uint8_t a = (e >> 15) ? 0xff : 0;                           \
2010             uint8_t r = (e >> 10) & 0x1f;                               \
2011             uint8_t g = (e >> 5) & 0x1f;                                \
2012             uint8_t b = e & 0x1f;                                       \
2013                                                                         \
2014             result.u32[i] = (a << 24) | (r << 16) | (g << 8) | b;       \
2015         }                                                               \
2016         *r = result;                                                    \
2017     }
2018 VUPKPX(lpx, UPKLO)
2019 VUPKPX(hpx, UPKHI)
2020 #undef VUPKPX
2021 
2022 #define VUPK(suffix, unpacked, packee, hi)                              \
2023     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
2024     {                                                                   \
2025         int i;                                                          \
2026         ppc_avr_t result;                                               \
2027                                                                         \
2028         if (hi) {                                                       \
2029             for (i = 0; i < ARRAY_SIZE(r->unpacked); i++) {             \
2030                 result.unpacked[i] = b->packee[i];                      \
2031             }                                                           \
2032         } else {                                                        \
2033             for (i = ARRAY_SIZE(r->unpacked); i < ARRAY_SIZE(r->packee); \
2034                  i++) {                                                 \
2035                 result.unpacked[i - ARRAY_SIZE(r->unpacked)] = b->packee[i]; \
2036             }                                                           \
2037         }                                                               \
2038         *r = result;                                                    \
2039     }
2040 VUPK(hsb, s16, s8, UPKHI)
2041 VUPK(hsh, s32, s16, UPKHI)
2042 VUPK(hsw, s64, s32, UPKHI)
2043 VUPK(lsb, s16, s8, UPKLO)
2044 VUPK(lsh, s32, s16, UPKLO)
2045 VUPK(lsw, s64, s32, UPKLO)
2046 #undef VUPK
2047 #undef UPKHI
2048 #undef UPKLO
2049 
2050 #define VGENERIC_DO(name, element)                                      \
2051     void helper_v##name(ppc_avr_t *r, ppc_avr_t *b)                     \
2052     {                                                                   \
2053         int i;                                                          \
2054                                                                         \
2055         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
2056             r->element[i] = name(b->element[i]);                        \
2057         }                                                               \
2058     }
2059 
2060 #define clzb(v) ((v) ? clz32((uint32_t)(v) << 24) : 8)
2061 #define clzh(v) ((v) ? clz32((uint32_t)(v) << 16) : 16)
2062 
2063 VGENERIC_DO(clzb, u8)
2064 VGENERIC_DO(clzh, u16)
2065 
2066 #undef clzb
2067 #undef clzh
2068 
2069 #define ctzb(v) ((v) ? ctz32(v) : 8)
2070 #define ctzh(v) ((v) ? ctz32(v) : 16)
2071 #define ctzw(v) ctz32((v))
2072 #define ctzd(v) ctz64((v))
2073 
2074 VGENERIC_DO(ctzb, u8)
2075 VGENERIC_DO(ctzh, u16)
2076 VGENERIC_DO(ctzw, u32)
2077 VGENERIC_DO(ctzd, u64)
2078 
2079 #undef ctzb
2080 #undef ctzh
2081 #undef ctzw
2082 #undef ctzd
2083 
2084 #define popcntb(v) ctpop8(v)
2085 #define popcnth(v) ctpop16(v)
2086 #define popcntw(v) ctpop32(v)
2087 #define popcntd(v) ctpop64(v)
2088 
2089 VGENERIC_DO(popcntb, u8)
2090 VGENERIC_DO(popcnth, u16)
2091 VGENERIC_DO(popcntw, u32)
2092 VGENERIC_DO(popcntd, u64)
2093 
2094 #undef popcntb
2095 #undef popcnth
2096 #undef popcntw
2097 #undef popcntd
2098 
2099 #undef VGENERIC_DO
2100 
2101 #if HOST_BIG_ENDIAN
2102 #define QW_ONE { .u64 = { 0, 1 } }
2103 #else
2104 #define QW_ONE { .u64 = { 1, 0 } }
2105 #endif
2106 
2107 #ifndef CONFIG_INT128
2108 
2109 static inline void avr_qw_not(ppc_avr_t *t, ppc_avr_t a)
2110 {
2111     t->u64[0] = ~a.u64[0];
2112     t->u64[1] = ~a.u64[1];
2113 }
2114 
2115 static int avr_qw_cmpu(ppc_avr_t a, ppc_avr_t b)
2116 {
2117     if (a.VsrD(0) < b.VsrD(0)) {
2118         return -1;
2119     } else if (a.VsrD(0) > b.VsrD(0)) {
2120         return 1;
2121     } else if (a.VsrD(1) < b.VsrD(1)) {
2122         return -1;
2123     } else if (a.VsrD(1) > b.VsrD(1)) {
2124         return 1;
2125     } else {
2126         return 0;
2127     }
2128 }
2129 
2130 static void avr_qw_add(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
2131 {
2132     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
2133     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
2134                      (~a.VsrD(1) < b.VsrD(1));
2135 }
2136 
2137 static int avr_qw_addc(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
2138 {
2139     ppc_avr_t not_a;
2140     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
2141     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
2142                      (~a.VsrD(1) < b.VsrD(1));
2143     avr_qw_not(&not_a, a);
2144     return avr_qw_cmpu(not_a, b) < 0;
2145 }
2146 
2147 #endif
2148 
2149 void helper_vadduqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2150 {
2151 #ifdef CONFIG_INT128
2152     r->u128 = a->u128 + b->u128;
2153 #else
2154     avr_qw_add(r, *a, *b);
2155 #endif
2156 }
2157 
2158 void helper_vaddeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2159 {
2160 #ifdef CONFIG_INT128
2161     r->u128 = a->u128 + b->u128 + (c->u128 & 1);
2162 #else
2163 
2164     if (c->VsrD(1) & 1) {
2165         ppc_avr_t tmp;
2166 
2167         tmp.VsrD(0) = 0;
2168         tmp.VsrD(1) = c->VsrD(1) & 1;
2169         avr_qw_add(&tmp, *a, tmp);
2170         avr_qw_add(r, tmp, *b);
2171     } else {
2172         avr_qw_add(r, *a, *b);
2173     }
2174 #endif
2175 }
2176 
2177 void helper_vaddcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2178 {
2179 #ifdef CONFIG_INT128
2180     r->u128 = (~a->u128 < b->u128);
2181 #else
2182     ppc_avr_t not_a;
2183 
2184     avr_qw_not(&not_a, *a);
2185 
2186     r->VsrD(0) = 0;
2187     r->VsrD(1) = (avr_qw_cmpu(not_a, *b) < 0);
2188 #endif
2189 }
2190 
2191 void helper_vaddecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2192 {
2193 #ifdef CONFIG_INT128
2194     int carry_out = (~a->u128 < b->u128);
2195     if (!carry_out && (c->u128 & 1)) {
2196         carry_out = ((a->u128 + b->u128 + 1) == 0) &&
2197                     ((a->u128 != 0) || (b->u128 != 0));
2198     }
2199     r->u128 = carry_out;
2200 #else
2201 
2202     int carry_in = c->VsrD(1) & 1;
2203     int carry_out = 0;
2204     ppc_avr_t tmp;
2205 
2206     carry_out = avr_qw_addc(&tmp, *a, *b);
2207 
2208     if (!carry_out && carry_in) {
2209         ppc_avr_t one = QW_ONE;
2210         carry_out = avr_qw_addc(&tmp, tmp, one);
2211     }
2212     r->VsrD(0) = 0;
2213     r->VsrD(1) = carry_out;
2214 #endif
2215 }
2216 
2217 void helper_vsubuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2218 {
2219 #ifdef CONFIG_INT128
2220     r->u128 = a->u128 - b->u128;
2221 #else
2222     ppc_avr_t tmp;
2223     ppc_avr_t one = QW_ONE;
2224 
2225     avr_qw_not(&tmp, *b);
2226     avr_qw_add(&tmp, *a, tmp);
2227     avr_qw_add(r, tmp, one);
2228 #endif
2229 }
2230 
2231 void helper_vsubeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2232 {
2233 #ifdef CONFIG_INT128
2234     r->u128 = a->u128 + ~b->u128 + (c->u128 & 1);
2235 #else
2236     ppc_avr_t tmp, sum;
2237 
2238     avr_qw_not(&tmp, *b);
2239     avr_qw_add(&sum, *a, tmp);
2240 
2241     tmp.VsrD(0) = 0;
2242     tmp.VsrD(1) = c->VsrD(1) & 1;
2243     avr_qw_add(r, sum, tmp);
2244 #endif
2245 }
2246 
2247 void helper_vsubcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2248 {
2249 #ifdef CONFIG_INT128
2250     r->u128 = (~a->u128 < ~b->u128) ||
2251                  (a->u128 + ~b->u128 == (__uint128_t)-1);
2252 #else
2253     int carry = (avr_qw_cmpu(*a, *b) > 0);
2254     if (!carry) {
2255         ppc_avr_t tmp;
2256         avr_qw_not(&tmp, *b);
2257         avr_qw_add(&tmp, *a, tmp);
2258         carry = ((tmp.VsrSD(0) == -1ull) && (tmp.VsrSD(1) == -1ull));
2259     }
2260     r->VsrD(0) = 0;
2261     r->VsrD(1) = carry;
2262 #endif
2263 }
2264 
2265 void helper_vsubecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2266 {
2267 #ifdef CONFIG_INT128
2268     r->u128 =
2269         (~a->u128 < ~b->u128) ||
2270         ((c->u128 & 1) && (a->u128 + ~b->u128 == (__uint128_t)-1));
2271 #else
2272     int carry_in = c->VsrD(1) & 1;
2273     int carry_out = (avr_qw_cmpu(*a, *b) > 0);
2274     if (!carry_out && carry_in) {
2275         ppc_avr_t tmp;
2276         avr_qw_not(&tmp, *b);
2277         avr_qw_add(&tmp, *a, tmp);
2278         carry_out = ((tmp.VsrD(0) == -1ull) && (tmp.VsrD(1) == -1ull));
2279     }
2280 
2281     r->VsrD(0) = 0;
2282     r->VsrD(1) = carry_out;
2283 #endif
2284 }
2285 
2286 #define BCD_PLUS_PREF_1 0xC
2287 #define BCD_PLUS_PREF_2 0xF
2288 #define BCD_PLUS_ALT_1  0xA
2289 #define BCD_NEG_PREF    0xD
2290 #define BCD_NEG_ALT     0xB
2291 #define BCD_PLUS_ALT_2  0xE
2292 #define NATIONAL_PLUS   0x2B
2293 #define NATIONAL_NEG    0x2D
2294 
2295 #define BCD_DIG_BYTE(n) (15 - ((n) / 2))
2296 
2297 static int bcd_get_sgn(ppc_avr_t *bcd)
2298 {
2299     switch (bcd->VsrB(BCD_DIG_BYTE(0)) & 0xF) {
2300     case BCD_PLUS_PREF_1:
2301     case BCD_PLUS_PREF_2:
2302     case BCD_PLUS_ALT_1:
2303     case BCD_PLUS_ALT_2:
2304     {
2305         return 1;
2306     }
2307 
2308     case BCD_NEG_PREF:
2309     case BCD_NEG_ALT:
2310     {
2311         return -1;
2312     }
2313 
2314     default:
2315     {
2316         return 0;
2317     }
2318     }
2319 }
2320 
2321 static int bcd_preferred_sgn(int sgn, int ps)
2322 {
2323     if (sgn >= 0) {
2324         return (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2;
2325     } else {
2326         return BCD_NEG_PREF;
2327     }
2328 }
2329 
2330 static uint8_t bcd_get_digit(ppc_avr_t *bcd, int n, int *invalid)
2331 {
2332     uint8_t result;
2333     if (n & 1) {
2334         result = bcd->VsrB(BCD_DIG_BYTE(n)) >> 4;
2335     } else {
2336        result = bcd->VsrB(BCD_DIG_BYTE(n)) & 0xF;
2337     }
2338 
2339     if (unlikely(result > 9)) {
2340         *invalid = true;
2341     }
2342     return result;
2343 }
2344 
2345 static void bcd_put_digit(ppc_avr_t *bcd, uint8_t digit, int n)
2346 {
2347     if (n & 1) {
2348         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0x0F;
2349         bcd->VsrB(BCD_DIG_BYTE(n)) |= (digit << 4);
2350     } else {
2351         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0xF0;
2352         bcd->VsrB(BCD_DIG_BYTE(n)) |= digit;
2353     }
2354 }
2355 
2356 static bool bcd_is_valid(ppc_avr_t *bcd)
2357 {
2358     int i;
2359     int invalid = 0;
2360 
2361     if (bcd_get_sgn(bcd) == 0) {
2362         return false;
2363     }
2364 
2365     for (i = 1; i < 32; i++) {
2366         bcd_get_digit(bcd, i, &invalid);
2367         if (unlikely(invalid)) {
2368             return false;
2369         }
2370     }
2371     return true;
2372 }
2373 
2374 static int bcd_cmp_zero(ppc_avr_t *bcd)
2375 {
2376     if (bcd->VsrD(0) == 0 && (bcd->VsrD(1) >> 4) == 0) {
2377         return CRF_EQ;
2378     } else {
2379         return (bcd_get_sgn(bcd) == 1) ? CRF_GT : CRF_LT;
2380     }
2381 }
2382 
2383 static uint16_t get_national_digit(ppc_avr_t *reg, int n)
2384 {
2385     return reg->VsrH(7 - n);
2386 }
2387 
2388 static void set_national_digit(ppc_avr_t *reg, uint8_t val, int n)
2389 {
2390     reg->VsrH(7 - n) = val;
2391 }
2392 
2393 static int bcd_cmp_mag(ppc_avr_t *a, ppc_avr_t *b)
2394 {
2395     int i;
2396     int invalid = 0;
2397     for (i = 31; i > 0; i--) {
2398         uint8_t dig_a = bcd_get_digit(a, i, &invalid);
2399         uint8_t dig_b = bcd_get_digit(b, i, &invalid);
2400         if (unlikely(invalid)) {
2401             return 0; /* doesn't matter */
2402         } else if (dig_a > dig_b) {
2403             return 1;
2404         } else if (dig_a < dig_b) {
2405             return -1;
2406         }
2407     }
2408 
2409     return 0;
2410 }
2411 
2412 static int bcd_add_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2413                        int *overflow)
2414 {
2415     int carry = 0;
2416     int i;
2417     int is_zero = 1;
2418 
2419     for (i = 1; i <= 31; i++) {
2420         uint8_t digit = bcd_get_digit(a, i, invalid) +
2421                         bcd_get_digit(b, i, invalid) + carry;
2422         is_zero &= (digit == 0);
2423         if (digit > 9) {
2424             carry = 1;
2425             digit -= 10;
2426         } else {
2427             carry = 0;
2428         }
2429 
2430         bcd_put_digit(t, digit, i);
2431     }
2432 
2433     *overflow = carry;
2434     return is_zero;
2435 }
2436 
2437 static void bcd_sub_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2438                        int *overflow)
2439 {
2440     int carry = 0;
2441     int i;
2442 
2443     for (i = 1; i <= 31; i++) {
2444         uint8_t digit = bcd_get_digit(a, i, invalid) -
2445                         bcd_get_digit(b, i, invalid) + carry;
2446         if (digit & 0x80) {
2447             carry = -1;
2448             digit += 10;
2449         } else {
2450             carry = 0;
2451         }
2452 
2453         bcd_put_digit(t, digit, i);
2454     }
2455 
2456     *overflow = carry;
2457 }
2458 
2459 uint32_t helper_bcdadd(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2460 {
2461 
2462     int sgna = bcd_get_sgn(a);
2463     int sgnb = bcd_get_sgn(b);
2464     int invalid = (sgna == 0) || (sgnb == 0);
2465     int overflow = 0;
2466     int zero = 0;
2467     uint32_t cr = 0;
2468     ppc_avr_t result = { .u64 = { 0, 0 } };
2469 
2470     if (!invalid) {
2471         if (sgna == sgnb) {
2472             result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2473             zero = bcd_add_mag(&result, a, b, &invalid, &overflow);
2474             cr = (sgna > 0) ? CRF_GT : CRF_LT;
2475         } else {
2476             int magnitude = bcd_cmp_mag(a, b);
2477             if (magnitude > 0) {
2478                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2479                 bcd_sub_mag(&result, a, b, &invalid, &overflow);
2480                 cr = (sgna > 0) ? CRF_GT : CRF_LT;
2481             } else if (magnitude < 0) {
2482                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgnb, ps);
2483                 bcd_sub_mag(&result, b, a, &invalid, &overflow);
2484                 cr = (sgnb > 0) ? CRF_GT : CRF_LT;
2485             } else {
2486                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(0, ps);
2487                 cr = CRF_EQ;
2488             }
2489         }
2490     }
2491 
2492     if (unlikely(invalid)) {
2493         result.VsrD(0) = result.VsrD(1) = -1;
2494         cr = CRF_SO;
2495     } else if (overflow) {
2496         cr |= CRF_SO;
2497     } else if (zero) {
2498         cr |= CRF_EQ;
2499     }
2500 
2501     *r = result;
2502 
2503     return cr;
2504 }
2505 
2506 uint32_t helper_bcdsub(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2507 {
2508     ppc_avr_t bcopy = *b;
2509     int sgnb = bcd_get_sgn(b);
2510     if (sgnb < 0) {
2511         bcd_put_digit(&bcopy, BCD_PLUS_PREF_1, 0);
2512     } else if (sgnb > 0) {
2513         bcd_put_digit(&bcopy, BCD_NEG_PREF, 0);
2514     }
2515     /* else invalid ... defer to bcdadd code for proper handling */
2516 
2517     return helper_bcdadd(r, a, &bcopy, ps);
2518 }
2519 
2520 uint32_t helper_bcdcfn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2521 {
2522     int i;
2523     int cr = 0;
2524     uint16_t national = 0;
2525     uint16_t sgnb = get_national_digit(b, 0);
2526     ppc_avr_t ret = { .u64 = { 0, 0 } };
2527     int invalid = (sgnb != NATIONAL_PLUS && sgnb != NATIONAL_NEG);
2528 
2529     for (i = 1; i < 8; i++) {
2530         national = get_national_digit(b, i);
2531         if (unlikely(national < 0x30 || national > 0x39)) {
2532             invalid = 1;
2533             break;
2534         }
2535 
2536         bcd_put_digit(&ret, national & 0xf, i);
2537     }
2538 
2539     if (sgnb == NATIONAL_PLUS) {
2540         bcd_put_digit(&ret, (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2, 0);
2541     } else {
2542         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2543     }
2544 
2545     cr = bcd_cmp_zero(&ret);
2546 
2547     if (unlikely(invalid)) {
2548         cr = CRF_SO;
2549     }
2550 
2551     *r = ret;
2552 
2553     return cr;
2554 }
2555 
2556 uint32_t helper_bcdctn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2557 {
2558     int i;
2559     int cr = 0;
2560     int sgnb = bcd_get_sgn(b);
2561     int invalid = (sgnb == 0);
2562     ppc_avr_t ret = { .u64 = { 0, 0 } };
2563 
2564     int ox_flag = (b->VsrD(0) != 0) || ((b->VsrD(1) >> 32) != 0);
2565 
2566     for (i = 1; i < 8; i++) {
2567         set_national_digit(&ret, 0x30 + bcd_get_digit(b, i, &invalid), i);
2568 
2569         if (unlikely(invalid)) {
2570             break;
2571         }
2572     }
2573     set_national_digit(&ret, (sgnb == -1) ? NATIONAL_NEG : NATIONAL_PLUS, 0);
2574 
2575     cr = bcd_cmp_zero(b);
2576 
2577     if (ox_flag) {
2578         cr |= CRF_SO;
2579     }
2580 
2581     if (unlikely(invalid)) {
2582         cr = CRF_SO;
2583     }
2584 
2585     *r = ret;
2586 
2587     return cr;
2588 }
2589 
2590 uint32_t helper_bcdcfz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2591 {
2592     int i;
2593     int cr = 0;
2594     int invalid = 0;
2595     int zone_digit = 0;
2596     int zone_lead = ps ? 0xF : 0x3;
2597     int digit = 0;
2598     ppc_avr_t ret = { .u64 = { 0, 0 } };
2599     int sgnb = b->VsrB(BCD_DIG_BYTE(0)) >> 4;
2600 
2601     if (unlikely((sgnb < 0xA) && ps)) {
2602         invalid = 1;
2603     }
2604 
2605     for (i = 0; i < 16; i++) {
2606         zone_digit = i ? b->VsrB(BCD_DIG_BYTE(i * 2)) >> 4 : zone_lead;
2607         digit = b->VsrB(BCD_DIG_BYTE(i * 2)) & 0xF;
2608         if (unlikely(zone_digit != zone_lead || digit > 0x9)) {
2609             invalid = 1;
2610             break;
2611         }
2612 
2613         bcd_put_digit(&ret, digit, i + 1);
2614     }
2615 
2616     if ((ps && (sgnb == 0xB || sgnb == 0xD)) ||
2617             (!ps && (sgnb & 0x4))) {
2618         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2619     } else {
2620         bcd_put_digit(&ret, BCD_PLUS_PREF_1, 0);
2621     }
2622 
2623     cr = bcd_cmp_zero(&ret);
2624 
2625     if (unlikely(invalid)) {
2626         cr = CRF_SO;
2627     }
2628 
2629     *r = ret;
2630 
2631     return cr;
2632 }
2633 
2634 uint32_t helper_bcdctz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2635 {
2636     int i;
2637     int cr = 0;
2638     uint8_t digit = 0;
2639     int sgnb = bcd_get_sgn(b);
2640     int zone_lead = (ps) ? 0xF0 : 0x30;
2641     int invalid = (sgnb == 0);
2642     ppc_avr_t ret = { .u64 = { 0, 0 } };
2643 
2644     int ox_flag = ((b->VsrD(0) >> 4) != 0);
2645 
2646     for (i = 0; i < 16; i++) {
2647         digit = bcd_get_digit(b, i + 1, &invalid);
2648 
2649         if (unlikely(invalid)) {
2650             break;
2651         }
2652 
2653         ret.VsrB(BCD_DIG_BYTE(i * 2)) = zone_lead + digit;
2654     }
2655 
2656     if (ps) {
2657         bcd_put_digit(&ret, (sgnb == 1) ? 0xC : 0xD, 1);
2658     } else {
2659         bcd_put_digit(&ret, (sgnb == 1) ? 0x3 : 0x7, 1);
2660     }
2661 
2662     cr = bcd_cmp_zero(b);
2663 
2664     if (ox_flag) {
2665         cr |= CRF_SO;
2666     }
2667 
2668     if (unlikely(invalid)) {
2669         cr = CRF_SO;
2670     }
2671 
2672     *r = ret;
2673 
2674     return cr;
2675 }
2676 
2677 /**
2678  * Compare 2 128-bit unsigned integers, passed in as unsigned 64-bit pairs
2679  *
2680  * Returns:
2681  * > 0 if ahi|alo > bhi|blo,
2682  * 0 if ahi|alo == bhi|blo,
2683  * < 0 if ahi|alo < bhi|blo
2684  */
2685 static inline int ucmp128(uint64_t alo, uint64_t ahi,
2686                           uint64_t blo, uint64_t bhi)
2687 {
2688     return (ahi == bhi) ?
2689         (alo > blo ? 1 : (alo == blo ? 0 : -1)) :
2690         (ahi > bhi ? 1 : -1);
2691 }
2692 
2693 uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2694 {
2695     int i;
2696     int cr;
2697     uint64_t lo_value;
2698     uint64_t hi_value;
2699     uint64_t rem;
2700     ppc_avr_t ret = { .u64 = { 0, 0 } };
2701 
2702     if (b->VsrSD(0) < 0) {
2703         lo_value = -b->VsrSD(1);
2704         hi_value = ~b->VsrD(0) + !lo_value;
2705         bcd_put_digit(&ret, 0xD, 0);
2706 
2707         cr = CRF_LT;
2708     } else {
2709         lo_value = b->VsrD(1);
2710         hi_value = b->VsrD(0);
2711         bcd_put_digit(&ret, bcd_preferred_sgn(0, ps), 0);
2712 
2713         if (hi_value == 0 && lo_value == 0) {
2714             cr = CRF_EQ;
2715         } else {
2716             cr = CRF_GT;
2717         }
2718     }
2719 
2720     /*
2721      * Check src limits: abs(src) <= 10^31 - 1
2722      *
2723      * 10^31 - 1 = 0x0000007e37be2022 c0914b267fffffff
2724      */
2725     if (ucmp128(lo_value, hi_value,
2726                 0xc0914b267fffffffULL, 0x7e37be2022ULL) > 0) {
2727         cr |= CRF_SO;
2728 
2729         /*
2730          * According to the ISA, if src wouldn't fit in the destination
2731          * register, the result is undefined.
2732          * In that case, we leave r unchanged.
2733          */
2734     } else {
2735         rem = divu128(&lo_value, &hi_value, 1000000000000000ULL);
2736 
2737         for (i = 1; i < 16; rem /= 10, i++) {
2738             bcd_put_digit(&ret, rem % 10, i);
2739         }
2740 
2741         for (; i < 32; lo_value /= 10, i++) {
2742             bcd_put_digit(&ret, lo_value % 10, i);
2743         }
2744 
2745         *r = ret;
2746     }
2747 
2748     return cr;
2749 }
2750 
2751 uint32_t helper_bcdctsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2752 {
2753     uint8_t i;
2754     int cr;
2755     uint64_t carry;
2756     uint64_t unused;
2757     uint64_t lo_value;
2758     uint64_t hi_value = 0;
2759     int sgnb = bcd_get_sgn(b);
2760     int invalid = (sgnb == 0);
2761 
2762     lo_value = bcd_get_digit(b, 31, &invalid);
2763     for (i = 30; i > 0; i--) {
2764         mulu64(&lo_value, &carry, lo_value, 10ULL);
2765         mulu64(&hi_value, &unused, hi_value, 10ULL);
2766         lo_value += bcd_get_digit(b, i, &invalid);
2767         hi_value += carry;
2768 
2769         if (unlikely(invalid)) {
2770             break;
2771         }
2772     }
2773 
2774     if (sgnb == -1) {
2775         r->VsrSD(1) = -lo_value;
2776         r->VsrSD(0) = ~hi_value + !r->VsrSD(1);
2777     } else {
2778         r->VsrSD(1) = lo_value;
2779         r->VsrSD(0) = hi_value;
2780     }
2781 
2782     cr = bcd_cmp_zero(b);
2783 
2784     if (unlikely(invalid)) {
2785         cr = CRF_SO;
2786     }
2787 
2788     return cr;
2789 }
2790 
2791 uint32_t helper_bcdcpsgn(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2792 {
2793     int i;
2794     int invalid = 0;
2795 
2796     if (bcd_get_sgn(a) == 0 || bcd_get_sgn(b) == 0) {
2797         return CRF_SO;
2798     }
2799 
2800     *r = *a;
2801     bcd_put_digit(r, b->VsrB(BCD_DIG_BYTE(0)) & 0xF, 0);
2802 
2803     for (i = 1; i < 32; i++) {
2804         bcd_get_digit(a, i, &invalid);
2805         bcd_get_digit(b, i, &invalid);
2806         if (unlikely(invalid)) {
2807             return CRF_SO;
2808         }
2809     }
2810 
2811     return bcd_cmp_zero(r);
2812 }
2813 
2814 uint32_t helper_bcdsetsgn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2815 {
2816     int sgnb = bcd_get_sgn(b);
2817 
2818     *r = *b;
2819     bcd_put_digit(r, bcd_preferred_sgn(sgnb, ps), 0);
2820 
2821     if (bcd_is_valid(b) == false) {
2822         return CRF_SO;
2823     }
2824 
2825     return bcd_cmp_zero(r);
2826 }
2827 
2828 uint32_t helper_bcds(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2829 {
2830     int cr;
2831     int i = a->VsrSB(7);
2832     bool ox_flag = false;
2833     int sgnb = bcd_get_sgn(b);
2834     ppc_avr_t ret = *b;
2835     ret.VsrD(1) &= ~0xf;
2836 
2837     if (bcd_is_valid(b) == false) {
2838         return CRF_SO;
2839     }
2840 
2841     if (unlikely(i > 31)) {
2842         i = 31;
2843     } else if (unlikely(i < -31)) {
2844         i = -31;
2845     }
2846 
2847     if (i > 0) {
2848         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2849     } else {
2850         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2851     }
2852     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2853 
2854     *r = ret;
2855 
2856     cr = bcd_cmp_zero(r);
2857     if (ox_flag) {
2858         cr |= CRF_SO;
2859     }
2860 
2861     return cr;
2862 }
2863 
2864 uint32_t helper_bcdus(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2865 {
2866     int cr;
2867     int i;
2868     int invalid = 0;
2869     bool ox_flag = false;
2870     ppc_avr_t ret = *b;
2871 
2872     for (i = 0; i < 32; i++) {
2873         bcd_get_digit(b, i, &invalid);
2874 
2875         if (unlikely(invalid)) {
2876             return CRF_SO;
2877         }
2878     }
2879 
2880     i = a->VsrSB(7);
2881     if (i >= 32) {
2882         ox_flag = true;
2883         ret.VsrD(1) = ret.VsrD(0) = 0;
2884     } else if (i <= -32) {
2885         ret.VsrD(1) = ret.VsrD(0) = 0;
2886     } else if (i > 0) {
2887         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2888     } else {
2889         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2890     }
2891     *r = ret;
2892 
2893     cr = bcd_cmp_zero(r);
2894     if (ox_flag) {
2895         cr |= CRF_SO;
2896     }
2897 
2898     return cr;
2899 }
2900 
2901 uint32_t helper_bcdsr(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2902 {
2903     int cr;
2904     int unused = 0;
2905     int invalid = 0;
2906     bool ox_flag = false;
2907     int sgnb = bcd_get_sgn(b);
2908     ppc_avr_t ret = *b;
2909     ret.VsrD(1) &= ~0xf;
2910 
2911     int i = a->VsrSB(7);
2912     ppc_avr_t bcd_one;
2913 
2914     bcd_one.VsrD(0) = 0;
2915     bcd_one.VsrD(1) = 0x10;
2916 
2917     if (bcd_is_valid(b) == false) {
2918         return CRF_SO;
2919     }
2920 
2921     if (unlikely(i > 31)) {
2922         i = 31;
2923     } else if (unlikely(i < -31)) {
2924         i = -31;
2925     }
2926 
2927     if (i > 0) {
2928         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2929     } else {
2930         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2931 
2932         if (bcd_get_digit(&ret, 0, &invalid) >= 5) {
2933             bcd_add_mag(&ret, &ret, &bcd_one, &invalid, &unused);
2934         }
2935     }
2936     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2937 
2938     cr = bcd_cmp_zero(&ret);
2939     if (ox_flag) {
2940         cr |= CRF_SO;
2941     }
2942     *r = ret;
2943 
2944     return cr;
2945 }
2946 
2947 uint32_t helper_bcdtrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2948 {
2949     uint64_t mask;
2950     uint32_t ox_flag = 0;
2951     int i = a->VsrSH(3) + 1;
2952     ppc_avr_t ret = *b;
2953 
2954     if (bcd_is_valid(b) == false) {
2955         return CRF_SO;
2956     }
2957 
2958     if (i > 16 && i < 32) {
2959         mask = (uint64_t)-1 >> (128 - i * 4);
2960         if (ret.VsrD(0) & ~mask) {
2961             ox_flag = CRF_SO;
2962         }
2963 
2964         ret.VsrD(0) &= mask;
2965     } else if (i >= 0 && i <= 16) {
2966         mask = (uint64_t)-1 >> (64 - i * 4);
2967         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2968             ox_flag = CRF_SO;
2969         }
2970 
2971         ret.VsrD(1) &= mask;
2972         ret.VsrD(0) = 0;
2973     }
2974     bcd_put_digit(&ret, bcd_preferred_sgn(bcd_get_sgn(b), ps), 0);
2975     *r = ret;
2976 
2977     return bcd_cmp_zero(&ret) | ox_flag;
2978 }
2979 
2980 uint32_t helper_bcdutrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2981 {
2982     int i;
2983     uint64_t mask;
2984     uint32_t ox_flag = 0;
2985     int invalid = 0;
2986     ppc_avr_t ret = *b;
2987 
2988     for (i = 0; i < 32; i++) {
2989         bcd_get_digit(b, i, &invalid);
2990 
2991         if (unlikely(invalid)) {
2992             return CRF_SO;
2993         }
2994     }
2995 
2996     i = a->VsrSH(3);
2997     if (i > 16 && i < 33) {
2998         mask = (uint64_t)-1 >> (128 - i * 4);
2999         if (ret.VsrD(0) & ~mask) {
3000             ox_flag = CRF_SO;
3001         }
3002 
3003         ret.VsrD(0) &= mask;
3004     } else if (i > 0 && i <= 16) {
3005         mask = (uint64_t)-1 >> (64 - i * 4);
3006         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
3007             ox_flag = CRF_SO;
3008         }
3009 
3010         ret.VsrD(1) &= mask;
3011         ret.VsrD(0) = 0;
3012     } else if (i == 0) {
3013         if (ret.VsrD(0) || ret.VsrD(1)) {
3014             ox_flag = CRF_SO;
3015         }
3016         ret.VsrD(0) = ret.VsrD(1) = 0;
3017     }
3018 
3019     *r = ret;
3020     if (r->VsrD(0) == 0 && r->VsrD(1) == 0) {
3021         return ox_flag | CRF_EQ;
3022     }
3023 
3024     return ox_flag | CRF_GT;
3025 }
3026 
3027 void helper_vsbox(ppc_avr_t *r, ppc_avr_t *a)
3028 {
3029     int i;
3030     VECTOR_FOR_INORDER_I(i, u8) {
3031         r->u8[i] = AES_sbox[a->u8[i]];
3032     }
3033 }
3034 
3035 void helper_vcipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
3036 {
3037     ppc_avr_t result;
3038     int i;
3039 
3040     VECTOR_FOR_INORDER_I(i, u32) {
3041         result.VsrW(i) = b->VsrW(i) ^
3042             (AES_Te0[a->VsrB(AES_shifts[4 * i + 0])] ^
3043              AES_Te1[a->VsrB(AES_shifts[4 * i + 1])] ^
3044              AES_Te2[a->VsrB(AES_shifts[4 * i + 2])] ^
3045              AES_Te3[a->VsrB(AES_shifts[4 * i + 3])]);
3046     }
3047     *r = result;
3048 }
3049 
3050 void helper_vcipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
3051 {
3052     ppc_avr_t result;
3053     int i;
3054 
3055     VECTOR_FOR_INORDER_I(i, u8) {
3056         result.VsrB(i) = b->VsrB(i) ^ (AES_sbox[a->VsrB(AES_shifts[i])]);
3057     }
3058     *r = result;
3059 }
3060 
3061 void helper_vncipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
3062 {
3063     /* This differs from what is written in ISA V2.07.  The RTL is */
3064     /* incorrect and will be fixed in V2.07B.                      */
3065     int i;
3066     ppc_avr_t tmp;
3067 
3068     VECTOR_FOR_INORDER_I(i, u8) {
3069         tmp.VsrB(i) = b->VsrB(i) ^ AES_isbox[a->VsrB(AES_ishifts[i])];
3070     }
3071 
3072     VECTOR_FOR_INORDER_I(i, u32) {
3073         r->VsrW(i) =
3074             AES_imc[tmp.VsrB(4 * i + 0)][0] ^
3075             AES_imc[tmp.VsrB(4 * i + 1)][1] ^
3076             AES_imc[tmp.VsrB(4 * i + 2)][2] ^
3077             AES_imc[tmp.VsrB(4 * i + 3)][3];
3078     }
3079 }
3080 
3081 void helper_vncipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
3082 {
3083     ppc_avr_t result;
3084     int i;
3085 
3086     VECTOR_FOR_INORDER_I(i, u8) {
3087         result.VsrB(i) = b->VsrB(i) ^ (AES_isbox[a->VsrB(AES_ishifts[i])]);
3088     }
3089     *r = result;
3090 }
3091 
3092 void helper_vshasigmaw(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
3093 {
3094     int st = (st_six & 0x10) != 0;
3095     int six = st_six & 0xF;
3096     int i;
3097 
3098     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
3099         if (st == 0) {
3100             if ((six & (0x8 >> i)) == 0) {
3101                 r->VsrW(i) = ror32(a->VsrW(i), 7) ^
3102                              ror32(a->VsrW(i), 18) ^
3103                              (a->VsrW(i) >> 3);
3104             } else { /* six.bit[i] == 1 */
3105                 r->VsrW(i) = ror32(a->VsrW(i), 17) ^
3106                              ror32(a->VsrW(i), 19) ^
3107                              (a->VsrW(i) >> 10);
3108             }
3109         } else { /* st == 1 */
3110             if ((six & (0x8 >> i)) == 0) {
3111                 r->VsrW(i) = ror32(a->VsrW(i), 2) ^
3112                              ror32(a->VsrW(i), 13) ^
3113                              ror32(a->VsrW(i), 22);
3114             } else { /* six.bit[i] == 1 */
3115                 r->VsrW(i) = ror32(a->VsrW(i), 6) ^
3116                              ror32(a->VsrW(i), 11) ^
3117                              ror32(a->VsrW(i), 25);
3118             }
3119         }
3120     }
3121 }
3122 
3123 void helper_vshasigmad(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
3124 {
3125     int st = (st_six & 0x10) != 0;
3126     int six = st_six & 0xF;
3127     int i;
3128 
3129     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
3130         if (st == 0) {
3131             if ((six & (0x8 >> (2 * i))) == 0) {
3132                 r->VsrD(i) = ror64(a->VsrD(i), 1) ^
3133                              ror64(a->VsrD(i), 8) ^
3134                              (a->VsrD(i) >> 7);
3135             } else { /* six.bit[2*i] == 1 */
3136                 r->VsrD(i) = ror64(a->VsrD(i), 19) ^
3137                              ror64(a->VsrD(i), 61) ^
3138                              (a->VsrD(i) >> 6);
3139             }
3140         } else { /* st == 1 */
3141             if ((six & (0x8 >> (2 * i))) == 0) {
3142                 r->VsrD(i) = ror64(a->VsrD(i), 28) ^
3143                              ror64(a->VsrD(i), 34) ^
3144                              ror64(a->VsrD(i), 39);
3145             } else { /* six.bit[2*i] == 1 */
3146                 r->VsrD(i) = ror64(a->VsrD(i), 14) ^
3147                              ror64(a->VsrD(i), 18) ^
3148                              ror64(a->VsrD(i), 41);
3149             }
3150         }
3151     }
3152 }
3153 
3154 void helper_vpermxor(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
3155 {
3156     ppc_avr_t result;
3157     int i;
3158 
3159     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
3160         int indexA = c->VsrB(i) >> 4;
3161         int indexB = c->VsrB(i) & 0xF;
3162 
3163         result.VsrB(i) = a->VsrB(indexA) ^ b->VsrB(indexB);
3164     }
3165     *r = result;
3166 }
3167 
3168 #undef VECTOR_FOR_INORDER_I
3169 
3170 /*****************************************************************************/
3171 /* SPE extension helpers */
3172 /* Use a table to make this quicker */
3173 static const uint8_t hbrev[16] = {
3174     0x0, 0x8, 0x4, 0xC, 0x2, 0xA, 0x6, 0xE,
3175     0x1, 0x9, 0x5, 0xD, 0x3, 0xB, 0x7, 0xF,
3176 };
3177 
3178 static inline uint8_t byte_reverse(uint8_t val)
3179 {
3180     return hbrev[val >> 4] | (hbrev[val & 0xF] << 4);
3181 }
3182 
3183 static inline uint32_t word_reverse(uint32_t val)
3184 {
3185     return byte_reverse(val >> 24) | (byte_reverse(val >> 16) << 8) |
3186         (byte_reverse(val >> 8) << 16) | (byte_reverse(val) << 24);
3187 }
3188 
3189 #define MASKBITS 16 /* Random value - to be fixed (implementation dependent) */
3190 target_ulong helper_brinc(target_ulong arg1, target_ulong arg2)
3191 {
3192     uint32_t a, b, d, mask;
3193 
3194     mask = UINT32_MAX >> (32 - MASKBITS);
3195     a = arg1 & mask;
3196     b = arg2 & mask;
3197     d = word_reverse(1 + word_reverse(a | ~b));
3198     return (arg1 & ~mask) | (d & b);
3199 }
3200 
3201 uint32_t helper_cntlsw32(uint32_t val)
3202 {
3203     if (val & 0x80000000) {
3204         return clz32(~val);
3205     } else {
3206         return clz32(val);
3207     }
3208 }
3209 
3210 uint32_t helper_cntlzw32(uint32_t val)
3211 {
3212     return clz32(val);
3213 }
3214 
3215 /* 440 specific */
3216 target_ulong helper_dlmzb(CPUPPCState *env, target_ulong high,
3217                           target_ulong low, uint32_t update_Rc)
3218 {
3219     target_ulong mask;
3220     int i;
3221 
3222     i = 1;
3223     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
3224         if ((high & mask) == 0) {
3225             if (update_Rc) {
3226                 env->crf[0] = 0x4;
3227             }
3228             goto done;
3229         }
3230         i++;
3231     }
3232     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
3233         if ((low & mask) == 0) {
3234             if (update_Rc) {
3235                 env->crf[0] = 0x8;
3236             }
3237             goto done;
3238         }
3239         i++;
3240     }
3241     i = 8;
3242     if (update_Rc) {
3243         env->crf[0] = 0x2;
3244     }
3245  done:
3246     env->xer = (env->xer & ~0x7F) | i;
3247     if (update_Rc) {
3248         env->crf[0] |= xer_so;
3249     }
3250     return i;
3251 }
3252