xref: /openbmc/qemu/target/ppc/int_helper.c (revision d044b7c3)
1 /*
2  *  PowerPC integer and vector emulation helpers for QEMU.
3  *
4  *  Copyright (c) 2003-2007 Jocelyn Mayer
5  *
6  * This library is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * This library is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
18  */
19 
20 #include "qemu/osdep.h"
21 #include "cpu.h"
22 #include "internal.h"
23 #include "qemu/host-utils.h"
24 #include "qemu/main-loop.h"
25 #include "qemu/log.h"
26 #include "exec/helper-proto.h"
27 #include "crypto/aes.h"
28 #include "fpu/softfloat.h"
29 #include "qapi/error.h"
30 #include "qemu/guest-random.h"
31 #include "tcg/tcg-gvec-desc.h"
32 
33 #include "helper_regs.h"
34 /*****************************************************************************/
35 /* Fixed point operations helpers */
36 
37 static inline void helper_update_ov_legacy(CPUPPCState *env, int ov)
38 {
39     if (unlikely(ov)) {
40         env->so = env->ov = env->ov32 = 1;
41     } else {
42         env->ov = env->ov32 = 0;
43     }
44 }
45 
46 target_ulong helper_divweu(CPUPPCState *env, target_ulong ra, target_ulong rb,
47                            uint32_t oe)
48 {
49     uint64_t rt = 0;
50     int overflow = 0;
51 
52     uint64_t dividend = (uint64_t)ra << 32;
53     uint64_t divisor = (uint32_t)rb;
54 
55     if (unlikely(divisor == 0)) {
56         overflow = 1;
57     } else {
58         rt = dividend / divisor;
59         overflow = rt > UINT32_MAX;
60     }
61 
62     if (unlikely(overflow)) {
63         rt = 0; /* Undefined */
64     }
65 
66     if (oe) {
67         helper_update_ov_legacy(env, overflow);
68     }
69 
70     return (target_ulong)rt;
71 }
72 
73 target_ulong helper_divwe(CPUPPCState *env, target_ulong ra, target_ulong rb,
74                           uint32_t oe)
75 {
76     int64_t rt = 0;
77     int overflow = 0;
78 
79     int64_t dividend = (int64_t)ra << 32;
80     int64_t divisor = (int64_t)((int32_t)rb);
81 
82     if (unlikely((divisor == 0) ||
83                  ((divisor == -1ull) && (dividend == INT64_MIN)))) {
84         overflow = 1;
85     } else {
86         rt = dividend / divisor;
87         overflow = rt != (int32_t)rt;
88     }
89 
90     if (unlikely(overflow)) {
91         rt = 0; /* Undefined */
92     }
93 
94     if (oe) {
95         helper_update_ov_legacy(env, overflow);
96     }
97 
98     return (target_ulong)rt;
99 }
100 
101 #if defined(TARGET_PPC64)
102 
103 uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
104 {
105     uint64_t rt = 0;
106     int overflow = 0;
107 
108     if (unlikely(rb == 0 || ra >= rb)) {
109         overflow = 1;
110         rt = 0; /* Undefined */
111     } else {
112         divu128(&rt, &ra, rb);
113     }
114 
115     if (oe) {
116         helper_update_ov_legacy(env, overflow);
117     }
118 
119     return rt;
120 }
121 
122 uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
123 {
124     uint64_t rt = 0;
125     int64_t ra = (int64_t)rau;
126     int64_t rb = (int64_t)rbu;
127     int overflow = 0;
128 
129     if (unlikely(rb == 0 || uabs64(ra) >= uabs64(rb))) {
130         overflow = 1;
131         rt = 0; /* Undefined */
132     } else {
133         divs128(&rt, &ra, rb);
134     }
135 
136     if (oe) {
137         helper_update_ov_legacy(env, overflow);
138     }
139 
140     return rt;
141 }
142 
143 #endif
144 
145 
146 #if defined(TARGET_PPC64)
147 /* if x = 0xab, returns 0xababababababababa */
148 #define pattern(x) (((x) & 0xff) * (~(target_ulong)0 / 0xff))
149 
150 /*
151  * subtract 1 from each byte, and with inverse, check if MSB is set at each
152  * byte.
153  * i.e. ((0x00 - 0x01) & ~(0x00)) & 0x80
154  *      (0xFF & 0xFF) & 0x80 = 0x80 (zero found)
155  */
156 #define haszero(v) (((v) - pattern(0x01)) & ~(v) & pattern(0x80))
157 
158 /* When you XOR the pattern and there is a match, that byte will be zero */
159 #define hasvalue(x, n)  (haszero((x) ^ pattern(n)))
160 
161 uint32_t helper_cmpeqb(target_ulong ra, target_ulong rb)
162 {
163     return hasvalue(rb, ra) ? CRF_GT : 0;
164 }
165 
166 #undef pattern
167 #undef haszero
168 #undef hasvalue
169 
170 /*
171  * Return a random number.
172  */
173 uint64_t helper_darn32(void)
174 {
175     Error *err = NULL;
176     uint32_t ret;
177 
178     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
179         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
180                       error_get_pretty(err));
181         error_free(err);
182         return -1;
183     }
184 
185     return ret;
186 }
187 
188 uint64_t helper_darn64(void)
189 {
190     Error *err = NULL;
191     uint64_t ret;
192 
193     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
194         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
195                       error_get_pretty(err));
196         error_free(err);
197         return -1;
198     }
199 
200     return ret;
201 }
202 
203 uint64_t helper_bpermd(uint64_t rs, uint64_t rb)
204 {
205     int i;
206     uint64_t ra = 0;
207 
208     for (i = 0; i < 8; i++) {
209         int index = (rs >> (i * 8)) & 0xFF;
210         if (index < 64) {
211             if (rb & PPC_BIT(index)) {
212                 ra |= 1 << i;
213             }
214         }
215     }
216     return ra;
217 }
218 
219 #endif
220 
221 target_ulong helper_cmpb(target_ulong rs, target_ulong rb)
222 {
223     target_ulong mask = 0xff;
224     target_ulong ra = 0;
225     int i;
226 
227     for (i = 0; i < sizeof(target_ulong); i++) {
228         if ((rs & mask) == (rb & mask)) {
229             ra |= mask;
230         }
231         mask <<= 8;
232     }
233     return ra;
234 }
235 
236 /* shift right arithmetic helper */
237 target_ulong helper_sraw(CPUPPCState *env, target_ulong value,
238                          target_ulong shift)
239 {
240     int32_t ret;
241 
242     if (likely(!(shift & 0x20))) {
243         if (likely((uint32_t)shift != 0)) {
244             shift &= 0x1f;
245             ret = (int32_t)value >> shift;
246             if (likely(ret >= 0 || (value & ((1 << shift) - 1)) == 0)) {
247                 env->ca32 = env->ca = 0;
248             } else {
249                 env->ca32 = env->ca = 1;
250             }
251         } else {
252             ret = (int32_t)value;
253             env->ca32 = env->ca = 0;
254         }
255     } else {
256         ret = (int32_t)value >> 31;
257         env->ca32 = env->ca = (ret != 0);
258     }
259     return (target_long)ret;
260 }
261 
262 #if defined(TARGET_PPC64)
263 target_ulong helper_srad(CPUPPCState *env, target_ulong value,
264                          target_ulong shift)
265 {
266     int64_t ret;
267 
268     if (likely(!(shift & 0x40))) {
269         if (likely((uint64_t)shift != 0)) {
270             shift &= 0x3f;
271             ret = (int64_t)value >> shift;
272             if (likely(ret >= 0 || (value & ((1ULL << shift) - 1)) == 0)) {
273                 env->ca32 = env->ca = 0;
274             } else {
275                 env->ca32 = env->ca = 1;
276             }
277         } else {
278             ret = (int64_t)value;
279             env->ca32 = env->ca = 0;
280         }
281     } else {
282         ret = (int64_t)value >> 63;
283         env->ca32 = env->ca = (ret != 0);
284     }
285     return ret;
286 }
287 #endif
288 
289 #if defined(TARGET_PPC64)
290 target_ulong helper_popcntb(target_ulong val)
291 {
292     /* Note that we don't fold past bytes */
293     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
294                                            0x5555555555555555ULL);
295     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
296                                            0x3333333333333333ULL);
297     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
298                                            0x0f0f0f0f0f0f0f0fULL);
299     return val;
300 }
301 
302 target_ulong helper_popcntw(target_ulong val)
303 {
304     /* Note that we don't fold past words.  */
305     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
306                                            0x5555555555555555ULL);
307     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
308                                            0x3333333333333333ULL);
309     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
310                                            0x0f0f0f0f0f0f0f0fULL);
311     val = (val & 0x00ff00ff00ff00ffULL) + ((val >>  8) &
312                                            0x00ff00ff00ff00ffULL);
313     val = (val & 0x0000ffff0000ffffULL) + ((val >> 16) &
314                                            0x0000ffff0000ffffULL);
315     return val;
316 }
317 #else
318 target_ulong helper_popcntb(target_ulong val)
319 {
320     /* Note that we don't fold past bytes */
321     val = (val & 0x55555555) + ((val >>  1) & 0x55555555);
322     val = (val & 0x33333333) + ((val >>  2) & 0x33333333);
323     val = (val & 0x0f0f0f0f) + ((val >>  4) & 0x0f0f0f0f);
324     return val;
325 }
326 #endif
327 
328 uint64_t helper_CFUGED(uint64_t src, uint64_t mask)
329 {
330     /*
331      * Instead of processing the mask bit-by-bit from the most significant to
332      * the least significant bit, as described in PowerISA, we'll handle it in
333      * blocks of 'n' zeros/ones from LSB to MSB. To avoid the decision to use
334      * ctz or cto, we negate the mask at the end of the loop.
335      */
336     target_ulong m, left = 0, right = 0;
337     unsigned int n, i = 64;
338     bool bit = false; /* tracks if we are processing zeros or ones */
339 
340     if (mask == 0 || mask == -1) {
341         return src;
342     }
343 
344     /* Processes the mask in blocks, from LSB to MSB */
345     while (i) {
346         /* Find how many bits we should take */
347         n = ctz64(mask);
348         if (n > i) {
349             n = i;
350         }
351 
352         /*
353          * Extracts 'n' trailing bits of src and put them on the leading 'n'
354          * bits of 'right' or 'left', pushing down the previously extracted
355          * values.
356          */
357         m = (1ll << n) - 1;
358         if (bit) {
359             right = ror64(right | (src & m), n);
360         } else {
361             left = ror64(left | (src & m), n);
362         }
363 
364         /*
365          * Discards the processed bits from 'src' and 'mask'. Note that we are
366          * removing 'n' trailing zeros from 'mask', but the logical shift will
367          * add 'n' leading zeros back, so the population count of 'mask' is kept
368          * the same.
369          */
370         src >>= n;
371         mask >>= n;
372         i -= n;
373         bit = !bit;
374         mask = ~mask;
375     }
376 
377     /*
378      * At the end, right was ror'ed ctpop(mask) times. To put it back in place,
379      * we'll shift it more 64-ctpop(mask) times.
380      */
381     if (bit) {
382         n = ctpop64(mask);
383     } else {
384         n = 64 - ctpop64(mask);
385     }
386 
387     return left | (right >> n);
388 }
389 
390 uint64_t helper_PDEPD(uint64_t src, uint64_t mask)
391 {
392     int i, o;
393     uint64_t result = 0;
394 
395     if (mask == -1) {
396         return src;
397     }
398 
399     for (i = 0; mask != 0; i++) {
400         o = ctz64(mask);
401         mask &= mask - 1;
402         result |= ((src >> i) & 1) << o;
403     }
404 
405     return result;
406 }
407 
408 uint64_t helper_PEXTD(uint64_t src, uint64_t mask)
409 {
410     int i, o;
411     uint64_t result = 0;
412 
413     if (mask == -1) {
414         return src;
415     }
416 
417     for (o = 0; mask != 0; o++) {
418         i = ctz64(mask);
419         mask &= mask - 1;
420         result |= ((src >> i) & 1) << o;
421     }
422 
423     return result;
424 }
425 
426 /*****************************************************************************/
427 /* Altivec extension helpers */
428 #if HOST_BIG_ENDIAN
429 #define VECTOR_FOR_INORDER_I(index, element)                    \
430     for (index = 0; index < ARRAY_SIZE(r->element); index++)
431 #else
432 #define VECTOR_FOR_INORDER_I(index, element)                    \
433     for (index = ARRAY_SIZE(r->element) - 1; index >= 0; index--)
434 #endif
435 
436 /* Saturating arithmetic helpers.  */
437 #define SATCVT(from, to, from_type, to_type, min, max)          \
438     static inline to_type cvt##from##to(from_type x, int *sat)  \
439     {                                                           \
440         to_type r;                                              \
441                                                                 \
442         if (x < (from_type)min) {                               \
443             r = min;                                            \
444             *sat = 1;                                           \
445         } else if (x > (from_type)max) {                        \
446             r = max;                                            \
447             *sat = 1;                                           \
448         } else {                                                \
449             r = x;                                              \
450         }                                                       \
451         return r;                                               \
452     }
453 #define SATCVTU(from, to, from_type, to_type, min, max)         \
454     static inline to_type cvt##from##to(from_type x, int *sat)  \
455     {                                                           \
456         to_type r;                                              \
457                                                                 \
458         if (x > (from_type)max) {                               \
459             r = max;                                            \
460             *sat = 1;                                           \
461         } else {                                                \
462             r = x;                                              \
463         }                                                       \
464         return r;                                               \
465     }
466 SATCVT(sh, sb, int16_t, int8_t, INT8_MIN, INT8_MAX)
467 SATCVT(sw, sh, int32_t, int16_t, INT16_MIN, INT16_MAX)
468 SATCVT(sd, sw, int64_t, int32_t, INT32_MIN, INT32_MAX)
469 
470 SATCVTU(uh, ub, uint16_t, uint8_t, 0, UINT8_MAX)
471 SATCVTU(uw, uh, uint32_t, uint16_t, 0, UINT16_MAX)
472 SATCVTU(ud, uw, uint64_t, uint32_t, 0, UINT32_MAX)
473 SATCVT(sh, ub, int16_t, uint8_t, 0, UINT8_MAX)
474 SATCVT(sw, uh, int32_t, uint16_t, 0, UINT16_MAX)
475 SATCVT(sd, uw, int64_t, uint32_t, 0, UINT32_MAX)
476 #undef SATCVT
477 #undef SATCVTU
478 
479 void helper_mtvscr(CPUPPCState *env, uint32_t vscr)
480 {
481     ppc_store_vscr(env, vscr);
482 }
483 
484 uint32_t helper_mfvscr(CPUPPCState *env)
485 {
486     return ppc_get_vscr(env);
487 }
488 
489 static inline void set_vscr_sat(CPUPPCState *env)
490 {
491     /* The choice of non-zero value is arbitrary.  */
492     env->vscr_sat.u32[0] = 1;
493 }
494 
495 /* vprtybq */
496 void helper_VPRTYBQ(ppc_avr_t *r, ppc_avr_t *b, uint32_t v)
497 {
498     uint64_t res = b->u64[0] ^ b->u64[1];
499     res ^= res >> 32;
500     res ^= res >> 16;
501     res ^= res >> 8;
502     r->VsrD(1) = res & 1;
503     r->VsrD(0) = 0;
504 }
505 
506 #define VARITHFP(suffix, func)                                          \
507     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
508                           ppc_avr_t *b)                                 \
509     {                                                                   \
510         int i;                                                          \
511                                                                         \
512         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
513             r->f32[i] = func(a->f32[i], b->f32[i], &env->vec_status);   \
514         }                                                               \
515     }
516 VARITHFP(addfp, float32_add)
517 VARITHFP(subfp, float32_sub)
518 VARITHFP(minfp, float32_min)
519 VARITHFP(maxfp, float32_max)
520 #undef VARITHFP
521 
522 #define VARITHFPFMA(suffix, type)                                       \
523     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
524                            ppc_avr_t *b, ppc_avr_t *c)                  \
525     {                                                                   \
526         int i;                                                          \
527         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
528             r->f32[i] = float32_muladd(a->f32[i], c->f32[i], b->f32[i], \
529                                        type, &env->vec_status);         \
530         }                                                               \
531     }
532 VARITHFPFMA(maddfp, 0);
533 VARITHFPFMA(nmsubfp, float_muladd_negate_result | float_muladd_negate_c);
534 #undef VARITHFPFMA
535 
536 #define VARITHSAT_CASE(type, op, cvt, element)                          \
537     {                                                                   \
538         type result = (type)a->element[i] op (type)b->element[i];       \
539         r->element[i] = cvt(result, &sat);                              \
540     }
541 
542 #define VARITHSAT_DO(name, op, optype, cvt, element)                    \
543     void helper_v##name(ppc_avr_t *r, ppc_avr_t *vscr_sat,              \
544                         ppc_avr_t *a, ppc_avr_t *b, uint32_t desc)      \
545     {                                                                   \
546         int sat = 0;                                                    \
547         int i;                                                          \
548                                                                         \
549         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
550             VARITHSAT_CASE(optype, op, cvt, element);                   \
551         }                                                               \
552         if (sat) {                                                      \
553             vscr_sat->u32[0] = 1;                                       \
554         }                                                               \
555     }
556 #define VARITHSAT_SIGNED(suffix, element, optype, cvt)          \
557     VARITHSAT_DO(adds##suffix##s, +, optype, cvt, element)      \
558     VARITHSAT_DO(subs##suffix##s, -, optype, cvt, element)
559 #define VARITHSAT_UNSIGNED(suffix, element, optype, cvt)        \
560     VARITHSAT_DO(addu##suffix##s, +, optype, cvt, element)      \
561     VARITHSAT_DO(subu##suffix##s, -, optype, cvt, element)
562 VARITHSAT_SIGNED(b, s8, int16_t, cvtshsb)
563 VARITHSAT_SIGNED(h, s16, int32_t, cvtswsh)
564 VARITHSAT_SIGNED(w, s32, int64_t, cvtsdsw)
565 VARITHSAT_UNSIGNED(b, u8, uint16_t, cvtshub)
566 VARITHSAT_UNSIGNED(h, u16, uint32_t, cvtswuh)
567 VARITHSAT_UNSIGNED(w, u32, uint64_t, cvtsduw)
568 #undef VARITHSAT_CASE
569 #undef VARITHSAT_DO
570 #undef VARITHSAT_SIGNED
571 #undef VARITHSAT_UNSIGNED
572 
573 #define VAVG(name, element, etype)                                          \
574     void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t v)\
575     {                                                                       \
576         int i;                                                              \
577                                                                             \
578         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
579             etype x = (etype)a->element[i] + (etype)b->element[i] + 1;      \
580             r->element[i] = x >> 1;                                         \
581         }                                                                   \
582     }
583 
584 VAVG(VAVGSB, s8, int16_t)
585 VAVG(VAVGUB, u8, uint16_t)
586 VAVG(VAVGSH, s16, int32_t)
587 VAVG(VAVGUH, u16, uint32_t)
588 VAVG(VAVGSW, s32, int64_t)
589 VAVG(VAVGUW, u32, uint64_t)
590 #undef VAVG
591 
592 #define VABSDU(name, element)                                           \
593 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t v)\
594 {                                                                       \
595     int i;                                                              \
596                                                                         \
597     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
598         r->element[i] = (a->element[i] > b->element[i]) ?               \
599             (a->element[i] - b->element[i]) :                           \
600             (b->element[i] - a->element[i]);                            \
601     }                                                                   \
602 }
603 
604 /*
605  * VABSDU - Vector absolute difference unsigned
606  *   name    - instruction mnemonic suffix (b: byte, h: halfword, w: word)
607  *   element - element type to access from vector
608  */
609 VABSDU(VABSDUB, u8)
610 VABSDU(VABSDUH, u16)
611 VABSDU(VABSDUW, u32)
612 #undef VABSDU
613 
614 #define VCF(suffix, cvt, element)                                       \
615     void helper_vcf##suffix(CPUPPCState *env, ppc_avr_t *r,             \
616                             ppc_avr_t *b, uint32_t uim)                 \
617     {                                                                   \
618         int i;                                                          \
619                                                                         \
620         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
621             float32 t = cvt(b->element[i], &env->vec_status);           \
622             r->f32[i] = float32_scalbn(t, -uim, &env->vec_status);      \
623         }                                                               \
624     }
625 VCF(ux, uint32_to_float32, u32)
626 VCF(sx, int32_to_float32, s32)
627 #undef VCF
628 
629 #define VCMPNEZ(NAME, ELEM) \
630 void helper_##NAME(ppc_vsr_t *t, ppc_vsr_t *a, ppc_vsr_t *b, uint32_t desc) \
631 {                                                                           \
632     for (int i = 0; i < ARRAY_SIZE(t->ELEM); i++) {                         \
633         t->ELEM[i] = ((a->ELEM[i] == 0) || (b->ELEM[i] == 0) ||             \
634                       (a->ELEM[i] != b->ELEM[i])) ? -1 : 0;                 \
635     }                                                                       \
636 }
637 VCMPNEZ(VCMPNEZB, u8)
638 VCMPNEZ(VCMPNEZH, u16)
639 VCMPNEZ(VCMPNEZW, u32)
640 #undef VCMPNEZ
641 
642 #define VCMPFP_DO(suffix, compare, order, record)                       \
643     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
644                              ppc_avr_t *a, ppc_avr_t *b)                \
645     {                                                                   \
646         uint32_t ones = (uint32_t)-1;                                   \
647         uint32_t all = ones;                                            \
648         uint32_t none = 0;                                              \
649         int i;                                                          \
650                                                                         \
651         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
652             uint32_t result;                                            \
653             FloatRelation rel =                                         \
654                 float32_compare_quiet(a->f32[i], b->f32[i],             \
655                                       &env->vec_status);                \
656             if (rel == float_relation_unordered) {                      \
657                 result = 0;                                             \
658             } else if (rel compare order) {                             \
659                 result = ones;                                          \
660             } else {                                                    \
661                 result = 0;                                             \
662             }                                                           \
663             r->u32[i] = result;                                         \
664             all &= result;                                              \
665             none |= result;                                             \
666         }                                                               \
667         if (record) {                                                   \
668             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
669         }                                                               \
670     }
671 #define VCMPFP(suffix, compare, order)          \
672     VCMPFP_DO(suffix, compare, order, 0)        \
673     VCMPFP_DO(suffix##_dot, compare, order, 1)
674 VCMPFP(eqfp, ==, float_relation_equal)
675 VCMPFP(gefp, !=, float_relation_less)
676 VCMPFP(gtfp, ==, float_relation_greater)
677 #undef VCMPFP_DO
678 #undef VCMPFP
679 
680 static inline void vcmpbfp_internal(CPUPPCState *env, ppc_avr_t *r,
681                                     ppc_avr_t *a, ppc_avr_t *b, int record)
682 {
683     int i;
684     int all_in = 0;
685 
686     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
687         FloatRelation le_rel = float32_compare_quiet(a->f32[i], b->f32[i],
688                                                      &env->vec_status);
689         if (le_rel == float_relation_unordered) {
690             r->u32[i] = 0xc0000000;
691             all_in = 1;
692         } else {
693             float32 bneg = float32_chs(b->f32[i]);
694             FloatRelation ge_rel = float32_compare_quiet(a->f32[i], bneg,
695                                                          &env->vec_status);
696             int le = le_rel != float_relation_greater;
697             int ge = ge_rel != float_relation_less;
698 
699             r->u32[i] = ((!le) << 31) | ((!ge) << 30);
700             all_in |= (!le | !ge);
701         }
702     }
703     if (record) {
704         env->crf[6] = (all_in == 0) << 1;
705     }
706 }
707 
708 void helper_vcmpbfp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
709 {
710     vcmpbfp_internal(env, r, a, b, 0);
711 }
712 
713 void helper_vcmpbfp_dot(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
714                         ppc_avr_t *b)
715 {
716     vcmpbfp_internal(env, r, a, b, 1);
717 }
718 
719 #define VCT(suffix, satcvt, element)                                    \
720     void helper_vct##suffix(CPUPPCState *env, ppc_avr_t *r,             \
721                             ppc_avr_t *b, uint32_t uim)                 \
722     {                                                                   \
723         int i;                                                          \
724         int sat = 0;                                                    \
725         float_status s = env->vec_status;                               \
726                                                                         \
727         set_float_rounding_mode(float_round_to_zero, &s);               \
728         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
729             if (float32_is_any_nan(b->f32[i])) {                        \
730                 r->element[i] = 0;                                      \
731             } else {                                                    \
732                 float64 t = float32_to_float64(b->f32[i], &s);          \
733                 int64_t j;                                              \
734                                                                         \
735                 t = float64_scalbn(t, uim, &s);                         \
736                 j = float64_to_int64(t, &s);                            \
737                 r->element[i] = satcvt(j, &sat);                        \
738             }                                                           \
739         }                                                               \
740         if (sat) {                                                      \
741             set_vscr_sat(env);                                          \
742         }                                                               \
743     }
744 VCT(uxs, cvtsduw, u32)
745 VCT(sxs, cvtsdsw, s32)
746 #undef VCT
747 
748 typedef int64_t do_ger(uint32_t, uint32_t, uint32_t);
749 
750 static int64_t ger_rank8(uint32_t a, uint32_t b, uint32_t mask)
751 {
752     int64_t psum = 0;
753     for (int i = 0; i < 8; i++, mask >>= 1) {
754         if (mask & 1) {
755             psum += (int64_t)sextract32(a, 4 * i, 4) * sextract32(b, 4 * i, 4);
756         }
757     }
758     return psum;
759 }
760 
761 static int64_t ger_rank4(uint32_t a, uint32_t b, uint32_t mask)
762 {
763     int64_t psum = 0;
764     for (int i = 0; i < 4; i++, mask >>= 1) {
765         if (mask & 1) {
766             psum += sextract32(a, 8 * i, 8) * (int64_t)extract32(b, 8 * i, 8);
767         }
768     }
769     return psum;
770 }
771 
772 static int64_t ger_rank2(uint32_t a, uint32_t b, uint32_t mask)
773 {
774     int64_t psum = 0;
775     for (int i = 0; i < 2; i++, mask >>= 1) {
776         if (mask & 1) {
777             psum += (int64_t)sextract32(a, 16 * i, 16) *
778                              sextract32(b, 16 * i, 16);
779         }
780     }
781     return psum;
782 }
783 
784 static void xviger(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b, ppc_acc_t  *at,
785                    uint32_t mask, bool sat, bool acc, do_ger ger)
786 {
787     uint8_t pmsk = FIELD_EX32(mask, GER_MSK, PMSK),
788             xmsk = FIELD_EX32(mask, GER_MSK, XMSK),
789             ymsk = FIELD_EX32(mask, GER_MSK, YMSK);
790     uint8_t xmsk_bit, ymsk_bit;
791     int64_t psum;
792     int i, j;
793     for (i = 0, xmsk_bit = 1 << 3; i < 4; i++, xmsk_bit >>= 1) {
794         for (j = 0, ymsk_bit = 1 << 3; j < 4; j++, ymsk_bit >>= 1) {
795             if ((xmsk_bit & xmsk) && (ymsk_bit & ymsk)) {
796                 psum = ger(a->VsrW(i), b->VsrW(j), pmsk);
797                 if (acc) {
798                     psum += at[i].VsrSW(j);
799                 }
800                 if (sat && psum > INT32_MAX) {
801                     set_vscr_sat(env);
802                     at[i].VsrSW(j) = INT32_MAX;
803                 } else if (sat && psum < INT32_MIN) {
804                     set_vscr_sat(env);
805                     at[i].VsrSW(j) = INT32_MIN;
806                 } else {
807                     at[i].VsrSW(j) = (int32_t) psum;
808                 }
809             } else {
810                 at[i].VsrSW(j) = 0;
811             }
812         }
813     }
814 }
815 
816 QEMU_FLATTEN
817 void helper_XVI4GER8(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
818                      ppc_acc_t *at, uint32_t mask)
819 {
820     xviger(env, a, b, at, mask, false, false, ger_rank8);
821 }
822 
823 QEMU_FLATTEN
824 void helper_XVI4GER8PP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
825                        ppc_acc_t *at, uint32_t mask)
826 {
827     xviger(env, a, b, at, mask, false, true, ger_rank8);
828 }
829 
830 QEMU_FLATTEN
831 void helper_XVI8GER4(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
832                      ppc_acc_t *at, uint32_t mask)
833 {
834     xviger(env, a, b, at, mask, false, false, ger_rank4);
835 }
836 
837 QEMU_FLATTEN
838 void helper_XVI8GER4PP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
839                        ppc_acc_t *at, uint32_t mask)
840 {
841     xviger(env, a, b, at, mask, false, true, ger_rank4);
842 }
843 
844 QEMU_FLATTEN
845 void helper_XVI8GER4SPP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
846                         ppc_acc_t *at, uint32_t mask)
847 {
848     xviger(env, a, b, at, mask, true, true, ger_rank4);
849 }
850 
851 QEMU_FLATTEN
852 void helper_XVI16GER2(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
853                       ppc_acc_t *at, uint32_t mask)
854 {
855     xviger(env, a, b, at, mask, false, false, ger_rank2);
856 }
857 
858 QEMU_FLATTEN
859 void helper_XVI16GER2S(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
860                        ppc_acc_t *at, uint32_t mask)
861 {
862     xviger(env, a, b, at, mask, true, false, ger_rank2);
863 }
864 
865 QEMU_FLATTEN
866 void helper_XVI16GER2PP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
867                         ppc_acc_t *at, uint32_t mask)
868 {
869     xviger(env, a, b, at, mask, false, true, ger_rank2);
870 }
871 
872 QEMU_FLATTEN
873 void helper_XVI16GER2SPP(CPUPPCState *env, ppc_vsr_t *a, ppc_vsr_t *b,
874                          ppc_acc_t *at, uint32_t mask)
875 {
876     xviger(env, a, b, at, mask, true, true, ger_rank2);
877 }
878 
879 target_ulong helper_vclzlsbb(ppc_avr_t *r)
880 {
881     target_ulong count = 0;
882     int i;
883     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
884         if (r->VsrB(i) & 0x01) {
885             break;
886         }
887         count++;
888     }
889     return count;
890 }
891 
892 target_ulong helper_vctzlsbb(ppc_avr_t *r)
893 {
894     target_ulong count = 0;
895     int i;
896     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
897         if (r->VsrB(i) & 0x01) {
898             break;
899         }
900         count++;
901     }
902     return count;
903 }
904 
905 void helper_VMHADDSHS(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
906                       ppc_avr_t *b, ppc_avr_t *c)
907 {
908     int sat = 0;
909     int i;
910 
911     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
912         int32_t prod = a->s16[i] * b->s16[i];
913         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
914 
915         r->s16[i] = cvtswsh(t, &sat);
916     }
917 
918     if (sat) {
919         set_vscr_sat(env);
920     }
921 }
922 
923 void helper_VMHRADDSHS(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
924                        ppc_avr_t *b, ppc_avr_t *c)
925 {
926     int sat = 0;
927     int i;
928 
929     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
930         int32_t prod = a->s16[i] * b->s16[i] + 0x00004000;
931         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
932         r->s16[i] = cvtswsh(t, &sat);
933     }
934 
935     if (sat) {
936         set_vscr_sat(env);
937     }
938 }
939 
940 void helper_VMLADDUHM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c,
941                       uint32_t v)
942 {
943     int i;
944 
945     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
946         int32_t prod = a->s16[i] * b->s16[i];
947         r->s16[i] = (int16_t) (prod + c->s16[i]);
948     }
949 }
950 
951 #define VMRG_DO(name, element, access, ofs)                                  \
952     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)            \
953     {                                                                        \
954         ppc_avr_t result;                                                    \
955         int i, half = ARRAY_SIZE(r->element) / 2;                            \
956                                                                              \
957         for (i = 0; i < half; i++) {                                         \
958             result.access(i * 2 + 0) = a->access(i + ofs);                   \
959             result.access(i * 2 + 1) = b->access(i + ofs);                   \
960         }                                                                    \
961         *r = result;                                                         \
962     }
963 
964 #define VMRG(suffix, element, access)          \
965     VMRG_DO(mrgl##suffix, element, access, half)   \
966     VMRG_DO(mrgh##suffix, element, access, 0)
967 VMRG(b, u8, VsrB)
968 VMRG(h, u16, VsrH)
969 VMRG(w, u32, VsrW)
970 #undef VMRG_DO
971 #undef VMRG
972 
973 void helper_VMSUMMBM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
974 {
975     int32_t prod[16];
976     int i;
977 
978     for (i = 0; i < ARRAY_SIZE(r->s8); i++) {
979         prod[i] = (int32_t)a->s8[i] * b->u8[i];
980     }
981 
982     VECTOR_FOR_INORDER_I(i, s32) {
983         r->s32[i] = c->s32[i] + prod[4 * i] + prod[4 * i + 1] +
984             prod[4 * i + 2] + prod[4 * i + 3];
985     }
986 }
987 
988 void helper_VMSUMSHM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
989 {
990     int32_t prod[8];
991     int i;
992 
993     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
994         prod[i] = a->s16[i] * b->s16[i];
995     }
996 
997     VECTOR_FOR_INORDER_I(i, s32) {
998         r->s32[i] = c->s32[i] + prod[2 * i] + prod[2 * i + 1];
999     }
1000 }
1001 
1002 void helper_VMSUMSHS(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1003                      ppc_avr_t *b, ppc_avr_t *c)
1004 {
1005     int32_t prod[8];
1006     int i;
1007     int sat = 0;
1008 
1009     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
1010         prod[i] = (int32_t)a->s16[i] * b->s16[i];
1011     }
1012 
1013     VECTOR_FOR_INORDER_I(i, s32) {
1014         int64_t t = (int64_t)c->s32[i] + prod[2 * i] + prod[2 * i + 1];
1015 
1016         r->u32[i] = cvtsdsw(t, &sat);
1017     }
1018 
1019     if (sat) {
1020         set_vscr_sat(env);
1021     }
1022 }
1023 
1024 void helper_VMSUMUBM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1025 {
1026     uint16_t prod[16];
1027     int i;
1028 
1029     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1030         prod[i] = a->u8[i] * b->u8[i];
1031     }
1032 
1033     VECTOR_FOR_INORDER_I(i, u32) {
1034         r->u32[i] = c->u32[i] + prod[4 * i] + prod[4 * i + 1] +
1035             prod[4 * i + 2] + prod[4 * i + 3];
1036     }
1037 }
1038 
1039 void helper_VMSUMUHM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1040 {
1041     uint32_t prod[8];
1042     int i;
1043 
1044     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1045         prod[i] = a->u16[i] * b->u16[i];
1046     }
1047 
1048     VECTOR_FOR_INORDER_I(i, u32) {
1049         r->u32[i] = c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1050     }
1051 }
1052 
1053 void helper_VMSUMUHS(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1054                      ppc_avr_t *b, ppc_avr_t *c)
1055 {
1056     uint32_t prod[8];
1057     int i;
1058     int sat = 0;
1059 
1060     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1061         prod[i] = a->u16[i] * b->u16[i];
1062     }
1063 
1064     VECTOR_FOR_INORDER_I(i, s32) {
1065         uint64_t t = (uint64_t)c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1066 
1067         r->u32[i] = cvtuduw(t, &sat);
1068     }
1069 
1070     if (sat) {
1071         set_vscr_sat(env);
1072     }
1073 }
1074 
1075 #define VMUL_DO_EVN(name, mul_element, mul_access, prod_access, cast)   \
1076     void helper_V##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1077     {                                                                   \
1078         int i;                                                          \
1079                                                                         \
1080         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1081             r->prod_access(i >> 1) = (cast)a->mul_access(i) *           \
1082                                      (cast)b->mul_access(i);            \
1083         }                                                               \
1084     }
1085 
1086 #define VMUL_DO_ODD(name, mul_element, mul_access, prod_access, cast)   \
1087     void helper_V##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1088     {                                                                   \
1089         int i;                                                          \
1090                                                                         \
1091         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1092             r->prod_access(i >> 1) = (cast)a->mul_access(i + 1) *       \
1093                                      (cast)b->mul_access(i + 1);        \
1094         }                                                               \
1095     }
1096 
1097 #define VMUL(suffix, mul_element, mul_access, prod_access, cast)       \
1098     VMUL_DO_EVN(MULE##suffix, mul_element, mul_access, prod_access, cast)  \
1099     VMUL_DO_ODD(MULO##suffix, mul_element, mul_access, prod_access, cast)
1100 VMUL(SB, s8, VsrSB, VsrSH, int16_t)
1101 VMUL(SH, s16, VsrSH, VsrSW, int32_t)
1102 VMUL(SW, s32, VsrSW, VsrSD, int64_t)
1103 VMUL(UB, u8, VsrB, VsrH, uint16_t)
1104 VMUL(UH, u16, VsrH, VsrW, uint32_t)
1105 VMUL(UW, u32, VsrW, VsrD, uint64_t)
1106 #undef VMUL_DO_EVN
1107 #undef VMUL_DO_ODD
1108 #undef VMUL
1109 
1110 void helper_XXPERMX(ppc_vsr_t *t, ppc_vsr_t *s0, ppc_vsr_t *s1, ppc_vsr_t *pcv,
1111                     target_ulong uim)
1112 {
1113     int i, idx;
1114     ppc_vsr_t tmp = { .u64 = {0, 0} };
1115 
1116     for (i = 0; i < ARRAY_SIZE(t->u8); i++) {
1117         if ((pcv->VsrB(i) >> 5) == uim) {
1118             idx = pcv->VsrB(i) & 0x1f;
1119             if (idx < ARRAY_SIZE(t->u8)) {
1120                 tmp.VsrB(i) = s0->VsrB(idx);
1121             } else {
1122                 tmp.VsrB(i) = s1->VsrB(idx - ARRAY_SIZE(t->u8));
1123             }
1124         }
1125     }
1126 
1127     *t = tmp;
1128 }
1129 
1130 void helper_VDIVSQ(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1131 {
1132     Int128 neg1 = int128_makes64(-1);
1133     Int128 int128_min = int128_make128(0, INT64_MIN);
1134     if (likely(int128_nz(b->s128) &&
1135               (int128_ne(a->s128, int128_min) || int128_ne(b->s128, neg1)))) {
1136         t->s128 = int128_divs(a->s128, b->s128);
1137     } else {
1138         t->s128 = a->s128; /* Undefined behavior */
1139     }
1140 }
1141 
1142 void helper_VDIVUQ(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1143 {
1144     if (int128_nz(b->s128)) {
1145         t->s128 = int128_divu(a->s128, b->s128);
1146     } else {
1147         t->s128 = a->s128; /* Undefined behavior */
1148     }
1149 }
1150 
1151 void helper_VDIVESD(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1152 {
1153     int i;
1154     int64_t high;
1155     uint64_t low;
1156     for (i = 0; i < 2; i++) {
1157         high = a->s64[i];
1158         low = 0;
1159         if (unlikely((high == INT64_MIN && b->s64[i] == -1) || !b->s64[i])) {
1160             t->s64[i] = a->s64[i]; /* Undefined behavior */
1161         } else {
1162             divs128(&low, &high, b->s64[i]);
1163             t->s64[i] = low;
1164         }
1165     }
1166 }
1167 
1168 void helper_VDIVEUD(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1169 {
1170     int i;
1171     uint64_t high, low;
1172     for (i = 0; i < 2; i++) {
1173         high = a->u64[i];
1174         low = 0;
1175         if (unlikely(!b->u64[i])) {
1176             t->u64[i] = a->u64[i]; /* Undefined behavior */
1177         } else {
1178             divu128(&low, &high, b->u64[i]);
1179             t->u64[i] = low;
1180         }
1181     }
1182 }
1183 
1184 void helper_VDIVESQ(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1185 {
1186     Int128 high, low;
1187     Int128 int128_min = int128_make128(0, INT64_MIN);
1188     Int128 neg1 = int128_makes64(-1);
1189 
1190     high = a->s128;
1191     low = int128_zero();
1192     if (unlikely(!int128_nz(b->s128) ||
1193                  (int128_eq(b->s128, neg1) && int128_eq(high, int128_min)))) {
1194         t->s128 = a->s128; /* Undefined behavior */
1195     } else {
1196         divs256(&low, &high, b->s128);
1197         t->s128 = low;
1198     }
1199 }
1200 
1201 void helper_VDIVEUQ(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1202 {
1203     Int128 high, low;
1204 
1205     high = a->s128;
1206     low = int128_zero();
1207     if (unlikely(!int128_nz(b->s128))) {
1208         t->s128 = a->s128; /* Undefined behavior */
1209     } else {
1210         divu256(&low, &high, b->s128);
1211         t->s128 = low;
1212     }
1213 }
1214 
1215 void helper_VMODSQ(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1216 {
1217     Int128 neg1 = int128_makes64(-1);
1218     Int128 int128_min = int128_make128(0, INT64_MIN);
1219     if (likely(int128_nz(b->s128) &&
1220               (int128_ne(a->s128, int128_min) || int128_ne(b->s128, neg1)))) {
1221         t->s128 = int128_rems(a->s128, b->s128);
1222     } else {
1223         t->s128 = int128_zero(); /* Undefined behavior */
1224     }
1225 }
1226 
1227 void helper_VMODUQ(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b)
1228 {
1229     if (likely(int128_nz(b->s128))) {
1230         t->s128 = int128_remu(a->s128, b->s128);
1231     } else {
1232         t->s128 = int128_zero(); /* Undefined behavior */
1233     }
1234 }
1235 
1236 void helper_VPERM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1237 {
1238     ppc_avr_t result;
1239     int i;
1240 
1241     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1242         int s = c->VsrB(i) & 0x1f;
1243         int index = s & 0xf;
1244 
1245         if (s & 0x10) {
1246             result.VsrB(i) = b->VsrB(index);
1247         } else {
1248             result.VsrB(i) = a->VsrB(index);
1249         }
1250     }
1251     *r = result;
1252 }
1253 
1254 void helper_VPERMR(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1255 {
1256     ppc_avr_t result;
1257     int i;
1258 
1259     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1260         int s = c->VsrB(i) & 0x1f;
1261         int index = 15 - (s & 0xf);
1262 
1263         if (s & 0x10) {
1264             result.VsrB(i) = a->VsrB(index);
1265         } else {
1266             result.VsrB(i) = b->VsrB(index);
1267         }
1268     }
1269     *r = result;
1270 }
1271 
1272 #define XXGENPCV_BE_EXP(NAME, SZ) \
1273 void glue(helper_, glue(NAME, _be_exp))(ppc_vsr_t *t, ppc_vsr_t *b) \
1274 {                                                                   \
1275     ppc_vsr_t tmp;                                                  \
1276                                                                     \
1277     /* Initialize tmp with the result of an all-zeros mask */       \
1278     tmp.VsrD(0) = 0x1011121314151617;                               \
1279     tmp.VsrD(1) = 0x18191A1B1C1D1E1F;                               \
1280                                                                     \
1281     /* Iterate over the most significant byte of each element */    \
1282     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1283         if (b->VsrB(i) & 0x80) {                                    \
1284             /* Update each byte of the element */                   \
1285             for (int k = 0; k < SZ; k++) {                          \
1286                 tmp.VsrB(i + k) = j + k;                            \
1287             }                                                       \
1288             j += SZ;                                                \
1289         }                                                           \
1290     }                                                               \
1291                                                                     \
1292     *t = tmp;                                                       \
1293 }
1294 
1295 #define XXGENPCV_BE_COMP(NAME, SZ) \
1296 void glue(helper_, glue(NAME, _be_comp))(ppc_vsr_t *t, ppc_vsr_t *b)\
1297 {                                                                   \
1298     ppc_vsr_t tmp = { .u64 = { 0, 0 } };                            \
1299                                                                     \
1300     /* Iterate over the most significant byte of each element */    \
1301     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1302         if (b->VsrB(i) & 0x80) {                                    \
1303             /* Update each byte of the element */                   \
1304             for (int k = 0; k < SZ; k++) {                          \
1305                 tmp.VsrB(j + k) = i + k;                            \
1306             }                                                       \
1307             j += SZ;                                                \
1308         }                                                           \
1309     }                                                               \
1310                                                                     \
1311     *t = tmp;                                                       \
1312 }
1313 
1314 #define XXGENPCV_LE_EXP(NAME, SZ) \
1315 void glue(helper_, glue(NAME, _le_exp))(ppc_vsr_t *t, ppc_vsr_t *b) \
1316 {                                                                   \
1317     ppc_vsr_t tmp;                                                  \
1318                                                                     \
1319     /* Initialize tmp with the result of an all-zeros mask */       \
1320     tmp.VsrD(0) = 0x1F1E1D1C1B1A1918;                               \
1321     tmp.VsrD(1) = 0x1716151413121110;                               \
1322                                                                     \
1323     /* Iterate over the most significant byte of each element */    \
1324     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1325         /* Reverse indexing of "i" */                               \
1326         const int idx = ARRAY_SIZE(b->u8) - i - SZ;                 \
1327         if (b->VsrB(idx) & 0x80) {                                  \
1328             /* Update each byte of the element */                   \
1329             for (int k = 0, rk = SZ - 1; k < SZ; k++, rk--) {       \
1330                 tmp.VsrB(idx + rk) = j + k;                         \
1331             }                                                       \
1332             j += SZ;                                                \
1333         }                                                           \
1334     }                                                               \
1335                                                                     \
1336     *t = tmp;                                                       \
1337 }
1338 
1339 #define XXGENPCV_LE_COMP(NAME, SZ) \
1340 void glue(helper_, glue(NAME, _le_comp))(ppc_vsr_t *t, ppc_vsr_t *b)\
1341 {                                                                   \
1342     ppc_vsr_t tmp = { .u64 = { 0, 0 } };                            \
1343                                                                     \
1344     /* Iterate over the most significant byte of each element */    \
1345     for (int i = 0, j = 0; i < ARRAY_SIZE(b->u8); i += SZ) {        \
1346         if (b->VsrB(ARRAY_SIZE(b->u8) - i - SZ) & 0x80) {           \
1347             /* Update each byte of the element */                   \
1348             for (int k = 0, rk = SZ - 1; k < SZ; k++, rk--) {       \
1349                 /* Reverse indexing of "j" */                       \
1350                 const int idx = ARRAY_SIZE(b->u8) - j - SZ;         \
1351                 tmp.VsrB(idx + rk) = i + k;                         \
1352             }                                                       \
1353             j += SZ;                                                \
1354         }                                                           \
1355     }                                                               \
1356                                                                     \
1357     *t = tmp;                                                       \
1358 }
1359 
1360 #define XXGENPCV(NAME, SZ) \
1361     XXGENPCV_BE_EXP(NAME, SZ)  \
1362     XXGENPCV_BE_COMP(NAME, SZ) \
1363     XXGENPCV_LE_EXP(NAME, SZ)  \
1364     XXGENPCV_LE_COMP(NAME, SZ) \
1365 
1366 XXGENPCV(XXGENPCVBM, 1)
1367 XXGENPCV(XXGENPCVHM, 2)
1368 XXGENPCV(XXGENPCVWM, 4)
1369 XXGENPCV(XXGENPCVDM, 8)
1370 
1371 #undef XXGENPCV_BE_EXP
1372 #undef XXGENPCV_BE_COMP
1373 #undef XXGENPCV_LE_EXP
1374 #undef XXGENPCV_LE_COMP
1375 #undef XXGENPCV
1376 
1377 #if HOST_BIG_ENDIAN
1378 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[(i)])
1379 #define VBPERMD_INDEX(i) (i)
1380 #define VBPERMQ_DW(index) (((index) & 0x40) != 0)
1381 #else
1382 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[15 - (i)])
1383 #define VBPERMD_INDEX(i) (1 - i)
1384 #define VBPERMQ_DW(index) (((index) & 0x40) == 0)
1385 #endif
1386 #define EXTRACT_BIT(avr, i, index) \
1387         (extract64((avr)->VsrD(i), 63 - index, 1))
1388 
1389 void helper_vbpermd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1390 {
1391     int i, j;
1392     ppc_avr_t result = { .u64 = { 0, 0 } };
1393     VECTOR_FOR_INORDER_I(i, u64) {
1394         for (j = 0; j < 8; j++) {
1395             int index = VBPERMQ_INDEX(b, (i * 8) + j);
1396             if (index < 64 && EXTRACT_BIT(a, i, index)) {
1397                 result.u64[VBPERMD_INDEX(i)] |= (0x80 >> j);
1398             }
1399         }
1400     }
1401     *r = result;
1402 }
1403 
1404 void helper_vbpermq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1405 {
1406     int i;
1407     uint64_t perm = 0;
1408 
1409     VECTOR_FOR_INORDER_I(i, u8) {
1410         int index = VBPERMQ_INDEX(b, i);
1411 
1412         if (index < 128) {
1413             uint64_t mask = (1ull << (63 - (index & 0x3F)));
1414             if (a->u64[VBPERMQ_DW(index)] & mask) {
1415                 perm |= (0x8000 >> i);
1416             }
1417         }
1418     }
1419 
1420     r->VsrD(0) = perm;
1421     r->VsrD(1) = 0;
1422 }
1423 
1424 #undef VBPERMQ_INDEX
1425 #undef VBPERMQ_DW
1426 
1427 #define PMSUM(name, srcfld, trgfld, trgtyp)                   \
1428 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)  \
1429 {                                                             \
1430     int i, j;                                                 \
1431     trgtyp prod[sizeof(ppc_avr_t) / sizeof(a->srcfld[0])];    \
1432                                                               \
1433     VECTOR_FOR_INORDER_I(i, srcfld) {                         \
1434         prod[i] = 0;                                          \
1435         for (j = 0; j < sizeof(a->srcfld[0]) * 8; j++) {      \
1436             if (a->srcfld[i] & (1ull << j)) {                 \
1437                 prod[i] ^= ((trgtyp)b->srcfld[i] << j);       \
1438             }                                                 \
1439         }                                                     \
1440     }                                                         \
1441                                                               \
1442     VECTOR_FOR_INORDER_I(i, trgfld) {                         \
1443         r->trgfld[i] = prod[2 * i] ^ prod[2 * i + 1];         \
1444     }                                                         \
1445 }
1446 
1447 PMSUM(vpmsumb, u8, u16, uint16_t)
1448 PMSUM(vpmsumh, u16, u32, uint32_t)
1449 PMSUM(vpmsumw, u32, u64, uint64_t)
1450 
1451 void helper_VPMSUMD(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1452 {
1453     int i, j;
1454     Int128 tmp, prod[2] = {int128_zero(), int128_zero()};
1455 
1456     for (j = 0; j < 64; j++) {
1457         for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
1458             if (a->VsrD(i) & (1ull << j)) {
1459                 tmp = int128_make64(b->VsrD(i));
1460                 tmp = int128_lshift(tmp, j);
1461                 prod[i] = int128_xor(prod[i], tmp);
1462             }
1463         }
1464     }
1465 
1466     r->s128 = int128_xor(prod[0], prod[1]);
1467 }
1468 
1469 #if HOST_BIG_ENDIAN
1470 #define PKBIG 1
1471 #else
1472 #define PKBIG 0
1473 #endif
1474 void helper_vpkpx(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1475 {
1476     int i, j;
1477     ppc_avr_t result;
1478 #if HOST_BIG_ENDIAN
1479     const ppc_avr_t *x[2] = { a, b };
1480 #else
1481     const ppc_avr_t *x[2] = { b, a };
1482 #endif
1483 
1484     VECTOR_FOR_INORDER_I(i, u64) {
1485         VECTOR_FOR_INORDER_I(j, u32) {
1486             uint32_t e = x[i]->u32[j];
1487 
1488             result.u16[4 * i + j] = (((e >> 9) & 0xfc00) |
1489                                      ((e >> 6) & 0x3e0) |
1490                                      ((e >> 3) & 0x1f));
1491         }
1492     }
1493     *r = result;
1494 }
1495 
1496 #define VPK(suffix, from, to, cvt, dosat)                               \
1497     void helper_vpk##suffix(CPUPPCState *env, ppc_avr_t *r,             \
1498                             ppc_avr_t *a, ppc_avr_t *b)                 \
1499     {                                                                   \
1500         int i;                                                          \
1501         int sat = 0;                                                    \
1502         ppc_avr_t result;                                               \
1503         ppc_avr_t *a0 = PKBIG ? a : b;                                  \
1504         ppc_avr_t *a1 = PKBIG ? b : a;                                  \
1505                                                                         \
1506         VECTOR_FOR_INORDER_I(i, from) {                                 \
1507             result.to[i] = cvt(a0->from[i], &sat);                      \
1508             result.to[i + ARRAY_SIZE(r->from)] = cvt(a1->from[i], &sat);\
1509         }                                                               \
1510         *r = result;                                                    \
1511         if (dosat && sat) {                                             \
1512             set_vscr_sat(env);                                          \
1513         }                                                               \
1514     }
1515 #define I(x, y) (x)
1516 VPK(shss, s16, s8, cvtshsb, 1)
1517 VPK(shus, s16, u8, cvtshub, 1)
1518 VPK(swss, s32, s16, cvtswsh, 1)
1519 VPK(swus, s32, u16, cvtswuh, 1)
1520 VPK(sdss, s64, s32, cvtsdsw, 1)
1521 VPK(sdus, s64, u32, cvtsduw, 1)
1522 VPK(uhus, u16, u8, cvtuhub, 1)
1523 VPK(uwus, u32, u16, cvtuwuh, 1)
1524 VPK(udus, u64, u32, cvtuduw, 1)
1525 VPK(uhum, u16, u8, I, 0)
1526 VPK(uwum, u32, u16, I, 0)
1527 VPK(udum, u64, u32, I, 0)
1528 #undef I
1529 #undef VPK
1530 #undef PKBIG
1531 
1532 void helper_vrefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1533 {
1534     int i;
1535 
1536     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1537         r->f32[i] = float32_div(float32_one, b->f32[i], &env->vec_status);
1538     }
1539 }
1540 
1541 #define VRFI(suffix, rounding)                                  \
1542     void helper_vrfi##suffix(CPUPPCState *env, ppc_avr_t *r,    \
1543                              ppc_avr_t *b)                      \
1544     {                                                           \
1545         int i;                                                  \
1546         float_status s = env->vec_status;                       \
1547                                                                 \
1548         set_float_rounding_mode(rounding, &s);                  \
1549         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {              \
1550             r->f32[i] = float32_round_to_int (b->f32[i], &s);   \
1551         }                                                       \
1552     }
1553 VRFI(n, float_round_nearest_even)
1554 VRFI(m, float_round_down)
1555 VRFI(p, float_round_up)
1556 VRFI(z, float_round_to_zero)
1557 #undef VRFI
1558 
1559 void helper_vrsqrtefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1560 {
1561     int i;
1562 
1563     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1564         float32 t = float32_sqrt(b->f32[i], &env->vec_status);
1565 
1566         r->f32[i] = float32_div(float32_one, t, &env->vec_status);
1567     }
1568 }
1569 
1570 #define VRLMI(name, size, element, insert)                                  \
1571 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t desc) \
1572 {                                                                           \
1573     int i;                                                                  \
1574     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                          \
1575         uint##size##_t src1 = a->element[i];                                \
1576         uint##size##_t src2 = b->element[i];                                \
1577         uint##size##_t src3 = r->element[i];                                \
1578         uint##size##_t begin, end, shift, mask, rot_val;                    \
1579                                                                             \
1580         shift = extract##size(src2, 0, 6);                                  \
1581         end   = extract##size(src2, 8, 6);                                  \
1582         begin = extract##size(src2, 16, 6);                                 \
1583         rot_val = rol##size(src1, shift);                                   \
1584         mask = mask_u##size(begin, end);                                    \
1585         if (insert) {                                                       \
1586             r->element[i] = (rot_val & mask) | (src3 & ~mask);              \
1587         } else {                                                            \
1588             r->element[i] = (rot_val & mask);                               \
1589         }                                                                   \
1590     }                                                                       \
1591 }
1592 
1593 VRLMI(VRLDMI, 64, u64, 1);
1594 VRLMI(VRLWMI, 32, u32, 1);
1595 VRLMI(VRLDNM, 64, u64, 0);
1596 VRLMI(VRLWNM, 32, u32, 0);
1597 
1598 void helper_vexptefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1599 {
1600     int i;
1601 
1602     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1603         r->f32[i] = float32_exp2(b->f32[i], &env->vec_status);
1604     }
1605 }
1606 
1607 void helper_vlogefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1608 {
1609     int i;
1610 
1611     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1612         r->f32[i] = float32_log2(b->f32[i], &env->vec_status);
1613     }
1614 }
1615 
1616 #define VEXTU_X_DO(name, size, left)                            \
1617 target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1618 {                                                               \
1619     int index = (a & 0xf) * 8;                                  \
1620     if (left) {                                                 \
1621         index = 128 - index - size;                             \
1622     }                                                           \
1623     return int128_getlo(int128_rshift(b->s128, index)) &        \
1624         MAKE_64BIT_MASK(0, size);                               \
1625 }
1626 VEXTU_X_DO(vextublx,  8, 1)
1627 VEXTU_X_DO(vextuhlx, 16, 1)
1628 VEXTU_X_DO(vextuwlx, 32, 1)
1629 VEXTU_X_DO(vextubrx,  8, 0)
1630 VEXTU_X_DO(vextuhrx, 16, 0)
1631 VEXTU_X_DO(vextuwrx, 32, 0)
1632 #undef VEXTU_X_DO
1633 
1634 void helper_vslv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1635 {
1636     int i;
1637     unsigned int shift, bytes, size;
1638 
1639     size = ARRAY_SIZE(r->u8);
1640     for (i = 0; i < size; i++) {
1641         shift = b->VsrB(i) & 0x7;             /* extract shift value */
1642         bytes = (a->VsrB(i) << 8) +           /* extract adjacent bytes */
1643             (((i + 1) < size) ? a->VsrB(i + 1) : 0);
1644         r->VsrB(i) = (bytes << shift) >> 8;   /* shift and store result */
1645     }
1646 }
1647 
1648 void helper_vsrv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1649 {
1650     int i;
1651     unsigned int shift, bytes;
1652 
1653     /*
1654      * Use reverse order, as destination and source register can be
1655      * same. Its being modified in place saving temporary, reverse
1656      * order will guarantee that computed result is not fed back.
1657      */
1658     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
1659         shift = b->VsrB(i) & 0x7;               /* extract shift value */
1660         bytes = ((i ? a->VsrB(i - 1) : 0) << 8) + a->VsrB(i);
1661                                                 /* extract adjacent bytes */
1662         r->VsrB(i) = (bytes >> shift) & 0xFF;   /* shift and store result */
1663     }
1664 }
1665 
1666 void helper_vsldoi(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t shift)
1667 {
1668     int sh = shift & 0xf;
1669     int i;
1670     ppc_avr_t result;
1671 
1672     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1673         int index = sh + i;
1674         if (index > 0xf) {
1675             result.VsrB(i) = b->VsrB(index - 0x10);
1676         } else {
1677             result.VsrB(i) = a->VsrB(index);
1678         }
1679     }
1680     *r = result;
1681 }
1682 
1683 void helper_vslo(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1684 {
1685     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1686 
1687 #if HOST_BIG_ENDIAN
1688     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1689     memset(&r->u8[16 - sh], 0, sh);
1690 #else
1691     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1692     memset(&r->u8[0], 0, sh);
1693 #endif
1694 }
1695 
1696 #if HOST_BIG_ENDIAN
1697 #define ELEM_ADDR(VEC, IDX, SIZE) (&(VEC)->u8[IDX])
1698 #else
1699 #define ELEM_ADDR(VEC, IDX, SIZE) (&(VEC)->u8[15 - (IDX)] - (SIZE) + 1)
1700 #endif
1701 
1702 #define VINSX(SUFFIX, TYPE) \
1703 void glue(glue(helper_VINS, SUFFIX), LX)(CPUPPCState *env, ppc_avr_t *t,       \
1704                                          uint64_t val, target_ulong index)     \
1705 {                                                                              \
1706     const int maxidx = ARRAY_SIZE(t->u8) - sizeof(TYPE);                       \
1707     target_long idx = index;                                                   \
1708                                                                                \
1709     if (idx < 0 || idx > maxidx) {                                             \
1710         idx =  idx < 0 ? sizeof(TYPE) - idx : idx;                             \
1711         qemu_log_mask(LOG_GUEST_ERROR,                                         \
1712             "Invalid index for Vector Insert Element after 0x" TARGET_FMT_lx   \
1713             ", RA = " TARGET_FMT_ld " > %d\n", env->nip, idx, maxidx);         \
1714     } else {                                                                   \
1715         TYPE src = val;                                                        \
1716         memcpy(ELEM_ADDR(t, idx, sizeof(TYPE)), &src, sizeof(TYPE));           \
1717     }                                                                          \
1718 }
1719 VINSX(B, uint8_t)
1720 VINSX(H, uint16_t)
1721 VINSX(W, uint32_t)
1722 VINSX(D, uint64_t)
1723 #undef ELEM_ADDR
1724 #undef VINSX
1725 #if HOST_BIG_ENDIAN
1726 #define VEXTDVLX(NAME, SIZE) \
1727 void helper_##NAME(CPUPPCState *env, ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, \
1728                    target_ulong index)                                         \
1729 {                                                                              \
1730     const target_long idx = index;                                             \
1731     ppc_avr_t tmp[2] = { *a, *b };                                             \
1732     memset(t, 0, sizeof(*t));                                                  \
1733     if (idx >= 0 && idx + SIZE <= sizeof(tmp)) {                               \
1734         memcpy(&t->u8[ARRAY_SIZE(t->u8) / 2 - SIZE], (void *)tmp + idx, SIZE); \
1735     } else {                                                                   \
1736         qemu_log_mask(LOG_GUEST_ERROR, "Invalid index for " #NAME " after 0x"  \
1737                       TARGET_FMT_lx ", RC = " TARGET_FMT_ld " > %d\n",         \
1738                       env->nip, idx < 0 ? SIZE - idx : idx, 32 - SIZE);        \
1739     }                                                                          \
1740 }
1741 #else
1742 #define VEXTDVLX(NAME, SIZE) \
1743 void helper_##NAME(CPUPPCState *env, ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, \
1744                    target_ulong index)                                         \
1745 {                                                                              \
1746     const target_long idx = index;                                             \
1747     ppc_avr_t tmp[2] = { *b, *a };                                             \
1748     memset(t, 0, sizeof(*t));                                                  \
1749     if (idx >= 0 && idx + SIZE <= sizeof(tmp)) {                               \
1750         memcpy(&t->u8[ARRAY_SIZE(t->u8) / 2],                                  \
1751                (void *)tmp + sizeof(tmp) - SIZE - idx, SIZE);                  \
1752     } else {                                                                   \
1753         qemu_log_mask(LOG_GUEST_ERROR, "Invalid index for " #NAME " after 0x"  \
1754                       TARGET_FMT_lx ", RC = " TARGET_FMT_ld " > %d\n",         \
1755                       env->nip, idx < 0 ? SIZE - idx : idx, 32 - SIZE);        \
1756     }                                                                          \
1757 }
1758 #endif
1759 VEXTDVLX(VEXTDUBVLX, 1)
1760 VEXTDVLX(VEXTDUHVLX, 2)
1761 VEXTDVLX(VEXTDUWVLX, 4)
1762 VEXTDVLX(VEXTDDVLX, 8)
1763 #undef VEXTDVLX
1764 #if HOST_BIG_ENDIAN
1765 #define VEXTRACT(suffix, element)                                            \
1766     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1767     {                                                                        \
1768         uint32_t es = sizeof(r->element[0]);                                 \
1769         memmove(&r->u8[8 - es], &b->u8[index], es);                          \
1770         memset(&r->u8[8], 0, 8);                                             \
1771         memset(&r->u8[0], 0, 8 - es);                                        \
1772     }
1773 #else
1774 #define VEXTRACT(suffix, element)                                            \
1775     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1776     {                                                                        \
1777         uint32_t es = sizeof(r->element[0]);                                 \
1778         uint32_t s = (16 - index) - es;                                      \
1779         memmove(&r->u8[8], &b->u8[s], es);                                   \
1780         memset(&r->u8[0], 0, 8);                                             \
1781         memset(&r->u8[8 + es], 0, 8 - es);                                   \
1782     }
1783 #endif
1784 VEXTRACT(ub, u8)
1785 VEXTRACT(uh, u16)
1786 VEXTRACT(uw, u32)
1787 VEXTRACT(d, u64)
1788 #undef VEXTRACT
1789 
1790 #define VSTRI(NAME, ELEM, NUM_ELEMS, LEFT) \
1791 uint32_t helper_##NAME(ppc_avr_t *t, ppc_avr_t *b) \
1792 {                                                   \
1793     int i, idx, crf = 0;                            \
1794                                                     \
1795     for (i = 0; i < NUM_ELEMS; i++) {               \
1796         idx = LEFT ? i : NUM_ELEMS - i - 1;         \
1797         if (b->Vsr##ELEM(idx)) {                    \
1798             t->Vsr##ELEM(idx) = b->Vsr##ELEM(idx);  \
1799         } else {                                    \
1800             crf = 0b0010;                           \
1801             break;                                  \
1802         }                                           \
1803     }                                               \
1804                                                     \
1805     for (; i < NUM_ELEMS; i++) {                    \
1806         idx = LEFT ? i : NUM_ELEMS - i - 1;         \
1807         t->Vsr##ELEM(idx) = 0;                      \
1808     }                                               \
1809                                                     \
1810     return crf;                                     \
1811 }
1812 VSTRI(VSTRIBL, B, 16, true)
1813 VSTRI(VSTRIBR, B, 16, false)
1814 VSTRI(VSTRIHL, H, 8, true)
1815 VSTRI(VSTRIHR, H, 8, false)
1816 #undef VSTRI
1817 
1818 void helper_XXEXTRACTUW(ppc_vsr_t *xt, ppc_vsr_t *xb, uint32_t index)
1819 {
1820     ppc_vsr_t t = { };
1821     size_t es = sizeof(uint32_t);
1822     uint32_t ext_index;
1823     int i;
1824 
1825     ext_index = index;
1826     for (i = 0; i < es; i++, ext_index++) {
1827         t.VsrB(8 - es + i) = xb->VsrB(ext_index % 16);
1828     }
1829 
1830     *xt = t;
1831 }
1832 
1833 void helper_XXINSERTW(ppc_vsr_t *xt, ppc_vsr_t *xb, uint32_t index)
1834 {
1835     ppc_vsr_t t = *xt;
1836     size_t es = sizeof(uint32_t);
1837     int ins_index, i = 0;
1838 
1839     ins_index = index;
1840     for (i = 0; i < es && ins_index < 16; i++, ins_index++) {
1841         t.VsrB(ins_index) = xb->VsrB(8 - es + i);
1842     }
1843 
1844     *xt = t;
1845 }
1846 
1847 void helper_XXEVAL(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c,
1848                    uint32_t desc)
1849 {
1850     /*
1851      * Instead of processing imm bit-by-bit, we'll skip the computation of
1852      * conjunctions whose corresponding bit is unset.
1853      */
1854     int bit, imm = simd_data(desc);
1855     Int128 conj, disj = int128_zero();
1856 
1857     /* Iterate over set bits from the least to the most significant bit */
1858     while (imm) {
1859         /*
1860          * Get the next bit to be processed with ctz64. Invert the result of
1861          * ctz64 to match the indexing used by PowerISA.
1862          */
1863         bit = 7 - ctzl(imm);
1864         if (bit & 0x4) {
1865             conj = a->s128;
1866         } else {
1867             conj = int128_not(a->s128);
1868         }
1869         if (bit & 0x2) {
1870             conj = int128_and(conj, b->s128);
1871         } else {
1872             conj = int128_and(conj, int128_not(b->s128));
1873         }
1874         if (bit & 0x1) {
1875             conj = int128_and(conj, c->s128);
1876         } else {
1877             conj = int128_and(conj, int128_not(c->s128));
1878         }
1879         disj = int128_or(disj, conj);
1880 
1881         /* Unset the least significant bit that is set */
1882         imm &= imm - 1;
1883     }
1884 
1885     t->s128 = disj;
1886 }
1887 
1888 #define XXBLEND(name, sz) \
1889 void glue(helper_XXBLENDV, name)(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b,  \
1890                                  ppc_avr_t *c, uint32_t desc)               \
1891 {                                                                           \
1892     for (int i = 0; i < ARRAY_SIZE(t->glue(u, sz)); i++) {                  \
1893         t->glue(u, sz)[i] = (c->glue(s, sz)[i] >> (sz - 1)) ?               \
1894             b->glue(u, sz)[i] : a->glue(u, sz)[i];                          \
1895     }                                                                       \
1896 }
1897 XXBLEND(B, 8)
1898 XXBLEND(H, 16)
1899 XXBLEND(W, 32)
1900 XXBLEND(D, 64)
1901 #undef XXBLEND
1902 
1903 void helper_vsro(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1904 {
1905     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1906 
1907 #if HOST_BIG_ENDIAN
1908     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1909     memset(&r->u8[0], 0, sh);
1910 #else
1911     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1912     memset(&r->u8[16 - sh], 0, sh);
1913 #endif
1914 }
1915 
1916 void helper_vsumsws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1917 {
1918     int64_t t;
1919     int i, upper;
1920     ppc_avr_t result;
1921     int sat = 0;
1922 
1923     upper = ARRAY_SIZE(r->s32) - 1;
1924     t = (int64_t)b->VsrSW(upper);
1925     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1926         t += a->VsrSW(i);
1927         result.VsrSW(i) = 0;
1928     }
1929     result.VsrSW(upper) = cvtsdsw(t, &sat);
1930     *r = result;
1931 
1932     if (sat) {
1933         set_vscr_sat(env);
1934     }
1935 }
1936 
1937 void helper_vsum2sws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1938 {
1939     int i, j, upper;
1940     ppc_avr_t result;
1941     int sat = 0;
1942 
1943     upper = 1;
1944     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
1945         int64_t t = (int64_t)b->VsrSW(upper + i * 2);
1946 
1947         result.VsrD(i) = 0;
1948         for (j = 0; j < ARRAY_SIZE(r->u64); j++) {
1949             t += a->VsrSW(2 * i + j);
1950         }
1951         result.VsrSW(upper + i * 2) = cvtsdsw(t, &sat);
1952     }
1953 
1954     *r = result;
1955     if (sat) {
1956         set_vscr_sat(env);
1957     }
1958 }
1959 
1960 void helper_vsum4sbs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1961 {
1962     int i, j;
1963     int sat = 0;
1964 
1965     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1966         int64_t t = (int64_t)b->s32[i];
1967 
1968         for (j = 0; j < ARRAY_SIZE(r->s32); j++) {
1969             t += a->s8[4 * i + j];
1970         }
1971         r->s32[i] = cvtsdsw(t, &sat);
1972     }
1973 
1974     if (sat) {
1975         set_vscr_sat(env);
1976     }
1977 }
1978 
1979 void helper_vsum4shs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1980 {
1981     int sat = 0;
1982     int i;
1983 
1984     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1985         int64_t t = (int64_t)b->s32[i];
1986 
1987         t += a->s16[2 * i] + a->s16[2 * i + 1];
1988         r->s32[i] = cvtsdsw(t, &sat);
1989     }
1990 
1991     if (sat) {
1992         set_vscr_sat(env);
1993     }
1994 }
1995 
1996 void helper_vsum4ubs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1997 {
1998     int i, j;
1999     int sat = 0;
2000 
2001     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
2002         uint64_t t = (uint64_t)b->u32[i];
2003 
2004         for (j = 0; j < ARRAY_SIZE(r->u32); j++) {
2005             t += a->u8[4 * i + j];
2006         }
2007         r->u32[i] = cvtuduw(t, &sat);
2008     }
2009 
2010     if (sat) {
2011         set_vscr_sat(env);
2012     }
2013 }
2014 
2015 #if HOST_BIG_ENDIAN
2016 #define UPKHI 1
2017 #define UPKLO 0
2018 #else
2019 #define UPKHI 0
2020 #define UPKLO 1
2021 #endif
2022 #define VUPKPX(suffix, hi)                                              \
2023     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
2024     {                                                                   \
2025         int i;                                                          \
2026         ppc_avr_t result;                                               \
2027                                                                         \
2028         for (i = 0; i < ARRAY_SIZE(r->u32); i++) {                      \
2029             uint16_t e = b->u16[hi ? i : i + 4];                        \
2030             uint8_t a = (e >> 15) ? 0xff : 0;                           \
2031             uint8_t r = (e >> 10) & 0x1f;                               \
2032             uint8_t g = (e >> 5) & 0x1f;                                \
2033             uint8_t b = e & 0x1f;                                       \
2034                                                                         \
2035             result.u32[i] = (a << 24) | (r << 16) | (g << 8) | b;       \
2036         }                                                               \
2037         *r = result;                                                    \
2038     }
2039 VUPKPX(lpx, UPKLO)
2040 VUPKPX(hpx, UPKHI)
2041 #undef VUPKPX
2042 
2043 #define VUPK(suffix, unpacked, packee, hi)                              \
2044     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
2045     {                                                                   \
2046         int i;                                                          \
2047         ppc_avr_t result;                                               \
2048                                                                         \
2049         if (hi) {                                                       \
2050             for (i = 0; i < ARRAY_SIZE(r->unpacked); i++) {             \
2051                 result.unpacked[i] = b->packee[i];                      \
2052             }                                                           \
2053         } else {                                                        \
2054             for (i = ARRAY_SIZE(r->unpacked); i < ARRAY_SIZE(r->packee); \
2055                  i++) {                                                 \
2056                 result.unpacked[i - ARRAY_SIZE(r->unpacked)] = b->packee[i]; \
2057             }                                                           \
2058         }                                                               \
2059         *r = result;                                                    \
2060     }
2061 VUPK(hsb, s16, s8, UPKHI)
2062 VUPK(hsh, s32, s16, UPKHI)
2063 VUPK(hsw, s64, s32, UPKHI)
2064 VUPK(lsb, s16, s8, UPKLO)
2065 VUPK(lsh, s32, s16, UPKLO)
2066 VUPK(lsw, s64, s32, UPKLO)
2067 #undef VUPK
2068 #undef UPKHI
2069 #undef UPKLO
2070 
2071 #define VGENERIC_DO(name, element)                                      \
2072     void helper_v##name(ppc_avr_t *r, ppc_avr_t *b)                     \
2073     {                                                                   \
2074         int i;                                                          \
2075                                                                         \
2076         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
2077             r->element[i] = name(b->element[i]);                        \
2078         }                                                               \
2079     }
2080 
2081 #define clzb(v) ((v) ? clz32((uint32_t)(v) << 24) : 8)
2082 #define clzh(v) ((v) ? clz32((uint32_t)(v) << 16) : 16)
2083 
2084 VGENERIC_DO(clzb, u8)
2085 VGENERIC_DO(clzh, u16)
2086 
2087 #undef clzb
2088 #undef clzh
2089 
2090 #define ctzb(v) ((v) ? ctz32(v) : 8)
2091 #define ctzh(v) ((v) ? ctz32(v) : 16)
2092 #define ctzw(v) ctz32((v))
2093 #define ctzd(v) ctz64((v))
2094 
2095 VGENERIC_DO(ctzb, u8)
2096 VGENERIC_DO(ctzh, u16)
2097 VGENERIC_DO(ctzw, u32)
2098 VGENERIC_DO(ctzd, u64)
2099 
2100 #undef ctzb
2101 #undef ctzh
2102 #undef ctzw
2103 #undef ctzd
2104 
2105 #define popcntb(v) ctpop8(v)
2106 #define popcnth(v) ctpop16(v)
2107 #define popcntw(v) ctpop32(v)
2108 #define popcntd(v) ctpop64(v)
2109 
2110 VGENERIC_DO(popcntb, u8)
2111 VGENERIC_DO(popcnth, u16)
2112 VGENERIC_DO(popcntw, u32)
2113 VGENERIC_DO(popcntd, u64)
2114 
2115 #undef popcntb
2116 #undef popcnth
2117 #undef popcntw
2118 #undef popcntd
2119 
2120 #undef VGENERIC_DO
2121 
2122 void helper_VADDUQM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2123 {
2124     r->s128 = int128_add(a->s128, b->s128);
2125 }
2126 
2127 void helper_VADDEUQM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2128 {
2129     r->s128 = int128_add(int128_add(a->s128, b->s128),
2130                          int128_make64(int128_getlo(c->s128) & 1));
2131 }
2132 
2133 void helper_VADDCUQ(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2134 {
2135     r->VsrD(1) = int128_ult(int128_not(a->s128), b->s128);
2136     r->VsrD(0) = 0;
2137 }
2138 
2139 void helper_VADDECUQ(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2140 {
2141     bool carry_out = int128_ult(int128_not(a->s128), b->s128),
2142          carry_in = int128_getlo(c->s128) & 1;
2143 
2144     if (!carry_out && carry_in) {
2145         carry_out = (int128_nz(a->s128) || int128_nz(b->s128)) &&
2146                     int128_eq(int128_add(a->s128, b->s128), int128_makes64(-1));
2147     }
2148 
2149     r->VsrD(0) = 0;
2150     r->VsrD(1) = carry_out;
2151 }
2152 
2153 void helper_VSUBUQM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2154 {
2155     r->s128 = int128_sub(a->s128, b->s128);
2156 }
2157 
2158 void helper_VSUBEUQM(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2159 {
2160     r->s128 = int128_add(int128_add(a->s128, int128_not(b->s128)),
2161                          int128_make64(int128_getlo(c->s128) & 1));
2162 }
2163 
2164 void helper_VSUBCUQ(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2165 {
2166     Int128 tmp = int128_not(b->s128);
2167 
2168     r->VsrD(1) = int128_ult(int128_not(a->s128), tmp) ||
2169                  int128_eq(int128_add(a->s128, tmp), int128_makes64(-1));
2170     r->VsrD(0) = 0;
2171 }
2172 
2173 void helper_VSUBECUQ(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2174 {
2175     Int128 tmp = int128_not(b->s128);
2176     bool carry_out = int128_ult(int128_not(a->s128), tmp),
2177          carry_in = int128_getlo(c->s128) & 1;
2178 
2179     r->VsrD(1) = carry_out || (carry_in && int128_eq(int128_add(a->s128, tmp),
2180                                                      int128_makes64(-1)));
2181     r->VsrD(0) = 0;
2182 }
2183 
2184 #define BCD_PLUS_PREF_1 0xC
2185 #define BCD_PLUS_PREF_2 0xF
2186 #define BCD_PLUS_ALT_1  0xA
2187 #define BCD_NEG_PREF    0xD
2188 #define BCD_NEG_ALT     0xB
2189 #define BCD_PLUS_ALT_2  0xE
2190 #define NATIONAL_PLUS   0x2B
2191 #define NATIONAL_NEG    0x2D
2192 
2193 #define BCD_DIG_BYTE(n) (15 - ((n) / 2))
2194 
2195 static int bcd_get_sgn(ppc_avr_t *bcd)
2196 {
2197     switch (bcd->VsrB(BCD_DIG_BYTE(0)) & 0xF) {
2198     case BCD_PLUS_PREF_1:
2199     case BCD_PLUS_PREF_2:
2200     case BCD_PLUS_ALT_1:
2201     case BCD_PLUS_ALT_2:
2202     {
2203         return 1;
2204     }
2205 
2206     case BCD_NEG_PREF:
2207     case BCD_NEG_ALT:
2208     {
2209         return -1;
2210     }
2211 
2212     default:
2213     {
2214         return 0;
2215     }
2216     }
2217 }
2218 
2219 static int bcd_preferred_sgn(int sgn, int ps)
2220 {
2221     if (sgn >= 0) {
2222         return (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2;
2223     } else {
2224         return BCD_NEG_PREF;
2225     }
2226 }
2227 
2228 static uint8_t bcd_get_digit(ppc_avr_t *bcd, int n, int *invalid)
2229 {
2230     uint8_t result;
2231     if (n & 1) {
2232         result = bcd->VsrB(BCD_DIG_BYTE(n)) >> 4;
2233     } else {
2234        result = bcd->VsrB(BCD_DIG_BYTE(n)) & 0xF;
2235     }
2236 
2237     if (unlikely(result > 9)) {
2238         *invalid = true;
2239     }
2240     return result;
2241 }
2242 
2243 static void bcd_put_digit(ppc_avr_t *bcd, uint8_t digit, int n)
2244 {
2245     if (n & 1) {
2246         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0x0F;
2247         bcd->VsrB(BCD_DIG_BYTE(n)) |= (digit << 4);
2248     } else {
2249         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0xF0;
2250         bcd->VsrB(BCD_DIG_BYTE(n)) |= digit;
2251     }
2252 }
2253 
2254 static bool bcd_is_valid(ppc_avr_t *bcd)
2255 {
2256     int i;
2257     int invalid = 0;
2258 
2259     if (bcd_get_sgn(bcd) == 0) {
2260         return false;
2261     }
2262 
2263     for (i = 1; i < 32; i++) {
2264         bcd_get_digit(bcd, i, &invalid);
2265         if (unlikely(invalid)) {
2266             return false;
2267         }
2268     }
2269     return true;
2270 }
2271 
2272 static int bcd_cmp_zero(ppc_avr_t *bcd)
2273 {
2274     if (bcd->VsrD(0) == 0 && (bcd->VsrD(1) >> 4) == 0) {
2275         return CRF_EQ;
2276     } else {
2277         return (bcd_get_sgn(bcd) == 1) ? CRF_GT : CRF_LT;
2278     }
2279 }
2280 
2281 static uint16_t get_national_digit(ppc_avr_t *reg, int n)
2282 {
2283     return reg->VsrH(7 - n);
2284 }
2285 
2286 static void set_national_digit(ppc_avr_t *reg, uint8_t val, int n)
2287 {
2288     reg->VsrH(7 - n) = val;
2289 }
2290 
2291 static int bcd_cmp_mag(ppc_avr_t *a, ppc_avr_t *b)
2292 {
2293     int i;
2294     int invalid = 0;
2295     for (i = 31; i > 0; i--) {
2296         uint8_t dig_a = bcd_get_digit(a, i, &invalid);
2297         uint8_t dig_b = bcd_get_digit(b, i, &invalid);
2298         if (unlikely(invalid)) {
2299             return 0; /* doesn't matter */
2300         } else if (dig_a > dig_b) {
2301             return 1;
2302         } else if (dig_a < dig_b) {
2303             return -1;
2304         }
2305     }
2306 
2307     return 0;
2308 }
2309 
2310 static int bcd_add_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2311                        int *overflow)
2312 {
2313     int carry = 0;
2314     int i;
2315     int is_zero = 1;
2316 
2317     for (i = 1; i <= 31; i++) {
2318         uint8_t digit = bcd_get_digit(a, i, invalid) +
2319                         bcd_get_digit(b, i, invalid) + carry;
2320         is_zero &= (digit == 0);
2321         if (digit > 9) {
2322             carry = 1;
2323             digit -= 10;
2324         } else {
2325             carry = 0;
2326         }
2327 
2328         bcd_put_digit(t, digit, i);
2329     }
2330 
2331     *overflow = carry;
2332     return is_zero;
2333 }
2334 
2335 static void bcd_sub_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2336                        int *overflow)
2337 {
2338     int carry = 0;
2339     int i;
2340 
2341     for (i = 1; i <= 31; i++) {
2342         uint8_t digit = bcd_get_digit(a, i, invalid) -
2343                         bcd_get_digit(b, i, invalid) + carry;
2344         if (digit & 0x80) {
2345             carry = -1;
2346             digit += 10;
2347         } else {
2348             carry = 0;
2349         }
2350 
2351         bcd_put_digit(t, digit, i);
2352     }
2353 
2354     *overflow = carry;
2355 }
2356 
2357 uint32_t helper_bcdadd(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2358 {
2359 
2360     int sgna = bcd_get_sgn(a);
2361     int sgnb = bcd_get_sgn(b);
2362     int invalid = (sgna == 0) || (sgnb == 0);
2363     int overflow = 0;
2364     int zero = 0;
2365     uint32_t cr = 0;
2366     ppc_avr_t result = { .u64 = { 0, 0 } };
2367 
2368     if (!invalid) {
2369         if (sgna == sgnb) {
2370             result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2371             zero = bcd_add_mag(&result, a, b, &invalid, &overflow);
2372             cr = (sgna > 0) ? CRF_GT : CRF_LT;
2373         } else {
2374             int magnitude = bcd_cmp_mag(a, b);
2375             if (magnitude > 0) {
2376                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2377                 bcd_sub_mag(&result, a, b, &invalid, &overflow);
2378                 cr = (sgna > 0) ? CRF_GT : CRF_LT;
2379             } else if (magnitude < 0) {
2380                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgnb, ps);
2381                 bcd_sub_mag(&result, b, a, &invalid, &overflow);
2382                 cr = (sgnb > 0) ? CRF_GT : CRF_LT;
2383             } else {
2384                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(0, ps);
2385                 cr = CRF_EQ;
2386             }
2387         }
2388     }
2389 
2390     if (unlikely(invalid)) {
2391         result.VsrD(0) = result.VsrD(1) = -1;
2392         cr = CRF_SO;
2393     } else if (overflow) {
2394         cr |= CRF_SO;
2395     } else if (zero) {
2396         cr |= CRF_EQ;
2397     }
2398 
2399     *r = result;
2400 
2401     return cr;
2402 }
2403 
2404 uint32_t helper_bcdsub(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2405 {
2406     ppc_avr_t bcopy = *b;
2407     int sgnb = bcd_get_sgn(b);
2408     if (sgnb < 0) {
2409         bcd_put_digit(&bcopy, BCD_PLUS_PREF_1, 0);
2410     } else if (sgnb > 0) {
2411         bcd_put_digit(&bcopy, BCD_NEG_PREF, 0);
2412     }
2413     /* else invalid ... defer to bcdadd code for proper handling */
2414 
2415     return helper_bcdadd(r, a, &bcopy, ps);
2416 }
2417 
2418 uint32_t helper_bcdcfn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2419 {
2420     int i;
2421     int cr = 0;
2422     uint16_t national = 0;
2423     uint16_t sgnb = get_national_digit(b, 0);
2424     ppc_avr_t ret = { .u64 = { 0, 0 } };
2425     int invalid = (sgnb != NATIONAL_PLUS && sgnb != NATIONAL_NEG);
2426 
2427     for (i = 1; i < 8; i++) {
2428         national = get_national_digit(b, i);
2429         if (unlikely(national < 0x30 || national > 0x39)) {
2430             invalid = 1;
2431             break;
2432         }
2433 
2434         bcd_put_digit(&ret, national & 0xf, i);
2435     }
2436 
2437     if (sgnb == NATIONAL_PLUS) {
2438         bcd_put_digit(&ret, (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2, 0);
2439     } else {
2440         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2441     }
2442 
2443     cr = bcd_cmp_zero(&ret);
2444 
2445     if (unlikely(invalid)) {
2446         cr = CRF_SO;
2447     }
2448 
2449     *r = ret;
2450 
2451     return cr;
2452 }
2453 
2454 uint32_t helper_bcdctn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2455 {
2456     int i;
2457     int cr = 0;
2458     int sgnb = bcd_get_sgn(b);
2459     int invalid = (sgnb == 0);
2460     ppc_avr_t ret = { .u64 = { 0, 0 } };
2461 
2462     int ox_flag = (b->VsrD(0) != 0) || ((b->VsrD(1) >> 32) != 0);
2463 
2464     for (i = 1; i < 8; i++) {
2465         set_national_digit(&ret, 0x30 + bcd_get_digit(b, i, &invalid), i);
2466 
2467         if (unlikely(invalid)) {
2468             break;
2469         }
2470     }
2471     set_national_digit(&ret, (sgnb == -1) ? NATIONAL_NEG : NATIONAL_PLUS, 0);
2472 
2473     cr = bcd_cmp_zero(b);
2474 
2475     if (ox_flag) {
2476         cr |= CRF_SO;
2477     }
2478 
2479     if (unlikely(invalid)) {
2480         cr = CRF_SO;
2481     }
2482 
2483     *r = ret;
2484 
2485     return cr;
2486 }
2487 
2488 uint32_t helper_bcdcfz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2489 {
2490     int i;
2491     int cr = 0;
2492     int invalid = 0;
2493     int zone_digit = 0;
2494     int zone_lead = ps ? 0xF : 0x3;
2495     int digit = 0;
2496     ppc_avr_t ret = { .u64 = { 0, 0 } };
2497     int sgnb = b->VsrB(BCD_DIG_BYTE(0)) >> 4;
2498 
2499     if (unlikely((sgnb < 0xA) && ps)) {
2500         invalid = 1;
2501     }
2502 
2503     for (i = 0; i < 16; i++) {
2504         zone_digit = i ? b->VsrB(BCD_DIG_BYTE(i * 2)) >> 4 : zone_lead;
2505         digit = b->VsrB(BCD_DIG_BYTE(i * 2)) & 0xF;
2506         if (unlikely(zone_digit != zone_lead || digit > 0x9)) {
2507             invalid = 1;
2508             break;
2509         }
2510 
2511         bcd_put_digit(&ret, digit, i + 1);
2512     }
2513 
2514     if ((ps && (sgnb == 0xB || sgnb == 0xD)) ||
2515             (!ps && (sgnb & 0x4))) {
2516         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2517     } else {
2518         bcd_put_digit(&ret, BCD_PLUS_PREF_1, 0);
2519     }
2520 
2521     cr = bcd_cmp_zero(&ret);
2522 
2523     if (unlikely(invalid)) {
2524         cr = CRF_SO;
2525     }
2526 
2527     *r = ret;
2528 
2529     return cr;
2530 }
2531 
2532 uint32_t helper_bcdctz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2533 {
2534     int i;
2535     int cr = 0;
2536     uint8_t digit = 0;
2537     int sgnb = bcd_get_sgn(b);
2538     int zone_lead = (ps) ? 0xF0 : 0x30;
2539     int invalid = (sgnb == 0);
2540     ppc_avr_t ret = { .u64 = { 0, 0 } };
2541 
2542     int ox_flag = ((b->VsrD(0) >> 4) != 0);
2543 
2544     for (i = 0; i < 16; i++) {
2545         digit = bcd_get_digit(b, i + 1, &invalid);
2546 
2547         if (unlikely(invalid)) {
2548             break;
2549         }
2550 
2551         ret.VsrB(BCD_DIG_BYTE(i * 2)) = zone_lead + digit;
2552     }
2553 
2554     if (ps) {
2555         bcd_put_digit(&ret, (sgnb == 1) ? 0xC : 0xD, 1);
2556     } else {
2557         bcd_put_digit(&ret, (sgnb == 1) ? 0x3 : 0x7, 1);
2558     }
2559 
2560     cr = bcd_cmp_zero(b);
2561 
2562     if (ox_flag) {
2563         cr |= CRF_SO;
2564     }
2565 
2566     if (unlikely(invalid)) {
2567         cr = CRF_SO;
2568     }
2569 
2570     *r = ret;
2571 
2572     return cr;
2573 }
2574 
2575 /**
2576  * Compare 2 128-bit unsigned integers, passed in as unsigned 64-bit pairs
2577  *
2578  * Returns:
2579  * > 0 if ahi|alo > bhi|blo,
2580  * 0 if ahi|alo == bhi|blo,
2581  * < 0 if ahi|alo < bhi|blo
2582  */
2583 static inline int ucmp128(uint64_t alo, uint64_t ahi,
2584                           uint64_t blo, uint64_t bhi)
2585 {
2586     return (ahi == bhi) ?
2587         (alo > blo ? 1 : (alo == blo ? 0 : -1)) :
2588         (ahi > bhi ? 1 : -1);
2589 }
2590 
2591 uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2592 {
2593     int i;
2594     int cr;
2595     uint64_t lo_value;
2596     uint64_t hi_value;
2597     uint64_t rem;
2598     ppc_avr_t ret = { .u64 = { 0, 0 } };
2599 
2600     if (b->VsrSD(0) < 0) {
2601         lo_value = -b->VsrSD(1);
2602         hi_value = ~b->VsrD(0) + !lo_value;
2603         bcd_put_digit(&ret, 0xD, 0);
2604 
2605         cr = CRF_LT;
2606     } else {
2607         lo_value = b->VsrD(1);
2608         hi_value = b->VsrD(0);
2609         bcd_put_digit(&ret, bcd_preferred_sgn(0, ps), 0);
2610 
2611         if (hi_value == 0 && lo_value == 0) {
2612             cr = CRF_EQ;
2613         } else {
2614             cr = CRF_GT;
2615         }
2616     }
2617 
2618     /*
2619      * Check src limits: abs(src) <= 10^31 - 1
2620      *
2621      * 10^31 - 1 = 0x0000007e37be2022 c0914b267fffffff
2622      */
2623     if (ucmp128(lo_value, hi_value,
2624                 0xc0914b267fffffffULL, 0x7e37be2022ULL) > 0) {
2625         cr |= CRF_SO;
2626 
2627         /*
2628          * According to the ISA, if src wouldn't fit in the destination
2629          * register, the result is undefined.
2630          * In that case, we leave r unchanged.
2631          */
2632     } else {
2633         rem = divu128(&lo_value, &hi_value, 1000000000000000ULL);
2634 
2635         for (i = 1; i < 16; rem /= 10, i++) {
2636             bcd_put_digit(&ret, rem % 10, i);
2637         }
2638 
2639         for (; i < 32; lo_value /= 10, i++) {
2640             bcd_put_digit(&ret, lo_value % 10, i);
2641         }
2642 
2643         *r = ret;
2644     }
2645 
2646     return cr;
2647 }
2648 
2649 uint32_t helper_bcdctsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2650 {
2651     uint8_t i;
2652     int cr;
2653     uint64_t carry;
2654     uint64_t unused;
2655     uint64_t lo_value;
2656     uint64_t hi_value = 0;
2657     int sgnb = bcd_get_sgn(b);
2658     int invalid = (sgnb == 0);
2659 
2660     lo_value = bcd_get_digit(b, 31, &invalid);
2661     for (i = 30; i > 0; i--) {
2662         mulu64(&lo_value, &carry, lo_value, 10ULL);
2663         mulu64(&hi_value, &unused, hi_value, 10ULL);
2664         lo_value += bcd_get_digit(b, i, &invalid);
2665         hi_value += carry;
2666 
2667         if (unlikely(invalid)) {
2668             break;
2669         }
2670     }
2671 
2672     if (sgnb == -1) {
2673         r->VsrSD(1) = -lo_value;
2674         r->VsrSD(0) = ~hi_value + !r->VsrSD(1);
2675     } else {
2676         r->VsrSD(1) = lo_value;
2677         r->VsrSD(0) = hi_value;
2678     }
2679 
2680     cr = bcd_cmp_zero(b);
2681 
2682     if (unlikely(invalid)) {
2683         cr = CRF_SO;
2684     }
2685 
2686     return cr;
2687 }
2688 
2689 uint32_t helper_bcdcpsgn(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2690 {
2691     int i;
2692     int invalid = 0;
2693 
2694     if (bcd_get_sgn(a) == 0 || bcd_get_sgn(b) == 0) {
2695         return CRF_SO;
2696     }
2697 
2698     *r = *a;
2699     bcd_put_digit(r, b->VsrB(BCD_DIG_BYTE(0)) & 0xF, 0);
2700 
2701     for (i = 1; i < 32; i++) {
2702         bcd_get_digit(a, i, &invalid);
2703         bcd_get_digit(b, i, &invalid);
2704         if (unlikely(invalid)) {
2705             return CRF_SO;
2706         }
2707     }
2708 
2709     return bcd_cmp_zero(r);
2710 }
2711 
2712 uint32_t helper_bcdsetsgn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2713 {
2714     int sgnb = bcd_get_sgn(b);
2715 
2716     *r = *b;
2717     bcd_put_digit(r, bcd_preferred_sgn(sgnb, ps), 0);
2718 
2719     if (bcd_is_valid(b) == false) {
2720         return CRF_SO;
2721     }
2722 
2723     return bcd_cmp_zero(r);
2724 }
2725 
2726 uint32_t helper_bcds(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2727 {
2728     int cr;
2729     int i = a->VsrSB(7);
2730     bool ox_flag = false;
2731     int sgnb = bcd_get_sgn(b);
2732     ppc_avr_t ret = *b;
2733     ret.VsrD(1) &= ~0xf;
2734 
2735     if (bcd_is_valid(b) == false) {
2736         return CRF_SO;
2737     }
2738 
2739     if (unlikely(i > 31)) {
2740         i = 31;
2741     } else if (unlikely(i < -31)) {
2742         i = -31;
2743     }
2744 
2745     if (i > 0) {
2746         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2747     } else {
2748         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2749     }
2750     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2751 
2752     *r = ret;
2753 
2754     cr = bcd_cmp_zero(r);
2755     if (ox_flag) {
2756         cr |= CRF_SO;
2757     }
2758 
2759     return cr;
2760 }
2761 
2762 uint32_t helper_bcdus(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2763 {
2764     int cr;
2765     int i;
2766     int invalid = 0;
2767     bool ox_flag = false;
2768     ppc_avr_t ret = *b;
2769 
2770     for (i = 0; i < 32; i++) {
2771         bcd_get_digit(b, i, &invalid);
2772 
2773         if (unlikely(invalid)) {
2774             return CRF_SO;
2775         }
2776     }
2777 
2778     i = a->VsrSB(7);
2779     if (i >= 32) {
2780         ox_flag = true;
2781         ret.VsrD(1) = ret.VsrD(0) = 0;
2782     } else if (i <= -32) {
2783         ret.VsrD(1) = ret.VsrD(0) = 0;
2784     } else if (i > 0) {
2785         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2786     } else {
2787         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2788     }
2789     *r = ret;
2790 
2791     cr = bcd_cmp_zero(r);
2792     if (ox_flag) {
2793         cr |= CRF_SO;
2794     }
2795 
2796     return cr;
2797 }
2798 
2799 uint32_t helper_bcdsr(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2800 {
2801     int cr;
2802     int unused = 0;
2803     int invalid = 0;
2804     bool ox_flag = false;
2805     int sgnb = bcd_get_sgn(b);
2806     ppc_avr_t ret = *b;
2807     ret.VsrD(1) &= ~0xf;
2808 
2809     int i = a->VsrSB(7);
2810     ppc_avr_t bcd_one;
2811 
2812     bcd_one.VsrD(0) = 0;
2813     bcd_one.VsrD(1) = 0x10;
2814 
2815     if (bcd_is_valid(b) == false) {
2816         return CRF_SO;
2817     }
2818 
2819     if (unlikely(i > 31)) {
2820         i = 31;
2821     } else if (unlikely(i < -31)) {
2822         i = -31;
2823     }
2824 
2825     if (i > 0) {
2826         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2827     } else {
2828         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2829 
2830         if (bcd_get_digit(&ret, 0, &invalid) >= 5) {
2831             bcd_add_mag(&ret, &ret, &bcd_one, &invalid, &unused);
2832         }
2833     }
2834     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2835 
2836     cr = bcd_cmp_zero(&ret);
2837     if (ox_flag) {
2838         cr |= CRF_SO;
2839     }
2840     *r = ret;
2841 
2842     return cr;
2843 }
2844 
2845 uint32_t helper_bcdtrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2846 {
2847     uint64_t mask;
2848     uint32_t ox_flag = 0;
2849     int i = a->VsrSH(3) + 1;
2850     ppc_avr_t ret = *b;
2851 
2852     if (bcd_is_valid(b) == false) {
2853         return CRF_SO;
2854     }
2855 
2856     if (i > 16 && i < 32) {
2857         mask = (uint64_t)-1 >> (128 - i * 4);
2858         if (ret.VsrD(0) & ~mask) {
2859             ox_flag = CRF_SO;
2860         }
2861 
2862         ret.VsrD(0) &= mask;
2863     } else if (i >= 0 && i <= 16) {
2864         mask = (uint64_t)-1 >> (64 - i * 4);
2865         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2866             ox_flag = CRF_SO;
2867         }
2868 
2869         ret.VsrD(1) &= mask;
2870         ret.VsrD(0) = 0;
2871     }
2872     bcd_put_digit(&ret, bcd_preferred_sgn(bcd_get_sgn(b), ps), 0);
2873     *r = ret;
2874 
2875     return bcd_cmp_zero(&ret) | ox_flag;
2876 }
2877 
2878 uint32_t helper_bcdutrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2879 {
2880     int i;
2881     uint64_t mask;
2882     uint32_t ox_flag = 0;
2883     int invalid = 0;
2884     ppc_avr_t ret = *b;
2885 
2886     for (i = 0; i < 32; i++) {
2887         bcd_get_digit(b, i, &invalid);
2888 
2889         if (unlikely(invalid)) {
2890             return CRF_SO;
2891         }
2892     }
2893 
2894     i = a->VsrSH(3);
2895     if (i > 16 && i < 33) {
2896         mask = (uint64_t)-1 >> (128 - i * 4);
2897         if (ret.VsrD(0) & ~mask) {
2898             ox_flag = CRF_SO;
2899         }
2900 
2901         ret.VsrD(0) &= mask;
2902     } else if (i > 0 && i <= 16) {
2903         mask = (uint64_t)-1 >> (64 - i * 4);
2904         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2905             ox_flag = CRF_SO;
2906         }
2907 
2908         ret.VsrD(1) &= mask;
2909         ret.VsrD(0) = 0;
2910     } else if (i == 0) {
2911         if (ret.VsrD(0) || ret.VsrD(1)) {
2912             ox_flag = CRF_SO;
2913         }
2914         ret.VsrD(0) = ret.VsrD(1) = 0;
2915     }
2916 
2917     *r = ret;
2918     if (r->VsrD(0) == 0 && r->VsrD(1) == 0) {
2919         return ox_flag | CRF_EQ;
2920     }
2921 
2922     return ox_flag | CRF_GT;
2923 }
2924 
2925 void helper_vsbox(ppc_avr_t *r, ppc_avr_t *a)
2926 {
2927     int i;
2928     VECTOR_FOR_INORDER_I(i, u8) {
2929         r->u8[i] = AES_sbox[a->u8[i]];
2930     }
2931 }
2932 
2933 void helper_vcipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2934 {
2935     ppc_avr_t result;
2936     int i;
2937 
2938     VECTOR_FOR_INORDER_I(i, u32) {
2939         result.VsrW(i) = b->VsrW(i) ^
2940             (AES_Te0[a->VsrB(AES_shifts[4 * i + 0])] ^
2941              AES_Te1[a->VsrB(AES_shifts[4 * i + 1])] ^
2942              AES_Te2[a->VsrB(AES_shifts[4 * i + 2])] ^
2943              AES_Te3[a->VsrB(AES_shifts[4 * i + 3])]);
2944     }
2945     *r = result;
2946 }
2947 
2948 void helper_vcipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2949 {
2950     ppc_avr_t result;
2951     int i;
2952 
2953     VECTOR_FOR_INORDER_I(i, u8) {
2954         result.VsrB(i) = b->VsrB(i) ^ (AES_sbox[a->VsrB(AES_shifts[i])]);
2955     }
2956     *r = result;
2957 }
2958 
2959 void helper_vncipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2960 {
2961     /* This differs from what is written in ISA V2.07.  The RTL is */
2962     /* incorrect and will be fixed in V2.07B.                      */
2963     int i;
2964     ppc_avr_t tmp;
2965 
2966     VECTOR_FOR_INORDER_I(i, u8) {
2967         tmp.VsrB(i) = b->VsrB(i) ^ AES_isbox[a->VsrB(AES_ishifts[i])];
2968     }
2969 
2970     VECTOR_FOR_INORDER_I(i, u32) {
2971         r->VsrW(i) =
2972             AES_imc[tmp.VsrB(4 * i + 0)][0] ^
2973             AES_imc[tmp.VsrB(4 * i + 1)][1] ^
2974             AES_imc[tmp.VsrB(4 * i + 2)][2] ^
2975             AES_imc[tmp.VsrB(4 * i + 3)][3];
2976     }
2977 }
2978 
2979 void helper_vncipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2980 {
2981     ppc_avr_t result;
2982     int i;
2983 
2984     VECTOR_FOR_INORDER_I(i, u8) {
2985         result.VsrB(i) = b->VsrB(i) ^ (AES_isbox[a->VsrB(AES_ishifts[i])]);
2986     }
2987     *r = result;
2988 }
2989 
2990 void helper_vshasigmaw(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
2991 {
2992     int st = (st_six & 0x10) != 0;
2993     int six = st_six & 0xF;
2994     int i;
2995 
2996     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
2997         if (st == 0) {
2998             if ((six & (0x8 >> i)) == 0) {
2999                 r->VsrW(i) = ror32(a->VsrW(i), 7) ^
3000                              ror32(a->VsrW(i), 18) ^
3001                              (a->VsrW(i) >> 3);
3002             } else { /* six.bit[i] == 1 */
3003                 r->VsrW(i) = ror32(a->VsrW(i), 17) ^
3004                              ror32(a->VsrW(i), 19) ^
3005                              (a->VsrW(i) >> 10);
3006             }
3007         } else { /* st == 1 */
3008             if ((six & (0x8 >> i)) == 0) {
3009                 r->VsrW(i) = ror32(a->VsrW(i), 2) ^
3010                              ror32(a->VsrW(i), 13) ^
3011                              ror32(a->VsrW(i), 22);
3012             } else { /* six.bit[i] == 1 */
3013                 r->VsrW(i) = ror32(a->VsrW(i), 6) ^
3014                              ror32(a->VsrW(i), 11) ^
3015                              ror32(a->VsrW(i), 25);
3016             }
3017         }
3018     }
3019 }
3020 
3021 void helper_vshasigmad(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
3022 {
3023     int st = (st_six & 0x10) != 0;
3024     int six = st_six & 0xF;
3025     int i;
3026 
3027     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
3028         if (st == 0) {
3029             if ((six & (0x8 >> (2 * i))) == 0) {
3030                 r->VsrD(i) = ror64(a->VsrD(i), 1) ^
3031                              ror64(a->VsrD(i), 8) ^
3032                              (a->VsrD(i) >> 7);
3033             } else { /* six.bit[2*i] == 1 */
3034                 r->VsrD(i) = ror64(a->VsrD(i), 19) ^
3035                              ror64(a->VsrD(i), 61) ^
3036                              (a->VsrD(i) >> 6);
3037             }
3038         } else { /* st == 1 */
3039             if ((six & (0x8 >> (2 * i))) == 0) {
3040                 r->VsrD(i) = ror64(a->VsrD(i), 28) ^
3041                              ror64(a->VsrD(i), 34) ^
3042                              ror64(a->VsrD(i), 39);
3043             } else { /* six.bit[2*i] == 1 */
3044                 r->VsrD(i) = ror64(a->VsrD(i), 14) ^
3045                              ror64(a->VsrD(i), 18) ^
3046                              ror64(a->VsrD(i), 41);
3047             }
3048         }
3049     }
3050 }
3051 
3052 void helper_vpermxor(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
3053 {
3054     ppc_avr_t result;
3055     int i;
3056 
3057     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
3058         int indexA = c->VsrB(i) >> 4;
3059         int indexB = c->VsrB(i) & 0xF;
3060 
3061         result.VsrB(i) = a->VsrB(indexA) ^ b->VsrB(indexB);
3062     }
3063     *r = result;
3064 }
3065 
3066 #undef VECTOR_FOR_INORDER_I
3067 
3068 /*****************************************************************************/
3069 /* SPE extension helpers */
3070 /* Use a table to make this quicker */
3071 static const uint8_t hbrev[16] = {
3072     0x0, 0x8, 0x4, 0xC, 0x2, 0xA, 0x6, 0xE,
3073     0x1, 0x9, 0x5, 0xD, 0x3, 0xB, 0x7, 0xF,
3074 };
3075 
3076 static inline uint8_t byte_reverse(uint8_t val)
3077 {
3078     return hbrev[val >> 4] | (hbrev[val & 0xF] << 4);
3079 }
3080 
3081 static inline uint32_t word_reverse(uint32_t val)
3082 {
3083     return byte_reverse(val >> 24) | (byte_reverse(val >> 16) << 8) |
3084         (byte_reverse(val >> 8) << 16) | (byte_reverse(val) << 24);
3085 }
3086 
3087 #define MASKBITS 16 /* Random value - to be fixed (implementation dependent) */
3088 target_ulong helper_brinc(target_ulong arg1, target_ulong arg2)
3089 {
3090     uint32_t a, b, d, mask;
3091 
3092     mask = UINT32_MAX >> (32 - MASKBITS);
3093     a = arg1 & mask;
3094     b = arg2 & mask;
3095     d = word_reverse(1 + word_reverse(a | ~b));
3096     return (arg1 & ~mask) | (d & b);
3097 }
3098 
3099 uint32_t helper_cntlsw32(uint32_t val)
3100 {
3101     if (val & 0x80000000) {
3102         return clz32(~val);
3103     } else {
3104         return clz32(val);
3105     }
3106 }
3107 
3108 uint32_t helper_cntlzw32(uint32_t val)
3109 {
3110     return clz32(val);
3111 }
3112 
3113 /* 440 specific */
3114 target_ulong helper_dlmzb(CPUPPCState *env, target_ulong high,
3115                           target_ulong low, uint32_t update_Rc)
3116 {
3117     target_ulong mask;
3118     int i;
3119 
3120     i = 1;
3121     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
3122         if ((high & mask) == 0) {
3123             if (update_Rc) {
3124                 env->crf[0] = 0x4;
3125             }
3126             goto done;
3127         }
3128         i++;
3129     }
3130     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
3131         if ((low & mask) == 0) {
3132             if (update_Rc) {
3133                 env->crf[0] = 0x8;
3134             }
3135             goto done;
3136         }
3137         i++;
3138     }
3139     i = 8;
3140     if (update_Rc) {
3141         env->crf[0] = 0x2;
3142     }
3143  done:
3144     env->xer = (env->xer & ~0x7F) | i;
3145     if (update_Rc) {
3146         env->crf[0] |= xer_so;
3147     }
3148     return i;
3149 }
3150