]> zoso.dev Git - libnemo.git/commitdiff
Upload bundle for platform testing.
authorChris Duncan <chris@zoso.dev>
Thu, 9 Jan 2025 22:41:07 +0000 (14:41 -0800)
committerChris Duncan <chris@zoso.dev>
Thu, 9 Jan 2025 22:41:07 +0000 (14:41 -0800)
global.min.js

index deddcd5db1d68f5777680e8d88bff22cb25cde43..5b81559cd46179e9d64f2276c183cc96caf5d689 100644 (file)
@@ -3260,101 +3260,6 @@ struct WORK {
 */
 const BLAKE2B_IV32_1: u32 = 0x6A09E667u;
 
-
-/**
-* G Mixing function
-*/
-fn G (
-       va0: ptr<function, u32>, va1: ptr<function, u32>,
-       vb0: ptr<function, u32>, vb1: ptr<function, u32>,
-       vc0: ptr<function, u32>, vc1: ptr<function, u32>,
-       vd0: ptr<function, u32>, vd1: ptr<function, u32>,
-       mx0: u32, mx1: u32, my0: u32, my1: u32
-) {
-       var o0: u32;
-       var o1: u32;
-       var xor0: u32;
-       var xor1: u32;
-
-       // a = a + b;
-       o0 = *va0 + *vb0;
-       o1 = *va1 + *vb1;
-       if (*va0 > 0xFFFFFFFFu - *vb0) {
-               o1 = o1 + 1u;
-       }
-       *va0 = o0;
-       *va1 = o1;
-
-       // a = a + m[sigma[r][2*i+0]];
-       o0 = *va0 + mx0;
-       o1 = *va1 + mx1;
-       if (*va0 > 0xFFFFFFFFu - mx0) {
-               o1 = o1 + 1u;
-       }
-       *va0 = o0;
-       *va1 = o1;
-
-       // d = rotr64(d ^ a, 32);
-       xor0 = *vd0 ^ *va0;
-       xor1 = *vd1 ^ *va1;
-       *vd0 = xor1;
-       *vd1 = xor0;
-
-       // c = c + d;
-       o0 = *vc0 + *vd0;
-       o1 = *vc1 + *vd1;
-       if (*vc0 > 0xFFFFFFFFu - *vd0) {
-               o1 = o1 + 1u;
-       }
-       *vc0 = o0;
-       *vc1 = o1;
-
-       // b = rotr64(b ^ c, 24);
-       xor0 = *vb0 ^ *vc0;
-       xor1 = *vb1 ^ *vc1;
-       *vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       *vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // a = a + b;
-       o0 = *va0 + *vb0;
-       o1 = *va1 + *vb1;
-       if (*va0 > 0xFFFFFFFFu - *vb0) {
-               o1 = o1 + 1u;
-       }
-       *va0 = o0;
-       *va1 = o1;
-
-       // a = a + m[sigma[r][2*i+1]];
-       o0 = *va0 + my0;
-       o1 = *va1 + my1;
-       if (*va0 > 0xFFFFFFFFu - my0) {
-               o1 = o1 + 1u;
-       }
-       *va0 = o0;
-       *va1 = o1;
-
-       // d = rotr64(d ^ a, 16)
-       xor0 = *vd0 ^ *va0;
-       xor1 = *vd1 ^ *va1;
-       *vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       *vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // c = c + d;
-       o0 = *vc0 + *vd0;
-       o1 = *vc1 + *vd1;
-       if (*vc0 > 0xFFFFFFFFu - *vd0) {
-               o1 = o1 + 1u;
-       }
-       *vc0 = o0;
-       *vc1 = o1;
-
-       // b = rotr64(b ^ c, 63)
-       xor0 = *vb0 ^ *vc0;
-       xor1 = *vb1 ^ *vc1;
-       *vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       *vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-}
-
 /**
 * Main compute function
 * 8-byte work is split into two 4-byte u32. Low 4 bytes are random u32 from
@@ -3458,60 +3363,50 @@ fn main(
        * r=0, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
        */
 
-       // a = a + b;
+       // a = a + b
        o0 = v0 + v8;
        o1 = v1 + v9;
-       if (v0 > 0xFFFFFFFFu - v8) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v0);
        v0 = o0;
        v1 = o1;
 
-       // a = a + m[sigma[r][2*i+0]];
+       // a = a + m[sigma[r][2*i+0]]
        o0 = v0 + m0;
        o1 = v1 + m1;
-       if (v0 > 0xFFFFFFFFu - m0) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v0);
        v0 = o0;
        v1 = o1;
 
-       // d = rotr64(d ^ a, 32);
+       // d = rotr64(d ^ a, 32)
        xor0 = v24 ^ v0;
        xor1 = v25 ^ v1;
        v24 = xor1;
        v25 = xor0;
 
-       // c = c + d;
+       // c = c + d
        o0 = v16 + v24;
        o1 = v17 + v25;
-       if (v16 > 0xFFFFFFFFu - v24) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v16);
        v16 = o0;
        v17 = o1;
 
-       // b = rotr64(b ^ c, 24);
+       // b = rotr64(b ^ c, 24)
        xor0 = v8 ^ v16;
        xor1 = v9 ^ v17;
        v8 = (xor0 >> 24u) ^ (xor1 << 8u);
        v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // a = a + b;
+       // a = a + b
        o0 = v0 + v8;
        o1 = v1 + v9;
-       if (v0 > 0xFFFFFFFFu - v8) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v0);
        v0 = o0;
        v1 = o1;
 
-       // a = a + m[sigma[r][2*i+1]];
+       // a = a + m[sigma[r][2*i+1]]
        o0 = v0 + m2;
        o1 = v1 + m3;
-       if (v0 > 0xFFFFFFFFu - m2) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v0);
        v0 = o0;
        v1 = o1;
 
@@ -3521,12 +3416,10 @@ fn main(
        v24 = (xor0 >> 16u) ^ (xor1 << 16u);
        v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // c = c + d;
+       // c = c + d
        o0 = v16 + v24;
        o1 = v17 + v25;
-       if (v16 > 0xFFFFFFFFu - v24) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v16);
        v16 = o0;
        v17 = o1;
 
@@ -3544,60 +3437,50 @@ fn main(
        * r=0, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
        */
 
-       // a = a + b;
+       // a = a + b
        o0 = v2 + v10;
        o1 = v3 + v11;
-       if (v2 > 0xFFFFFFFFu - v10) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v2);
        v2 = o0;
        v3 = o1;
 
-       // a = a + m[sigma[r][2*i+0]];
+       // a = a + m[sigma[r][2*i+0]]
        o0 = v2 + m4;
        o1 = v3 + m5;
-       if (v2 > 0xFFFFFFFFu - m4) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v2);
        v2 = o0;
        v3 = o1;
 
-       // d = rotr64(d ^ a, 32);
+       // d = rotr64(d ^ a, 32)
        xor0 = v26 ^ v2;
        xor1 = v27 ^ v3;
        v26 = xor1;
        v27 = xor0;
 
-       // c = c + d;
+       // c = c + d
        o0 = v18 + v26;
        o1 = v19 + v27;
-       if (v18 > 0xFFFFFFFFu - v26) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v18);
        v18 = o0;
        v19 = o1;
 
-       // b = rotr64(b ^ c, 24);
+       // b = rotr64(b ^ c, 24)
        xor0 = v10 ^ v18;
        xor1 = v11 ^ v19;
        v10 = (xor0 >> 24u) ^ (xor1 << 8u);
        v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // a = a + b;
+       // a = a + b
        o0 = v2 + v10;
        o1 = v3 + v11;
-       if (v2 > 0xFFFFFFFFu - v10) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v2);
        v2 = o0;
        v3 = o1;
 
-       // a = a + m[sigma[r][2*i+1]];
+       // a = a + m[sigma[r][2*i+1]]
        o0 = v2 + m6;
        o1 = v3 + m7;
-       if (v2 > 0xFFFFFFFFu - m6) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v2);
        v2 = o0;
        v3 = o1;
 
@@ -3607,12 +3490,10 @@ fn main(
        v26 = (xor0 >> 16u) ^ (xor1 << 16u);
        v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // c = c + d;
+       // c = c + d
        o0 = v18 + v26;
        o1 = v19 + v27;
-       if (v18 > 0xFFFFFFFFu - v26) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v18);
        v18 = o0;
        v19 = o1;
 
@@ -3633,18 +3514,14 @@ fn main(
        // a = a + b
        o0 = v4 + v12;
        o1 = v5 + v13;
-       if (v4 > 0xFFFFFFFFu - v12) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v4);
        v4 = o0;
        v5 = o1;
 
        // a = a + m[sigma[r][2*i+0]]
        o0 = v4 + m8;
        o1 = v5 + m9;
-       if (v4 > 0xFFFFFFFFu - m8) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v4);
        v4 = o0;
        v5 = o1;
 
@@ -3657,9 +3534,7 @@ fn main(
        // c = c + d
        o0 = v20 + v28;
        o1 = v21 + v29;
-       if (v20 > 0xFFFFFFFFu - v28) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v20);
        v20 = o0;
        v21 = o1;
 
@@ -3672,9 +3547,7 @@ fn main(
        // a = a + b
        o0 = v4 + v12;
        o1 = v5 + v13;
-       if (v4 > 0xFFFFFFFFu - v12) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v4);
        v4 = o0;
        v5 = o1;
 
@@ -3683,7 +3556,7 @@ fn main(
        // o0 = v4 + 0u;
        // o1 = v5 + 0u;
        // if (v4 > 0xFFFFFFFFu - 0u) {
-       //       o1 = o1 + 1u;
+       //      o1 = o1 + 1u;
        // }
        // v4 = o0;
        // v5 = o1;
@@ -3697,9 +3570,7 @@ fn main(
        // c = c + d
        o0 = v20 + v28;
        o1 = v21 + v29;
-       if (v20 > 0xFFFFFFFFu - v28) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v20);
        v20 = o0;
        v21 = o1;
 
@@ -3720,9 +3591,7 @@ fn main(
        // a = a + b
        o0 = v6 + v14;
        o1 = v7 + v15;
-       if (v6 > 0xFFFFFFFFu - v14) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v6);
        v6 = o0;
        v7 = o1;
 
@@ -3745,9 +3614,7 @@ fn main(
        // c = c + d
        o0 = v22 + v30;
        o1 = v23 + v31;
-       if (v22 > 0xFFFFFFFFu - v30) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v22);
        v22 = o0;
        v23 = o1;
 
@@ -3760,9 +3627,7 @@ fn main(
        // a = a + b
        o0 = v6 + v14;
        o1 = v7 + v15;
-       if (v6 > 0xFFFFFFFFu - v14) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v6);
        v6 = o0;
        v7 = o1;
 
@@ -3785,9 +3650,7 @@ fn main(
        // c = c + d
        o0 = v22 + v30;
        o1 = v23 + v31;
-       if (v22 > 0xFFFFFFFFu - v30) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v22);
        v22 = o0;
        v23 = o1;
 
@@ -3808,9 +3671,7 @@ fn main(
        // a = a + b
        o0 = v0 + v10;
        o1 = v1 + v11;
-       if (v0 > 0xFFFFFFFFu - v10) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v0);
        v0 = o0;
        v1 = o1;
 
@@ -3833,9 +3694,7 @@ fn main(
        // c = c + d
        o0 = v20 + v30;
        o1 = v21 + v31;
-       if (v20 > 0xFFFFFFFFu - v30) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v20);
        v20 = o0;
        v21 = o1;
 
@@ -3848,9 +3707,7 @@ fn main(
        // a = a + b
        o0 = v0 + v10;
        o1 = v1 + v11;
-       if (v0 > 0xFFFFFFFFu - v10) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v0);
        v0 = o0;
        v1 = o1;
 
@@ -3873,9 +3730,7 @@ fn main(
        // c = c + d
        o0 = v20 + v30;
        o1 = v21 + v31;
-       if (v20 > 0xFFFFFFFFu - v30) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v20);
        v20 = o0;
        v21 = o1;
 
@@ -3896,9 +3751,7 @@ fn main(
        // a = a + b
        o0 = v2 + v12;
        o1 = v3 + v13;
-       if (v2 > 0xFFFFFFFFu - v12) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v2);
        v2 = o0;
        v3 = o1;
 
@@ -3921,9 +3774,7 @@ fn main(
        // c = c + d
        o0 = v22 + v24;
        o1 = v23 + v25;
-       if (v22 > 0xFFFFFFFFu - v24) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v22);
        v22 = o0;
        v23 = o1;
 
@@ -3936,9 +3787,7 @@ fn main(
        // a = a + b
        o0 = v2 + v12;
        o1 = v3 + v13;
-       if (v2 > 0xFFFFFFFFu - v12) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v2);
        v2 = o0;
        v3 = o1;
 
@@ -3961,9 +3810,7 @@ fn main(
        // c = c + d
        o0 = v22 + v24;
        o1 = v23 + v25;
-       if (v22 > 0xFFFFFFFFu - v24) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v22);
        v22 = o0;
        v23 = o1;
 
@@ -3984,9 +3831,7 @@ fn main(
        // a = a + b
        o0 = v4 + v14;
        o1 = v5 + v15;
-       if (v4 > 0xFFFFFFFFu - v14) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v4);
        v4 = o0;
        v5 = o1;
 
@@ -4009,9 +3854,7 @@ fn main(
        // c = c + d
        o0 = v16 + v26;
        o1 = v17 + v27;
-       if (v16 > 0xFFFFFFFFu - v26) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v16);
        v16 = o0;
        v17 = o1;
 
@@ -4024,9 +3867,7 @@ fn main(
        // a = a + b
        o0 = v4 + v14;
        o1 = v5 + v15;
-       if (v4 > 0xFFFFFFFFu - v14) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v4);
        v4 = o0;
        v5 = o1;
 
@@ -4049,9 +3890,7 @@ fn main(
        // c = c + d
        o0 = v16 + v26;
        o1 = v17 + v27;
-       if (v16 > 0xFFFFFFFFu - v26) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v16);
        v16 = o0;
        v17 = o1;
 
@@ -4072,9 +3911,7 @@ fn main(
        // a = a + b
        o0 = v6 + v8;
        o1 = v7 + v9;
-       if (v6 > 0xFFFFFFFFu - v8) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v6);
        v6 = o0;
        v7 = o1;
 
@@ -4097,9 +3934,7 @@ fn main(
        // c = c + d
        o0 = v18 + v28;
        o1 = v19 + v29;
-       if (v18 > 0xFFFFFFFFu - v28) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v18);
        v18 = o0;
        v19 = o1;
 
@@ -4112,9 +3947,7 @@ fn main(
        // a = a + b
        o0 = v6 + v8;
        o1 = v7 + v9;
-       if (v6 > 0xFFFFFFFFu - v8) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v6);
        v6 = o0;
        v7 = o1;
 
@@ -4137,9 +3970,7 @@ fn main(
        // c = c + d
        o0 = v18 + v28;
        o1 = v19 + v29;
-       if (v18 > 0xFFFFFFFFu - v28) {
-               o1 = o1 + 1u;
-       }
+       o1 = o1 + select(0u, 1u, o0 < v18);
        v18 = o0;
        v19 = o1;
 
@@ -4157,7345 +3988,6916 @@ fn main(
        *                                                                                                                               ROUND(1)                                                                                                                                        *
        ****************************************************************************/
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=1, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v0 = o0;
+       // v1 = o1;
 
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, m8, m9, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       /**
+       * r=1, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
 
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m8;
+       o1 = v3 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v2 = o0;
+       // v3 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
 
 
+       /**
+       * r=1, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, m2, m3, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v4 = o0;
+       // v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, m0, m1, m4, m5);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=1, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, m6, m7);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v6 = o0;
+       // v7 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
-       /****************************************************************************
-       *                                                                                                                               ROUND(2)                                                                                                                                        *
-       ****************************************************************************/
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=1, i=4(x2), a=v[0-1], b=v[11-12], c=v[21-22], d=v[30-31]
+       */
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v0 + m2;
+       o1 = v1 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, 0u, 0u, m0, m1);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v0 = o0;
+       // v1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, m4, m5);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=1, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m0;
+       o1 = v3 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m4;
+       o1 = v3 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=1, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v4 = o0;
+       // v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, m6, m7, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, m2, m3);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=1, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, m8, m9);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v6 + m6;
+       o1 = v7 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
        /****************************************************************************
-       *                                                                                                                               ROUND(3)                                                                                                                                        *
+       *                                                                                                                               ROUND(2)                                                                                                                                        *
        ****************************************************************************/
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=2, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v0 = o0;
+       // v1 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, m6, m7, m2, m3);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v0 = o0;
+       // v1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=2, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v2 = o0;
+       // v3 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m0;
+       o1 = v3 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=2, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, m4, m5, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m4;
+       o1 = v5 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=2, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, m8, m9, m0, m1);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       /****************************************************************************
-       *                                                                                                                               ROUND(4)                                                                                                                                        *
-       ****************************************************************************/
+       /**
+       * r=2, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, m0, m1);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
+       // v0 = o0;
+       // v1 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v0 = o0;
+       // v1 = o1;
 
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, m4, m5, m8, m9);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       /**
+       * r=2, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
 
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m6;
+       o1 = v3 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, 0u, 0u, m2, m3);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=2, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m2;
+       o1 = v5 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=2, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, m6, m7, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v6 + m8;
+       o1 = v7 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
        /****************************************************************************
-       *                                                                                                                               ROUND(5)                                                                                                                                        *
+       *                                                                                                                               ROUND(3)                                                                                                                                        *
        ****************************************************************************/
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, m4, m5, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=3, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v0 = o0;
+       // v1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       /**
+       * r=3, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m6;
+       o1 = v3 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, m0, m1, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m2;
+       o1 = v3 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, 0u, 0u, m6, m7);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=3, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v4 = o0;
+       // v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, m8, m9, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=3, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v6 = o0;
+       // v7 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, m2, m3, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       /**
+       * r=3, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v0 + m4;
+       o1 = v1 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       /****************************************************************************
-       *                                                                                                                               ROUND(6)                                                                                                                                        *
-       ****************************************************************************/
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v0 = o0;
+       // v1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, m2, m3, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=3, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
+       // v2 = o0;
+       // v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
-
-
-
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, m8, m9, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v2 = o0;
+       // v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, m0, m1, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=3, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v4 + m8;
+       o1 = v5 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m0;
+       o1 = v5 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, m6, m7);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=3, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, m4, m5);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v6 = o0;
+       // v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
        /****************************************************************************
-       *                                                                                                                               ROUND(7)                                                                                                                                        *
+       *                                                                                                                               ROUND(4)                                                                                                                                        *
        ****************************************************************************/
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=4, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v0 = o0;
+       // v1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v0 + m0;
+       o1 = v1 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=4, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, m2, m3);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v2 = o0;
+       // v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, m6, m7, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v2 = o0;
+       // v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, 0u, 0u, m0, m1);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=4, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v4 + m4;
+       o1 = v5 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m8;
+       o1 = v5 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, m8, m9);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=4, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, m4, m5, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v6 = o0;
+       // v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       /****************************************************************************
-       *                                                                                                                               ROUND(8)                                                                                                                                        *
-       ****************************************************************************/
+       /**
+       * r=4, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v0 = o0;
+       // v1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v0 + m2;
+       o1 = v1 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=4, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, m6, m7);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v2 = o0;
+       // v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, m0, m1, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v2 = o0;
+       // v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, 0u, 0u, m4, m5);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=4, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
+       // v4 = o0;
+       // v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=4, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v6 + m6;
+       o1 = v7 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /****************************************************************************
+       *                                                                                                                               ROUND(5)                                                                                                                                        *
+       ****************************************************************************/
+
+       /**
+       * r=5, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v0 + m4;
+       o1 = v1 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, m2, m3, m8, m9);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=5, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=5, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v4 + m0;
+       o1 = v5 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=5, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v6 + m6;
+       o1 = v7 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=5, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v0 + m8;
+       o1 = v1 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=5, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=5, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=5, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v6 + m2;
+       o1 = v7 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /****************************************************************************
+       *                                                                                                                               ROUND(6)                                                                                                                                        *
+       ****************************************************************************/
+
+       /**
+       * r=6, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=6, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m2;
+       o1 = v3 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=6, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=6, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v6 + m8;
+       o1 = v7 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=6, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v0 + m0;
+       o1 = v1 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=6, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m6;
+       o1 = v3 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=6, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m4;
+       o1 = v5 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=6, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /****************************************************************************
+       *                                                                                                                               ROUND(7)                                                                                                                                        *
+       ****************************************************************************/
+
+       /**
+       * r=7, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=7, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=7, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m2;
+       o1 = v5 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=7, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v6 + m6;
+       o1 = v7 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=7, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v0 + m0;
+       o1 = v1 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=7, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m8;
+       o1 = v3 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=7, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=7, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v6 + m4;
+       o1 = v7 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /****************************************************************************
+       *                                                                                                                               ROUND(8)                                                                                                                                        *
+       ****************************************************************************/
+
+       /**
+       * r=8, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=8, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=8, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m6;
+       o1 = v5 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=8, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v6 + m0;
+       o1 = v7 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=8, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v0 + m4;
+       o1 = v1 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=8, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=8, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v4 + m2;
+       o1 = v5 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v4 + m8;
+       o1 = v5 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=8, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /****************************************************************************
+       *                                                                                                                               ROUND(9)                                                                                                                                        *
+       ****************************************************************************/
+
+       /**
+       * r=9, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v0 + m4;
+       o1 = v1 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=9, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m8;
+       o1 = v3 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=9, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+  // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=9, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v6 + m2;
+       o1 = v7 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=9, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=9, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v2 = o0;
+       // v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=9, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v4 + m6;
+       o1 = v5 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=9, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v6 + m0;
+       o1 = v7 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /****************************************************************************
+       *                                                                                                                               ROUND(10)                                                                                                                                       *
+       ****************************************************************************/
+
+       /**
+       * r=10, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v0 + m0;
+       o1 = v1 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v0 + m2;
+       o1 = v1 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=10, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m4;
+       o1 = v3 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m6;
+       o1 = v3 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=10, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v4 + m8;
+       o1 = v5 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v4 = o0;
+       // v5 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
+
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
+
+
+
+
+
+       /**
+       * r=10, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
+
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
+       //      o1 = o1 + 1u;
+       // }
+       // v6 = o0;
+       // v7 = o1;
+
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
+
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v6 = o0;
+       // v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       /****************************************************************************
-       *                                                                                                                               ROUND(9)                                                                                                                                        *
-       ****************************************************************************/
+       /**
+       * r=10, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, m4, m5);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v0 = o0;
+       // v1 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, 0u, 0u, m8, m9);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v0 = o0;
+       // v1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=10, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v2 = o0;
+       // v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, m2, m3, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v2 = o0;
+       // v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=10, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v4 = o0;
+       // v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
+
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
+       /**
+       * r=10, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, m6, m7, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, m0, m1);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v6 = o0;
+       // v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
        /****************************************************************************
-       *                                                                                                                               ROUND(10)                                                                                                                                       *
+       *                                                                                                                               ROUND(11)                                                                                                                                       *
        ****************************************************************************/
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, m0, m1, m2, m3);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=11, i=0(x2), a=v[0-1], b=v[8-9], c=v[16-17], d=v[24-25]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
+       // v0 = o0;
+       // v1 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, m4, m5, m6, m7);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v0 + v8;
+       o1 = v1 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v0 = o0;
+       // v1 = o1;
 
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v0;
+       xor1 = v25 ^ v1;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v16 + v24;
+       o1 = v17 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v16;
+       xor1 = v9 ^ v17;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, m8, m9, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       /**
+       * r=11, i=1(x2), a=v[2-3], b=v[10-11], c=v[18-19], d=v[26-27]
+       */
 
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m8;
+       o1 = v3 + m9;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v2 + v10;
+       o1 = v3 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v2 + 0u;
+       // o1 = v3 + 0u;
+       // if (v2 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v2 = o0;
+       // v3 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v2;
+       xor1 = v27 ^ v3;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v18 + v26;
+       o1 = v19 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v18;
+       xor1 = v11 ^ v19;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       /**
+       * r=11, i=2(x2), a=v[4-5], b=v[12-13], c=v[20-21], d=v[28-29]
+       */
+
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
+
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v4 = o0;
+       // v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v12;
+       o1 = v5 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v4;
+       xor1 = v29 ^ v5;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v20 + v28;
+       o1 = v21 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v20;
+       xor1 = v13 ^ v21;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=11, i=3(x2), a=v[6-7], b=v[14-15], c=v[22-23], d=v[30-31]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
-
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v14;
+       o1 = v7 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
-
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v6;
+       xor1 = v31 ^ v7;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
+       // c = c + d
+       o0 = v22 + v30;
+       o1 = v23 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v22;
+       xor1 = v15 ^ v23;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
-       /****************************************************************************
-       *                                                                                                                               ROUND(11)                                                                                                                                       *
-       ****************************************************************************/
 
-       G(&v0, &v1, &v8, &v9, &v16, &v17, &v24, &v25, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       /**
+       * r=11, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31]
+       */
 
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v0 + m2;
+       o1 = v1 + m3;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = xor1;
+       v31 = xor0;
 
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
-       G(&v2, &v3, &v10, &v11, &v18, &v19, &v26, &v27, m8, m9, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // b = rotr64(b ^ c, 24)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v11 = (xor1 >> 24u) ^ (xor0 << 8u);
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v0 + v10;
+       o1 = v1 + v11;
+       o1 = o1 + select(0u, 1u, o0 < v0);
+       v0 = o0;
+       v1 = o1;
 
        // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // skip since adding 0u does nothing
+       // o0 = v0 + 0u;
+       // o1 = v1 + 0u;
+       // if (v0 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // v0 = o0;
+       // v1 = o1;
+
+       // d = rotr64(d ^ a, 16)
+       xor0 = v30 ^ v0;
+       xor1 = v31 ^ v1;
+       v30 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v31 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // c = c + d
+       o0 = v20 + v30;
+       o1 = v21 + v31;
+       o1 = o1 + select(0u, 1u, o0 < v20);
+       v20 = o0;
+       v21 = o1;
 
+       // b = rotr64(b ^ c, 63)
+       xor0 = v10 ^ v20;
+       xor1 = v11 ^ v21;
+       v10 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v11 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
-       G(&v4, &v5, &v12, &v13, &v20, &v21, &v28, &v29, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=11, i=5(x2), a=v[2-3], b=v[12-13], c=v[22-23], d=v[24-25]
+       */
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // a = a + m[sigma[r][2*i+0]]
+       o0 = v2 + m0;
+       o1 = v3 + m1;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = xor1;
+       v25 = xor0;
 
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v13 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v2 + v12;
+       o1 = v3 + v13;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       G(&v6, &v7, &v14, &v15, &v22, &v23, &v30, &v31, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v2 + m4;
+       o1 = v3 + m5;
+       o1 = o1 + select(0u, 1u, o0 < v2);
+       v2 = o0;
+       v3 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v24 ^ v2;
+       xor1 = v25 ^ v3;
+       v24 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v25 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v22 + v24;
+       o1 = v23 + v25;
+       o1 = o1 + select(0u, 1u, o0 < v22);
+       v22 = o0;
+       v23 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v12 ^ v22;
+       xor1 = v13 ^ v23;
+       v12 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v13 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, m2, m3, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=11, i=6(x2), a=v[4-5], b=v[14-15], c=v[16-17], d=v[26-27]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v4 = o0;
+       // v5 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = xor1;
+       v27 = xor0;
 
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v15 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v4 + v14;
+       o1 = v5 + v15;
+       o1 = o1 + select(0u, 1u, o0 < v4);
+       v4 = o0;
+       v5 = o1;
 
-       G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, m0, m1, m4, m5);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
+       // // a = a + m[sigma[r][2*i+1]]
+       // // skip since adding 0u does nothing
+       // o0 = v4 + 0u;
+       // o1 = v5 + 0u;
+       // if (v4 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // va0 = o0;
-       // va1 = o1;
+       // v4 = o0;
+       // v5 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v26 ^ v4;
+       xor1 = v27 ^ v5;
+       v26 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v27 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v16 + v26;
+       o1 = v17 + v27;
+       o1 = o1 + select(0u, 1u, o0 < v16);
+       v16 = o0;
+       v17 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v14 ^ v16;
+       xor1 = v15 ^ v17;
+       v14 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v15 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
 
 
-       G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, 0u, 0u);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       /**
+       * r=11, i=7(x2), a=v[6-7], b=v[8-9], c=v[18-19], d=v[28-29]
+       */
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
+       // // a = a + m[sigma[r][2*i+0]]
+       // // skip since adding 0u does nothing
+       // o0 = v6 + 0u;
+       // o1 = v7 + 0u;
+       // if (v6 > 0xFFFFFFFFu - 0u) {
        //      o1 = o1 + 1u;
        // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // v6 = o0;
+       // v7 = o1;
 
+       // d = rotr64(d ^ a, 32)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = xor1;
+       v29 = xor0;
 
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
+       // b = rotr64(b ^ c, 24)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor0 >> 24u) ^ (xor1 << 8u);
+       v9 = (xor1 >> 24u) ^ (xor0 << 8u);
 
+       // a = a + b
+       o0 = v6 + v8;
+       o1 = v7 + v9;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, m6, m7);
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // a = a + m[sigma[r][2*i+1]]
+       o0 = v6 + m6;
+       o1 = v7 + m7;
+       o1 = o1 + select(0u, 1u, o0 < v6);
+       v6 = o0;
+       v7 = o1;
 
-       // // a = a + m[sigma[r][2*i+0]]
-       // o0 = va0 + mx0;
-       // o1 = va1 + mx1;
-       // if (va0 > 0xFFFFFFFFu - mx0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 32)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = xor1;
-       // vd1 = xor0;
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
-
-       // // b = rotr64(b ^ c, 24)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor0 >> 24u) ^ (xor1 << 8u);
-       // vb1 = (xor1 >> 24u) ^ (xor0 << 8u);
-
-       // // a = a + b
-       // o0 = va0 + vb0;
-       // o1 = va1 + vb1;
-       // if (va0 > 0xFFFFFFFFu - vb0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
+       // d = rotr64(d ^ a, 16)
+       xor0 = v28 ^ v6;
+       xor1 = v29 ^ v7;
+       v28 = (xor0 >> 16u) ^ (xor1 << 16u);
+       v29 = (xor1 >> 16u) ^ (xor0 << 16u);
 
-       // // a = a + m[sigma[r][2*i+1]]
-       // o0 = va0 + my0;
-       // o1 = va1 + my1;
-       // if (va0 > 0xFFFFFFFFu - my0) {
-       //      o1 = o1 + 1u;
-       // }
-       // va0 = o0;
-       // va1 = o1;
-
-       // // d = rotr64(d ^ a, 16)
-       // xor0 = vd0 ^ va0;
-       // xor1 = vd1 ^ va1;
-       // vd0 = (xor0 >> 16u) ^ (xor1 << 16u);
-       // vd1 = (xor1 >> 16u) ^ (xor0 << 16u);
-
-       // // c = c + d
-       // o0 = vc0 + vd0;
-       // o1 = vc1 + vd1;
-       // if (vc0 > 0xFFFFFFFFu - vd0) {
-       //      o1 = o1 + 1u;
-       // }
-       // vc0 = o0;
-       // vc1 = o1;
+       // c = c + d
+       o0 = v18 + v28;
+       o1 = v19 + v29;
+       o1 = o1 + select(0u, 1u, o0 < v18);
+       v18 = o0;
+       v19 = o1;
 
-       // // b = rotr64(b ^ c, 63)
-       // xor0 = vb0 ^ vc0;
-       // xor1 = vb1 ^ vc1;
-       // vb0 = (xor1 >> 31u) ^ (xor0 << 1u);
-       // vb1 = (xor0 >> 31u) ^ (xor1 << 1u);
+       // b = rotr64(b ^ c, 63)
+       xor0 = v8 ^ v18;
+       xor1 = v9 ^ v19;
+       v8 = (xor1 >> 31u) ^ (xor0 << 1u);
+       v9 = (xor0 >> 31u) ^ (xor1 << 1u);
 
 
 
@@ -11598,6 +11000,7 @@ const uint SIGMA82[192] = uint[192](
 
 // G mixing function
 void G (uint ix, uint iy, uint a, uint b, uint c, uint d) {
+       bool carry;
        uint o0;
        uint o1;
        uint xor0;
@@ -11606,18 +11009,16 @@ void G (uint ix, uint iy, uint a, uint b, uint c, uint d) {
        // a = a + b;
        o0 = v[a] + v[b];
        o1 = v[a+1u] + v[b+1u];
-       if (v[a] > 0xFFFFFFFFu - v[b]) {
-               o1 = o1 + 1u;
-       }
+       carry = o0 < v[a];
+       o1 = o1 + uint(mix(0.0, 1.0, float(carry)));
        v[a] = o0;
        v[a+1u] = o1;
 
        // a = a + m[sigma[r][2*i+0]];
        o0 = v[a] + m[ix];
        o1 = v[a+1u] + m[ix+1u];
-       if (v[a] > 0xFFFFFFFFu - m[ix]) {
-               o1 = o1 + 1u;
-       }
+       carry = o0 < v[a];
+       o1 = o1 + uint(mix(0.0, 1.0, float(carry)));
        v[a] = o0;
        v[a+1u] = o1;
 
@@ -11630,9 +11031,8 @@ void G (uint ix, uint iy, uint a, uint b, uint c, uint d) {
        // c = c + d;
        o0 = v[c] + v[d];
        o1 = v[c+1u] + v[d+1u];
-       if (v[c] > 0xFFFFFFFFu - v[d]) {
-               o1 = o1 + 1u;
-       }
+       carry = o0 < v[c];
+       o1 = o1 + uint(mix(0.0, 1.0, float(carry)));
        v[c] = o0;
        v[c+1u] = o1;
 
@@ -11645,18 +11045,16 @@ void G (uint ix, uint iy, uint a, uint b, uint c, uint d) {
        // a = a + b;
        o0 = v[a] + v[b];
        o1 = v[a+1u] + v[b+1u];
-       if (v[a] > 0xFFFFFFFFu - v[b]) {
-               o1 = o1 + 1u;
-       }
+       carry = o0 < v[a];
+       o1 = o1 + uint(mix(0.0, 1.0, float(carry)));
        v[a] = o0;
        v[a+1u] = o1;
 
        // a = a + m[sigma[r][2*i+1]];
        o0 = v[a] + m[iy];
        o1 = v[a+1u] + m[iy+1u];
-       if (v[a] > 0xFFFFFFFFu - m[iy]) {
-               o1 = o1 + 1u;
-       }
+       carry = o0 < v[a];
+       o1 = o1 + uint(mix(0.0, 1.0, float(carry)));
        v[a] = o0;
        v[a+1u] = o1;
 
@@ -11669,9 +11067,8 @@ void G (uint ix, uint iy, uint a, uint b, uint c, uint d) {
        // c = c + d;
        o0 = v[c] + v[d];
        o1 = v[c+1u] + v[d+1u];
-       if (v[c] > 0xFFFFFFFFu - v[d]) {
-               o1 = o1 + 1u;
-       }
+       carry = o0 < v[c];
+       o1 = o1 + uint(mix(0.0, 1.0, float(carry)));
        v[c] = o0;
        v[c+1u] = o1;
 
@@ -12130,11 +11527,11 @@ var init_gpu = __esm({
             await this.#cpuBuffer.mapAsync(GPUMapMode.READ);
             await this.#device.queue.onSubmittedWorkDone();
             data = new DataView(this.#cpuBuffer.getMappedRange().slice(0));
+            this.#cpuBuffer.unmap();
           } catch (err) {
             console.warn(`Error getting data from GPU. ${err}`);
             this.reset();
-          } finally {
-            this.#cpuBuffer.unmap();
+            return this.search(hash2, threshold);
           }
           if (data == null) throw new Error(`Failed to get data from buffer.`);
           nonce = data.getBigUint64(0, true);