From: Chris Duncan Date: Wed, 8 Jan 2025 21:50:25 +0000 (-0800) Subject: Inline G mix 4 of round 0. X-Git-Url: https://zoso.dev/?a=commitdiff_plain;h=22c58938a529db4d50a203506b14f32e8aa33f50;p=libnemo.git Inline G mix 4 of round 0. --- diff --git a/src/lib/nano-pow/shaders/gpu-compute.ts b/src/lib/nano-pow/shaders/gpu-compute.ts index a83ef2e..e943a70 100644 --- a/src/lib/nano-pow/shaders/gpu-compute.ts +++ b/src/lib/nano-pow/shaders/gpu-compute.ts @@ -547,7 +547,92 @@ fn main( - G(&v0, &v1, &v10, &v11, &v20, &v21, &v30, &v31, 0u, 0u, 0u, 0u); + /** + * r=0, i=4(x2), a=v[0-1], b=v[10-11], c=v[20-21], d=v[30-31] + */ + + // a = a + b + o0 = v0 + v10; + o1 = v1 + v11; + if (v0 > 0xFFFFFFFFu - v10) { + o1 = o1 + 1u; + } + v0 = o0; + v1 = o1; + + // // a = a + m[sigma[r][2*i+0]] + // // skip since adding 0u does nothing + // o0 = v0 + 0u; + // o1 = v1 + 0u; + // if (v0 > 0xFFFFFFFFu - 0u) { + // o1 = o1 + 1u; + // } + // v0 = o0; + // v1 = o1; + + // d = rotr64(d ^ a, 32) + xor0 = v30 ^ v0; + xor1 = v31 ^ v1; + v30 = xor1; + v31 = xor0; + + // c = c + d + o0 = v20 + v30; + o1 = v21 + v31; + if (v20 > 0xFFFFFFFFu - v30) { + o1 = o1 + 1u; + } + v20 = o0; + v21 = o1; + + // b = rotr64(b ^ c, 24) + xor0 = v10 ^ v20; + xor1 = v11 ^ v21; + v10 = (xor0 >> 24u) ^ (xor1 << 8u); + v11 = (xor1 >> 24u) ^ (xor0 << 8u); + + // a = a + b + o0 = v0 + v10; + o1 = v1 + v11; + if (v0 > 0xFFFFFFFFu - v10) { + o1 = o1 + 1u; + } + v0 = o0; + v1 = o1; + + // // a = a + m[sigma[r][2*i+1]] + // // skip since adding 0u does nothing + // o0 = v0 + 0u; + // o1 = v1 + 0u; + // if (v0 > 0xFFFFFFFFu - 0u) { + // o1 = o1 + 1u; + // } + // v0 = o0; + // v1 = o1; + + // d = rotr64(d ^ a, 16) + xor0 = v30 ^ v0; + xor1 = v31 ^ v1; + v30 = (xor0 >> 16u) ^ (xor1 << 16u); + v31 = (xor1 >> 16u) ^ (xor0 << 16u); + + // c = c + d + o0 = v20 + v30; + o1 = v21 + v31; + if (v20 > 0xFFFFFFFFu - v30) { + o1 = o1 + 1u; + } + v20 = o0; + v21 = o1; + + // b = rotr64(b ^ c, 63) + xor0 = v10 ^ v20; + xor1 = v11 ^ v21; + v10 = (xor1 >> 31u) ^ (xor0 << 1u); + v11 = (xor0 >> 31u) ^ (xor1 << 1u); + + + G(&v2, &v3, &v12, &v13, &v22, &v23, &v24, &v25, 0u, 0u, 0u, 0u); G(&v4, &v5, &v14, &v15, &v16, &v17, &v26, &v27, 0u, 0u, 0u, 0u); G(&v6, &v7, &v8, &v9, &v18, &v19, &v28, &v29, 0u, 0u, 0u, 0u);