1/* 2 * CDDL HEADER START 3 * 4 * The contents of this file are subject to the terms of the 5 * Common Development and Distribution License (the "License"). 6 * You may not use this file except in compliance with the License. 7 * 8 * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE 9 * or http://www.opensolaris.org/os/licensing. 10 * See the License for the specific language governing permissions 11 * and limitations under the License. 12 * 13 * When distributing Covered Code, include this CDDL HEADER in each 14 * file and include the License file at usr/src/OPENSOLARIS.LICENSE. 15 * If applicable, add the following below this CDDL HEADER, with the 16 * fields enclosed by brackets "[]" replaced with your own identifying 17 * information: Portions Copyright [yyyy] [name of copyright owner] 18 * 19 * CDDL HEADER END 20 */ 21 22/* 23 * Copyright 2009 Sun Microsystems, Inc. All rights reserved. 24 * Use is subject to license terms. 25 */ 26 27/* 28 * Copyright (c) 2008, Intel Corporation 29 * All rights reserved. 30 */ 31 32/* 33 * Portions Copyright 2009 Advanced Micro Devices, Inc. 34 */ 35 36 .file "memset.s" 37 38#include <sys/asm_linkage.h> 39 40 ANSI_PRAGMA_WEAK(memset,function) 41 42#include "cache.h" 43#include "proc64_id.h" 44 45#define L(s) .memset##s 46 47/* 48 * memset algorithm overview: 49 * 50 * Thresholds used below were determined experimentally. 51 * 52 * Pseudo code: 53 * 54 * NOTE: On AMD NO_SSE is always set. Performance on Opteron did not improve 55 * using 16-byte stores. Setting NO_SSE on AMD should be re-evaluated on 56 * future AMD processors. 57 * 58 * 59 * If (size <= 144 bytes) { 60 * do unrolled code (primarily 8-byte stores) regardless of alignment. 61 * } else { 62 * Align destination to 16-byte boundary 63 * 64 * if (NO_SSE) { 65 * If (size > largest level cache) { 66 * Use 8-byte non-temporal stores (64-bytes/loop) 67 * } else { 68 * if (size >= 2K) { 69 * Use rep sstoq 70 * } else { 71 * Use 8-byte stores (128 bytes per loop) 72 * } 73 * } 74 * 75 * } else { **USE SSE** 76 * If (size <= 192 bytes) { 77 * do unrolled code using primarily 16-byte stores (SSE2) 78 * } else { 79 * If (size > largest level cache) { 80 * Use 16-byte non-temporal stores (128-bytes/loop) 81 * } else { 82 * Use 16-byte stores (128 bytes per loop) 83 * } 84 * } 85 * } 86 * 87 * Finish any remaining bytes via unrolled code above. 88 * } 89 */ 90 91 ENTRY(memset) # (void *, const void*, size_t) 92 cmp $0x1,%rdx 93 mov %rdi,%rax # memset returns the dest address 94 jne L(ck2) 95 mov %sil,(%rdi) 96 ret 97L(ck2): 98 mov $0x0101010101010101,%r9 99 mov %rdx,%r8 100 movzbq %sil,%rdx 101 imul %r9,%rdx # clone value 8 times 102 103 cmp $0x90,%r8 # 144 104 jge L(ck_align) 105 106 lea L(setPxQx)(%rip),%r11 107 add %r8,%rdi 108 109 movslq (%r11,%r8,4),%rcx 110 lea (%rcx,%r11,1),%r11 111 jmpq *%r11 112 113 .balign 16 114L(setPxQx): .int L(P0Q0)-L(setPxQx) 115 .int L(P1Q0)-L(setPxQx) 116 .int L(P2Q0)-L(setPxQx) 117 .int L(P3Q0)-L(setPxQx) 118 .int L(P4Q0)-L(setPxQx) 119 .int L(P5Q0)-L(setPxQx) 120 .int L(P6Q0)-L(setPxQx) 121 .int L(P7Q0)-L(setPxQx) 122 123 .int L(P0Q1)-L(setPxQx) 124 .int L(P1Q1)-L(setPxQx) 125 .int L(P2Q1)-L(setPxQx) 126 .int L(P3Q1)-L(setPxQx) 127 .int L(P4Q1)-L(setPxQx) 128 .int L(P5Q1)-L(setPxQx) 129 .int L(P6Q1)-L(setPxQx) 130 .int L(P7Q1)-L(setPxQx) 131 132 .int L(P0Q2)-L(setPxQx) 133 .int L(P1Q2)-L(setPxQx) 134 .int L(P2Q2)-L(setPxQx) 135 .int L(P3Q2)-L(setPxQx) 136 .int L(P4Q2)-L(setPxQx) 137 .int L(P5Q2)-L(setPxQx) 138 .int L(P6Q2)-L(setPxQx) 139 .int L(P7Q2)-L(setPxQx) 140 141 .int L(P0Q3)-L(setPxQx) 142 .int L(P1Q3)-L(setPxQx) 143 .int L(P2Q3)-L(setPxQx) 144 .int L(P3Q3)-L(setPxQx) 145 .int L(P4Q3)-L(setPxQx) 146 .int L(P5Q3)-L(setPxQx) 147 .int L(P6Q3)-L(setPxQx) 148 .int L(P7Q3)-L(setPxQx) 149 150 .int L(P0Q4)-L(setPxQx) 151 .int L(P1Q4)-L(setPxQx) 152 .int L(P2Q4)-L(setPxQx) 153 .int L(P3Q4)-L(setPxQx) 154 .int L(P4Q4)-L(setPxQx) 155 .int L(P5Q4)-L(setPxQx) 156 .int L(P6Q4)-L(setPxQx) 157 .int L(P7Q4)-L(setPxQx) 158 159 .int L(P0Q5)-L(setPxQx) 160 .int L(P1Q5)-L(setPxQx) 161 .int L(P2Q5)-L(setPxQx) 162 .int L(P3Q5)-L(setPxQx) 163 .int L(P4Q5)-L(setPxQx) 164 .int L(P5Q5)-L(setPxQx) 165 .int L(P6Q5)-L(setPxQx) 166 .int L(P7Q5)-L(setPxQx) 167 168 .int L(P0Q6)-L(setPxQx) 169 .int L(P1Q6)-L(setPxQx) 170 .int L(P2Q6)-L(setPxQx) 171 .int L(P3Q6)-L(setPxQx) 172 .int L(P4Q6)-L(setPxQx) 173 .int L(P5Q6)-L(setPxQx) 174 .int L(P6Q6)-L(setPxQx) 175 .int L(P7Q6)-L(setPxQx) 176 177 .int L(P0Q7)-L(setPxQx) 178 .int L(P1Q7)-L(setPxQx) 179 .int L(P2Q7)-L(setPxQx) 180 .int L(P3Q7)-L(setPxQx) 181 .int L(P4Q7)-L(setPxQx) 182 .int L(P5Q7)-L(setPxQx) 183 .int L(P6Q7)-L(setPxQx) 184 .int L(P7Q7)-L(setPxQx) 185 186 .int L(P0Q8)-L(setPxQx) 187 .int L(P1Q8)-L(setPxQx) 188 .int L(P2Q8)-L(setPxQx) 189 .int L(P3Q8)-L(setPxQx) 190 .int L(P4Q8)-L(setPxQx) 191 .int L(P5Q8)-L(setPxQx) 192 .int L(P6Q8)-L(setPxQx) 193 .int L(P7Q8)-L(setPxQx) 194 195 .int L(P0Q9)-L(setPxQx) 196 .int L(P1Q9)-L(setPxQx) 197 .int L(P2Q9)-L(setPxQx) 198 .int L(P3Q9)-L(setPxQx) 199 .int L(P4Q9)-L(setPxQx) 200 .int L(P5Q9)-L(setPxQx) 201 .int L(P6Q9)-L(setPxQx) 202 .int L(P7Q9)-L(setPxQx) 203 204 .int L(P0QA)-L(setPxQx) 205 .int L(P1QA)-L(setPxQx) 206 .int L(P2QA)-L(setPxQx) 207 .int L(P3QA)-L(setPxQx) 208 .int L(P4QA)-L(setPxQx) 209 .int L(P5QA)-L(setPxQx) 210 .int L(P6QA)-L(setPxQx) 211 .int L(P7QA)-L(setPxQx) 212 213 .int L(P0QB)-L(setPxQx) 214 .int L(P1QB)-L(setPxQx) 215 .int L(P2QB)-L(setPxQx) 216 .int L(P3QB)-L(setPxQx) 217 .int L(P4QB)-L(setPxQx) 218 .int L(P5QB)-L(setPxQx) 219 .int L(P6QB)-L(setPxQx) 220 .int L(P7QB)-L(setPxQx) 221 222 .int L(P0QC)-L(setPxQx) 223 .int L(P1QC)-L(setPxQx) 224 .int L(P2QC)-L(setPxQx) 225 .int L(P3QC)-L(setPxQx) 226 .int L(P4QC)-L(setPxQx) 227 .int L(P5QC)-L(setPxQx) 228 .int L(P6QC)-L(setPxQx) 229 .int L(P7QC)-L(setPxQx) 230 231 .int L(P0QD)-L(setPxQx) 232 .int L(P1QD)-L(setPxQx) 233 .int L(P2QD)-L(setPxQx) 234 .int L(P3QD)-L(setPxQx) 235 .int L(P4QD)-L(setPxQx) 236 .int L(P5QD)-L(setPxQx) 237 .int L(P6QD)-L(setPxQx) 238 .int L(P7QD)-L(setPxQx) 239 240 .int L(P0QE)-L(setPxQx) # 112 241 .int L(P1QE)-L(setPxQx) 242 .int L(P2QE)-L(setPxQx) 243 .int L(P3QE)-L(setPxQx) 244 .int L(P4QE)-L(setPxQx) 245 .int L(P5QE)-L(setPxQx) 246 .int L(P6QE)-L(setPxQx) 247 .int L(P7QE)-L(setPxQx) 248 249 .int L(P0QF)-L(setPxQx) #120 250 .int L(P1QF)-L(setPxQx) 251 .int L(P2QF)-L(setPxQx) 252 .int L(P3QF)-L(setPxQx) 253 .int L(P4QF)-L(setPxQx) 254 .int L(P5QF)-L(setPxQx) 255 .int L(P6QF)-L(setPxQx) 256 .int L(P7QF)-L(setPxQx) 257 258 .int L(P0QG)-L(setPxQx) #128 259 .int L(P1QG)-L(setPxQx) 260 .int L(P2QG)-L(setPxQx) 261 .int L(P3QG)-L(setPxQx) 262 .int L(P4QG)-L(setPxQx) 263 .int L(P5QG)-L(setPxQx) 264 .int L(P6QG)-L(setPxQx) 265 .int L(P7QG)-L(setPxQx) 266 267 .int L(P0QH)-L(setPxQx) #136 268 .int L(P1QH)-L(setPxQx) 269 .int L(P2QH)-L(setPxQx) 270 .int L(P3QH)-L(setPxQx) 271 .int L(P4QH)-L(setPxQx) 272 .int L(P5QH)-L(setPxQx) 273 .int L(P6QH)-L(setPxQx) 274 .int L(P7QH)-L(setPxQx) #143 275 276 .balign 16 277L(P1QH): mov %rdx,-0x89(%rdi) 278L(P1QG): mov %rdx,-0x81(%rdi) 279 .balign 16 280L(P1QF): mov %rdx,-0x79(%rdi) 281L(P1QE): mov %rdx,-0x71(%rdi) 282L(P1QD): mov %rdx,-0x69(%rdi) 283L(P1QC): mov %rdx,-0x61(%rdi) 284L(P1QB): mov %rdx,-0x59(%rdi) 285L(P1QA): mov %rdx,-0x51(%rdi) 286L(P1Q9): mov %rdx,-0x49(%rdi) 287L(P1Q8): mov %rdx,-0x41(%rdi) 288L(P1Q7): mov %rdx,-0x39(%rdi) 289L(P1Q6): mov %rdx,-0x31(%rdi) 290L(P1Q5): mov %rdx,-0x29(%rdi) 291L(P1Q4): mov %rdx,-0x21(%rdi) 292L(P1Q3): mov %rdx,-0x19(%rdi) 293L(P1Q2): mov %rdx,-0x11(%rdi) 294L(P1Q1): mov %rdx,-0x9(%rdi) 295L(P1Q0): mov %dl,-0x1(%rdi) 296 ret 297 298 .balign 16 299L(P0QH): mov %rdx,-0x88(%rdi) 300 .balign 16 301L(P0QG): mov %rdx,-0x80(%rdi) 302L(P0QF): mov %rdx,-0x78(%rdi) 303L(P0QE): mov %rdx,-0x70(%rdi) 304L(P0QD): mov %rdx,-0x68(%rdi) 305L(P0QC): mov %rdx,-0x60(%rdi) 306L(P0QB): mov %rdx,-0x58(%rdi) 307L(P0QA): mov %rdx,-0x50(%rdi) 308L(P0Q9): mov %rdx,-0x48(%rdi) 309L(P0Q8): mov %rdx,-0x40(%rdi) 310L(P0Q7): mov %rdx,-0x38(%rdi) 311L(P0Q6): mov %rdx,-0x30(%rdi) 312L(P0Q5): mov %rdx,-0x28(%rdi) 313L(P0Q4): mov %rdx,-0x20(%rdi) 314L(P0Q3): mov %rdx,-0x18(%rdi) 315L(P0Q2): mov %rdx,-0x10(%rdi) 316L(P0Q1): mov %rdx,-0x8(%rdi) 317L(P0Q0): ret 318 319 .balign 16 320L(P2QH): mov %rdx,-0x8a(%rdi) 321L(P2QG): mov %rdx,-0x82(%rdi) 322 .balign 16 323L(P2QF): mov %rdx,-0x7a(%rdi) 324L(P2QE): mov %rdx,-0x72(%rdi) 325L(P2QD): mov %rdx,-0x6a(%rdi) 326L(P2QC): mov %rdx,-0x62(%rdi) 327L(P2QB): mov %rdx,-0x5a(%rdi) 328L(P2QA): mov %rdx,-0x52(%rdi) 329L(P2Q9): mov %rdx,-0x4a(%rdi) 330L(P2Q8): mov %rdx,-0x42(%rdi) 331L(P2Q7): mov %rdx,-0x3a(%rdi) 332L(P2Q6): mov %rdx,-0x32(%rdi) 333L(P2Q5): mov %rdx,-0x2a(%rdi) 334L(P2Q4): mov %rdx,-0x22(%rdi) 335L(P2Q3): mov %rdx,-0x1a(%rdi) 336L(P2Q2): mov %rdx,-0x12(%rdi) 337L(P2Q1): mov %rdx,-0xa(%rdi) 338L(P2Q0): mov %dx,-0x2(%rdi) 339 ret 340 341 .balign 16 342L(P3QH): mov %rdx,-0x8b(%rdi) 343L(P3QG): mov %rdx,-0x83(%rdi) 344 .balign 16 345L(P3QF): mov %rdx,-0x7b(%rdi) 346L(P3QE): mov %rdx,-0x73(%rdi) 347L(P3QD): mov %rdx,-0x6b(%rdi) 348L(P3QC): mov %rdx,-0x63(%rdi) 349L(P3QB): mov %rdx,-0x5b(%rdi) 350L(P3QA): mov %rdx,-0x53(%rdi) 351L(P3Q9): mov %rdx,-0x4b(%rdi) 352L(P3Q8): mov %rdx,-0x43(%rdi) 353L(P3Q7): mov %rdx,-0x3b(%rdi) 354L(P3Q6): mov %rdx,-0x33(%rdi) 355L(P3Q5): mov %rdx,-0x2b(%rdi) 356L(P3Q4): mov %rdx,-0x23(%rdi) 357L(P3Q3): mov %rdx,-0x1b(%rdi) 358L(P3Q2): mov %rdx,-0x13(%rdi) 359L(P3Q1): mov %rdx,-0xb(%rdi) 360L(P3Q0): mov %dx,-0x3(%rdi) 361 mov %dl,-0x1(%rdi) 362 ret 363 364 .balign 16 365L(P4QH): mov %rdx,-0x8c(%rdi) 366L(P4QG): mov %rdx,-0x84(%rdi) 367 .balign 16 368L(P4QF): mov %rdx,-0x7c(%rdi) 369L(P4QE): mov %rdx,-0x74(%rdi) 370L(P4QD): mov %rdx,-0x6c(%rdi) 371L(P4QC): mov %rdx,-0x64(%rdi) 372L(P4QB): mov %rdx,-0x5c(%rdi) 373L(P4QA): mov %rdx,-0x54(%rdi) 374L(P4Q9): mov %rdx,-0x4c(%rdi) 375L(P4Q8): mov %rdx,-0x44(%rdi) 376L(P4Q7): mov %rdx,-0x3c(%rdi) 377L(P4Q6): mov %rdx,-0x34(%rdi) 378L(P4Q5): mov %rdx,-0x2c(%rdi) 379L(P4Q4): mov %rdx,-0x24(%rdi) 380L(P4Q3): mov %rdx,-0x1c(%rdi) 381L(P4Q2): mov %rdx,-0x14(%rdi) 382L(P4Q1): mov %rdx,-0xc(%rdi) 383L(P4Q0): mov %edx,-0x4(%rdi) 384 ret 385 386 .balign 16 387L(P5QH): mov %rdx,-0x8d(%rdi) 388L(P5QG): mov %rdx,-0x85(%rdi) 389 .balign 16 390L(P5QF): mov %rdx,-0x7d(%rdi) 391L(P5QE): mov %rdx,-0x75(%rdi) 392L(P5QD): mov %rdx,-0x6d(%rdi) 393L(P5QC): mov %rdx,-0x65(%rdi) 394L(P5QB): mov %rdx,-0x5d(%rdi) 395L(P5QA): mov %rdx,-0x55(%rdi) 396L(P5Q9): mov %rdx,-0x4d(%rdi) 397L(P5Q8): mov %rdx,-0x45(%rdi) 398L(P5Q7): mov %rdx,-0x3d(%rdi) 399L(P5Q6): mov %rdx,-0x35(%rdi) 400L(P5Q5): mov %rdx,-0x2d(%rdi) 401L(P5Q4): mov %rdx,-0x25(%rdi) 402L(P5Q3): mov %rdx,-0x1d(%rdi) 403L(P5Q2): mov %rdx,-0x15(%rdi) 404L(P5Q1): mov %rdx,-0xd(%rdi) 405L(P5Q0): mov %edx,-0x5(%rdi) 406 mov %dl,-0x1(%rdi) 407 ret 408 409 .balign 16 410L(P6QH): mov %rdx,-0x8e(%rdi) 411L(P6QG): mov %rdx,-0x86(%rdi) 412 .balign 16 413L(P6QF): mov %rdx,-0x7e(%rdi) 414L(P6QE): mov %rdx,-0x76(%rdi) 415L(P6QD): mov %rdx,-0x6e(%rdi) 416L(P6QC): mov %rdx,-0x66(%rdi) 417L(P6QB): mov %rdx,-0x5e(%rdi) 418L(P6QA): mov %rdx,-0x56(%rdi) 419L(P6Q9): mov %rdx,-0x4e(%rdi) 420L(P6Q8): mov %rdx,-0x46(%rdi) 421L(P6Q7): mov %rdx,-0x3e(%rdi) 422L(P6Q6): mov %rdx,-0x36(%rdi) 423L(P6Q5): mov %rdx,-0x2e(%rdi) 424L(P6Q4): mov %rdx,-0x26(%rdi) 425L(P6Q3): mov %rdx,-0x1e(%rdi) 426L(P6Q2): mov %rdx,-0x16(%rdi) 427L(P6Q1): mov %rdx,-0xe(%rdi) 428L(P6Q0): mov %edx,-0x6(%rdi) 429 mov %dx,-0x2(%rdi) 430 ret 431 432 .balign 16 433L(P7QH): mov %rdx,-0x8f(%rdi) 434L(P7QG): mov %rdx,-0x87(%rdi) 435 .balign 16 436L(P7QF): mov %rdx,-0x7f(%rdi) 437L(P7QE): mov %rdx,-0x77(%rdi) 438L(P7QD): mov %rdx,-0x6f(%rdi) 439L(P7QC): mov %rdx,-0x67(%rdi) 440L(P7QB): mov %rdx,-0x5f(%rdi) 441L(P7QA): mov %rdx,-0x57(%rdi) 442L(P7Q9): mov %rdx,-0x4f(%rdi) 443L(P7Q8): mov %rdx,-0x47(%rdi) 444L(P7Q7): mov %rdx,-0x3f(%rdi) 445L(P7Q6): mov %rdx,-0x37(%rdi) 446L(P7Q5): mov %rdx,-0x2f(%rdi) 447L(P7Q4): mov %rdx,-0x27(%rdi) 448L(P7Q3): mov %rdx,-0x1f(%rdi) 449L(P7Q2): mov %rdx,-0x17(%rdi) 450L(P7Q1): mov %rdx,-0xf(%rdi) 451L(P7Q0): mov %edx,-0x7(%rdi) 452 mov %dx,-0x3(%rdi) 453 mov %dl,-0x1(%rdi) 454 ret 455 456 .balign 16 457L(ck_align): 458 /* 459 * Align to 16 byte boundary first 460 */ 461 lea L(AliPxQx)(%rip),%r11 462 mov $0x10,%r10 463 mov %rdi,%r9 464 and $0xf,%r9 465 sub %r9,%r10 466 and $0xf,%r10 467 add %r10,%rdi 468 sub %r10,%r8 469 470 movslq (%r11,%r10,4),%rcx 471 lea (%rcx,%r11,1),%r11 472 jmpq *%r11 # align dest to 16-byte boundary 473 474 .balign 16 475L(AliPxQx): .int L(aligned_now)-L(AliPxQx) 476 .int L(A1Q0)-L(AliPxQx) 477 .int L(A2Q0)-L(AliPxQx) 478 .int L(A3Q0)-L(AliPxQx) 479 .int L(A4Q0)-L(AliPxQx) 480 .int L(A5Q0)-L(AliPxQx) 481 .int L(A6Q0)-L(AliPxQx) 482 .int L(A7Q0)-L(AliPxQx) 483 484 .int L(A0Q1)-L(AliPxQx) 485 .int L(A1Q1)-L(AliPxQx) 486 .int L(A2Q1)-L(AliPxQx) 487 .int L(A3Q1)-L(AliPxQx) 488 .int L(A4Q1)-L(AliPxQx) 489 .int L(A5Q1)-L(AliPxQx) 490 .int L(A6Q1)-L(AliPxQx) 491 .int L(A7Q1)-L(AliPxQx) 492 493 .balign 16 494L(A5Q1): mov %dl,-0xd(%rdi) 495L(A4Q1): mov %edx,-0xc(%rdi) 496L(A0Q1): mov %rdx,-0x8(%rdi) 497 jmp L(aligned_now) 498 499 .balign 16 500L(A1Q1): mov %dl,-0x9(%rdi) 501 mov %rdx,-0x8(%rdi) 502 jmp L(aligned_now) 503 504 .balign 16 505L(A1Q0): mov %dl,-0x1(%rdi) 506 jmp L(aligned_now) 507 508 .balign 16 509L(A3Q1): mov %dl,-0xb(%rdi) 510L(A2Q1): mov %dx,-0xa(%rdi) 511 mov %rdx,-0x8(%rdi) 512 jmp L(aligned_now) 513 514 .balign 16 515L(A3Q0): mov %dl,-0x3(%rdi) 516L(A2Q0): mov %dx,-0x2(%rdi) 517 jmp L(aligned_now) 518 519 .balign 16 520L(A5Q0): mov %dl,-0x5(%rdi) 521L(A4Q0): mov %edx,-0x4(%rdi) 522 jmp L(aligned_now) 523 524 .balign 16 525L(A7Q1): mov %dl,-0xf(%rdi) 526L(A6Q1): mov %dx,-0xe(%rdi) 527 mov %edx,-0xc(%rdi) 528 mov %rdx,-0x8(%rdi) 529 jmp L(aligned_now) 530 531 .balign 16 532L(A7Q0): mov %dl,-0x7(%rdi) 533L(A6Q0): mov %dx,-0x6(%rdi) 534 mov %edx,-0x4(%rdi) 535 #jmp L(aligned_now) # Fall thru... 536 537 .balign 16 538L(aligned_now): 539 /* 540 * Check memops method 541 */ 542 cmpl $NO_SSE,.memops_method(%rip) 543 je L(Loop8byte_pre) 544 545 /* 546 * Use SSE2 instructions 547 */ 548 movd %rdx,%xmm0 549 lea L(SSExDx)(%rip),%r9 # after dest alignment 550 punpcklqdq %xmm0,%xmm0 # fill RegXMM0 with the pattern 551 cmp $0xc0,%r8 # 192 552 jge L(byte32sse2_pre) 553 554 add %r8,%rdi 555 556 movslq (%r9,%r8,4),%rcx 557 lea (%rcx,%r9,1),%r9 558 jmpq *%r9 559 560 .balign 16 561L(SSE0QB): movdqa %xmm0,-0xb0(%rdi) 562L(SSE0QA): movdqa %xmm0,-0xa0(%rdi) 563L(SSE0Q9): movdqa %xmm0,-0x90(%rdi) 564L(SSE0Q8): movdqa %xmm0,-0x80(%rdi) 565L(SSE0Q7): movdqa %xmm0,-0x70(%rdi) 566L(SSE0Q6): movdqa %xmm0,-0x60(%rdi) 567L(SSE0Q5): movdqa %xmm0,-0x50(%rdi) 568L(SSE0Q4): movdqa %xmm0,-0x40(%rdi) 569L(SSE0Q3): movdqa %xmm0,-0x30(%rdi) 570L(SSE0Q2): movdqa %xmm0,-0x20(%rdi) 571L(SSE0Q1): movdqa %xmm0,-0x10(%rdi) 572L(SSE0Q0): ret 573 574 .balign 16 575L(SSE1QB): movdqa %xmm0,-0xb1(%rdi) 576L(SSE1QA): movdqa %xmm0,-0xa1(%rdi) 577L(SSE1Q9): movdqa %xmm0,-0x91(%rdi) 578L(SSE1Q8): movdqa %xmm0,-0x81(%rdi) 579L(SSE1Q7): movdqa %xmm0,-0x71(%rdi) 580L(SSE1Q6): movdqa %xmm0,-0x61(%rdi) 581L(SSE1Q5): movdqa %xmm0,-0x51(%rdi) 582L(SSE1Q4): movdqa %xmm0,-0x41(%rdi) 583L(SSE1Q3): movdqa %xmm0,-0x31(%rdi) 584L(SSE1Q2): movdqa %xmm0,-0x21(%rdi) 585L(SSE1Q1): movdqa %xmm0,-0x11(%rdi) 586L(SSE1Q0): mov %dl,-0x1(%rdi) 587 ret 588 589 .balign 16 590L(SSE2QB): movdqa %xmm0,-0xb2(%rdi) 591L(SSE2QA): movdqa %xmm0,-0xa2(%rdi) 592L(SSE2Q9): movdqa %xmm0,-0x92(%rdi) 593L(SSE2Q8): movdqa %xmm0,-0x82(%rdi) 594L(SSE2Q7): movdqa %xmm0,-0x72(%rdi) 595L(SSE2Q6): movdqa %xmm0,-0x62(%rdi) 596L(SSE2Q5): movdqa %xmm0,-0x52(%rdi) 597L(SSE2Q4): movdqa %xmm0,-0x42(%rdi) 598L(SSE2Q3): movdqa %xmm0,-0x32(%rdi) 599L(SSE2Q2): movdqa %xmm0,-0x22(%rdi) 600L(SSE2Q1): movdqa %xmm0,-0x12(%rdi) 601L(SSE2Q0): mov %dx,-0x2(%rdi) 602 ret 603 604 .balign 16 605L(SSE3QB): movdqa %xmm0,-0xb3(%rdi) 606L(SSE3QA): movdqa %xmm0,-0xa3(%rdi) 607L(SSE3Q9): movdqa %xmm0,-0x93(%rdi) 608L(SSE3Q8): movdqa %xmm0,-0x83(%rdi) 609L(SSE3Q7): movdqa %xmm0,-0x73(%rdi) 610L(SSE3Q6): movdqa %xmm0,-0x63(%rdi) 611L(SSE3Q5): movdqa %xmm0,-0x53(%rdi) 612L(SSE3Q4): movdqa %xmm0,-0x43(%rdi) 613L(SSE3Q3): movdqa %xmm0,-0x33(%rdi) 614L(SSE3Q2): movdqa %xmm0,-0x23(%rdi) 615L(SSE3Q1): movdqa %xmm0,-0x13(%rdi) 616L(SSE3Q0): mov %dx,-0x3(%rdi) 617 mov %dl,-0x1(%rdi) 618 ret 619 620 .balign 16 621L(SSE4QB): movdqa %xmm0,-0xb4(%rdi) 622L(SSE4QA): movdqa %xmm0,-0xa4(%rdi) 623L(SSE4Q9): movdqa %xmm0,-0x94(%rdi) 624L(SSE4Q8): movdqa %xmm0,-0x84(%rdi) 625L(SSE4Q7): movdqa %xmm0,-0x74(%rdi) 626L(SSE4Q6): movdqa %xmm0,-0x64(%rdi) 627L(SSE4Q5): movdqa %xmm0,-0x54(%rdi) 628L(SSE4Q4): movdqa %xmm0,-0x44(%rdi) 629L(SSE4Q3): movdqa %xmm0,-0x34(%rdi) 630L(SSE4Q2): movdqa %xmm0,-0x24(%rdi) 631L(SSE4Q1): movdqa %xmm0,-0x14(%rdi) 632L(SSE4Q0): mov %edx,-0x4(%rdi) 633 ret 634 635 .balign 16 636L(SSE5QB): movdqa %xmm0,-0xb5(%rdi) 637L(SSE5QA): movdqa %xmm0,-0xa5(%rdi) 638L(SSE5Q9): movdqa %xmm0,-0x95(%rdi) 639L(SSE5Q8): movdqa %xmm0,-0x85(%rdi) 640L(SSE5Q7): movdqa %xmm0,-0x75(%rdi) 641L(SSE5Q6): movdqa %xmm0,-0x65(%rdi) 642L(SSE5Q5): movdqa %xmm0,-0x55(%rdi) 643L(SSE5Q4): movdqa %xmm0,-0x45(%rdi) 644L(SSE5Q3): movdqa %xmm0,-0x35(%rdi) 645L(SSE5Q2): movdqa %xmm0,-0x25(%rdi) 646L(SSE5Q1): movdqa %xmm0,-0x15(%rdi) 647L(SSE5Q0): mov %edx,-0x5(%rdi) 648 mov %dl,-0x1(%rdi) 649 ret 650 651 .balign 16 652L(SSE6QB): movdqa %xmm0,-0xb6(%rdi) 653L(SSE6QA): movdqa %xmm0,-0xa6(%rdi) 654L(SSE6Q9): movdqa %xmm0,-0x96(%rdi) 655L(SSE6Q8): movdqa %xmm0,-0x86(%rdi) 656L(SSE6Q7): movdqa %xmm0,-0x76(%rdi) 657L(SSE6Q6): movdqa %xmm0,-0x66(%rdi) 658L(SSE6Q5): movdqa %xmm0,-0x56(%rdi) 659L(SSE6Q4): movdqa %xmm0,-0x46(%rdi) 660L(SSE6Q3): movdqa %xmm0,-0x36(%rdi) 661L(SSE6Q2): movdqa %xmm0,-0x26(%rdi) 662L(SSE6Q1): movdqa %xmm0,-0x16(%rdi) 663L(SSE6Q0): mov %edx,-0x6(%rdi) 664 mov %dx,-0x2(%rdi) 665 ret 666 667 .balign 16 668L(SSE7QB): movdqa %xmm0,-0xb7(%rdi) 669L(SSE7QA): movdqa %xmm0,-0xa7(%rdi) 670L(SSE7Q9): movdqa %xmm0,-0x97(%rdi) 671L(SSE7Q8): movdqa %xmm0,-0x87(%rdi) 672L(SSE7Q7): movdqa %xmm0,-0x77(%rdi) 673L(SSE7Q6): movdqa %xmm0,-0x67(%rdi) 674L(SSE7Q5): movdqa %xmm0,-0x57(%rdi) 675L(SSE7Q4): movdqa %xmm0,-0x47(%rdi) 676L(SSE7Q3): movdqa %xmm0,-0x37(%rdi) 677L(SSE7Q2): movdqa %xmm0,-0x27(%rdi) 678L(SSE7Q1): movdqa %xmm0,-0x17(%rdi) 679L(SSE7Q0): mov %edx,-0x7(%rdi) 680 mov %dx,-0x3(%rdi) 681 mov %dl,-0x1(%rdi) 682 ret 683 684 .balign 16 685L(SSE8QB): movdqa %xmm0,-0xb8(%rdi) 686L(SSE8QA): movdqa %xmm0,-0xa8(%rdi) 687L(SSE8Q9): movdqa %xmm0,-0x98(%rdi) 688L(SSE8Q8): movdqa %xmm0,-0x88(%rdi) 689L(SSE8Q7): movdqa %xmm0,-0x78(%rdi) 690L(SSE8Q6): movdqa %xmm0,-0x68(%rdi) 691L(SSE8Q5): movdqa %xmm0,-0x58(%rdi) 692L(SSE8Q4): movdqa %xmm0,-0x48(%rdi) 693L(SSE8Q3): movdqa %xmm0,-0x38(%rdi) 694L(SSE8Q2): movdqa %xmm0,-0x28(%rdi) 695L(SSE8Q1): movdqa %xmm0,-0x18(%rdi) 696L(SSE8Q0): mov %rdx,-0x8(%rdi) 697 ret 698 699 .balign 16 700L(SSE9QB): movdqa %xmm0,-0xb9(%rdi) 701L(SSE9QA): movdqa %xmm0,-0xa9(%rdi) 702L(SSE9Q9): movdqa %xmm0,-0x99(%rdi) 703L(SSE9Q8): movdqa %xmm0,-0x89(%rdi) 704L(SSE9Q7): movdqa %xmm0,-0x79(%rdi) 705L(SSE9Q6): movdqa %xmm0,-0x69(%rdi) 706L(SSE9Q5): movdqa %xmm0,-0x59(%rdi) 707L(SSE9Q4): movdqa %xmm0,-0x49(%rdi) 708L(SSE9Q3): movdqa %xmm0,-0x39(%rdi) 709L(SSE9Q2): movdqa %xmm0,-0x29(%rdi) 710L(SSE9Q1): movdqa %xmm0,-0x19(%rdi) 711L(SSE9Q0): mov %rdx,-0x9(%rdi) 712 mov %dl,-0x1(%rdi) 713 ret 714 715 .balign 16 716L(SSE10QB): movdqa %xmm0,-0xba(%rdi) 717L(SSE10QA): movdqa %xmm0,-0xaa(%rdi) 718L(SSE10Q9): movdqa %xmm0,-0x9a(%rdi) 719L(SSE10Q8): movdqa %xmm0,-0x8a(%rdi) 720L(SSE10Q7): movdqa %xmm0,-0x7a(%rdi) 721L(SSE10Q6): movdqa %xmm0,-0x6a(%rdi) 722L(SSE10Q5): movdqa %xmm0,-0x5a(%rdi) 723L(SSE10Q4): movdqa %xmm0,-0x4a(%rdi) 724L(SSE10Q3): movdqa %xmm0,-0x3a(%rdi) 725L(SSE10Q2): movdqa %xmm0,-0x2a(%rdi) 726L(SSE10Q1): movdqa %xmm0,-0x1a(%rdi) 727L(SSE10Q0): mov %rdx,-0xa(%rdi) 728 mov %dx,-0x2(%rdi) 729 ret 730 731 .balign 16 732L(SSE11QB): movdqa %xmm0,-0xbb(%rdi) 733L(SSE11QA): movdqa %xmm0,-0xab(%rdi) 734L(SSE11Q9): movdqa %xmm0,-0x9b(%rdi) 735L(SSE11Q8): movdqa %xmm0,-0x8b(%rdi) 736L(SSE11Q7): movdqa %xmm0,-0x7b(%rdi) 737L(SSE11Q6): movdqa %xmm0,-0x6b(%rdi) 738L(SSE11Q5): movdqa %xmm0,-0x5b(%rdi) 739L(SSE11Q4): movdqa %xmm0,-0x4b(%rdi) 740L(SSE11Q3): movdqa %xmm0,-0x3b(%rdi) 741L(SSE11Q2): movdqa %xmm0,-0x2b(%rdi) 742L(SSE11Q1): movdqa %xmm0,-0x1b(%rdi) 743L(SSE11Q0): mov %rdx,-0xb(%rdi) 744 mov %dx,-0x3(%rdi) 745 mov %dl,-0x1(%rdi) 746 ret 747 748 .balign 16 749L(SSE12QB): movdqa %xmm0,-0xbc(%rdi) 750L(SSE12QA): movdqa %xmm0,-0xac(%rdi) 751L(SSE12Q9): movdqa %xmm0,-0x9c(%rdi) 752L(SSE12Q8): movdqa %xmm0,-0x8c(%rdi) 753L(SSE12Q7): movdqa %xmm0,-0x7c(%rdi) 754L(SSE12Q6): movdqa %xmm0,-0x6c(%rdi) 755L(SSE12Q5): movdqa %xmm0,-0x5c(%rdi) 756L(SSE12Q4): movdqa %xmm0,-0x4c(%rdi) 757L(SSE12Q3): movdqa %xmm0,-0x3c(%rdi) 758L(SSE12Q2): movdqa %xmm0,-0x2c(%rdi) 759L(SSE12Q1): movdqa %xmm0,-0x1c(%rdi) 760L(SSE12Q0): mov %rdx,-0xc(%rdi) 761 mov %edx,-0x4(%rdi) 762 ret 763 764 .balign 16 765L(SSE13QB): movdqa %xmm0,-0xbd(%rdi) 766L(SSE13QA): movdqa %xmm0,-0xad(%rdi) 767L(SSE13Q9): movdqa %xmm0,-0x9d(%rdi) 768L(SSE13Q8): movdqa %xmm0,-0x8d(%rdi) 769L(SSE13Q7): movdqa %xmm0,-0x7d(%rdi) 770L(SSE13Q6): movdqa %xmm0,-0x6d(%rdi) 771L(SSE13Q5): movdqa %xmm0,-0x5d(%rdi) 772L(SSE13Q4): movdqa %xmm0,-0x4d(%rdi) 773L(SSE13Q3): movdqa %xmm0,-0x3d(%rdi) 774L(SSE13Q2): movdqa %xmm0,-0x2d(%rdi) 775L(SSE13Q1): movdqa %xmm0,-0x1d(%rdi) 776L(SSE13Q0): mov %rdx,-0xd(%rdi) 777 mov %edx,-0x5(%rdi) 778 mov %dl,-0x1(%rdi) 779 ret 780 781 .balign 16 782L(SSE14QB): movdqa %xmm0,-0xbe(%rdi) 783L(SSE14QA): movdqa %xmm0,-0xae(%rdi) 784L(SSE14Q9): movdqa %xmm0,-0x9e(%rdi) 785L(SSE14Q8): movdqa %xmm0,-0x8e(%rdi) 786L(SSE14Q7): movdqa %xmm0,-0x7e(%rdi) 787L(SSE14Q6): movdqa %xmm0,-0x6e(%rdi) 788L(SSE14Q5): movdqa %xmm0,-0x5e(%rdi) 789L(SSE14Q4): movdqa %xmm0,-0x4e(%rdi) 790L(SSE14Q3): movdqa %xmm0,-0x3e(%rdi) 791L(SSE14Q2): movdqa %xmm0,-0x2e(%rdi) 792L(SSE14Q1): movdqa %xmm0,-0x1e(%rdi) 793L(SSE14Q0): mov %rdx,-0xe(%rdi) 794 mov %edx,-0x6(%rdi) 795 mov %dx,-0x2(%rdi) 796 ret 797 798 .balign 16 799L(SSE15QB): movdqa %xmm0,-0xbf(%rdi) 800L(SSE15QA): movdqa %xmm0,-0xaf(%rdi) 801L(SSE15Q9): movdqa %xmm0,-0x9f(%rdi) 802L(SSE15Q8): movdqa %xmm0,-0x8f(%rdi) 803L(SSE15Q7): movdqa %xmm0,-0x7f(%rdi) 804L(SSE15Q6): movdqa %xmm0,-0x6f(%rdi) 805L(SSE15Q5): movdqa %xmm0,-0x5f(%rdi) 806L(SSE15Q4): movdqa %xmm0,-0x4f(%rdi) 807L(SSE15Q3): movdqa %xmm0,-0x3f(%rdi) 808L(SSE15Q2): movdqa %xmm0,-0x2f(%rdi) 809L(SSE15Q1): movdqa %xmm0,-0x1f(%rdi) 810L(SSE15Q0): mov %rdx,-0xf(%rdi) 811 mov %edx,-0x7(%rdi) 812 mov %dx,-0x3(%rdi) 813 mov %dl,-0x1(%rdi) 814 ret 815 816 .balign 16 817L(byte32sse2_pre): 818 mov .largest_level_cache_size(%rip),%r9d 819 cmp %r9,%r8 820 jg L(sse2_nt_move) 821 #jmp L(byte32sse2) # Fall thru... 822 823 .balign 16 824L(byte32sse2): 825 lea -0x80(%r8),%r8 # 128 826 cmp $0x80,%r8 827 movdqa %xmm0,(%rdi) 828 movdqa %xmm0,0x10(%rdi) 829 movdqa %xmm0,0x20(%rdi) 830 movdqa %xmm0,0x30(%rdi) 831 movdqa %xmm0,0x40(%rdi) 832 movdqa %xmm0,0x50(%rdi) 833 movdqa %xmm0,0x60(%rdi) 834 movdqa %xmm0,0x70(%rdi) 835 836 lea 0x80(%rdi),%rdi 837 jge L(byte32sse2) 838 839 lea L(SSExDx)(%rip),%r11 840 add %r8,%rdi 841 movslq (%r11,%r8,4),%rcx 842 lea (%rcx,%r11,1),%r11 843 jmpq *%r11 844 845 .balign 16 846L(sse2_nt_move): 847 sub $0x80,%r8 # 128 848 movntdq %xmm0,(%rdi) 849 movntdq %xmm0,0x10(%rdi) 850 movntdq %xmm0,0x20(%rdi) 851 movntdq %xmm0,0x30(%rdi) 852 movntdq %xmm0,0x40(%rdi) 853 movntdq %xmm0,0x50(%rdi) 854 movntdq %xmm0,0x60(%rdi) 855 movntdq %xmm0,0x70(%rdi) 856 add $0x80,%rdi 857 cmp $0x80,%r8 858 jge L(sse2_nt_move) 859 860 sfence 861 lea L(SSExDx)(%rip),%r11 862 add %r8,%rdi 863 movslq (%r11,%r8,4),%rcx 864 lea (%rcx,%r11,1),%r11 865 jmpq *%r11 866 867 /* 868 * Don't use SSE 869 */ 870 .balign 16 871L(Loop8byte_pre): 872 mov .largest_level_cache_size(%rip),%r9d 873 cmp %r9,%r8 874 jg L(Loop8byte_nt_move) 875 cmp $0x800,%r8 # Use rep sstoq 876 jge L(use_rep) 877 878 .balign 16 879L(Loop8byte): 880 lea -0x80(%r8),%r8 # 128 881 mov %rdx,(%rdi) 882 mov %rdx,0x8(%rdi) 883 mov %rdx,0x10(%rdi) 884 mov %rdx,0x18(%rdi) 885 mov %rdx,0x20(%rdi) 886 mov %rdx,0x28(%rdi) 887 mov %rdx,0x30(%rdi) 888 mov %rdx,0x38(%rdi) 889 cmp $0x80,%r8 890 mov %rdx,0x40(%rdi) 891 mov %rdx,0x48(%rdi) 892 mov %rdx,0x50(%rdi) 893 mov %rdx,0x58(%rdi) 894 mov %rdx,0x60(%rdi) 895 mov %rdx,0x68(%rdi) 896 mov %rdx,0x70(%rdi) 897 mov %rdx,0x78(%rdi) 898 lea 0x80(%rdi),%rdi 899 jge L(Loop8byte) 900 9011: 902 lea L(setPxQx)(%rip),%r11 903 lea (%rdi,%r8,1),%rdi 904 905 movslq (%r11,%r8,4),%rcx 906 lea (%rcx,%r11,1),%r11 907 jmpq *%r11 908 909 /* 910 * Use rep sstoq for sizes > 2K 911 */ 912 .balign 16 913L(use_rep): 914 movq %r8,%rcx # get size in bytes 915 xchg %rax,%rdx 916 shrq $3,%rcx 917 rep 918 sstoq 919 xchg %rax,%rdx 920 andq $7,%r8 # remaining bytes 921 jnz 1b 922 ret 923 924 .balign 16 925L(Loop8byte_nt_move): 926 lea -0x80(%r8),%r8 # 128 927 movnti %rdx,(%rdi) 928 movnti %rdx,0x8(%rdi) 929 movnti %rdx,0x10(%rdi) 930 movnti %rdx,0x18(%rdi) 931 movnti %rdx,0x20(%rdi) 932 movnti %rdx,0x28(%rdi) 933 movnti %rdx,0x30(%rdi) 934 movnti %rdx,0x38(%rdi) 935 cmp $0x80,%r8 936 movnti %rdx,0x40(%rdi) 937 movnti %rdx,0x48(%rdi) 938 movnti %rdx,0x50(%rdi) 939 movnti %rdx,0x58(%rdi) 940 movnti %rdx,0x60(%rdi) 941 movnti %rdx,0x68(%rdi) 942 movnti %rdx,0x70(%rdi) 943 movnti %rdx,0x78(%rdi) 944 lea 0x80(%rdi),%rdi 945 jge L(Loop8byte_nt_move) 946 947 sfence 948 lea L(setPxQx)(%rip),%r11 949 lea (%rdi,%r8,1),%rdi 950 951 movslq (%r11,%r8,4),%rcx 952 lea (%rcx,%r11,1),%r11 953 jmpq *%r11 954 955 .balign 16 956L(SSExDx): .int L(SSE0Q0) -L(SSExDx) 957 .int L(SSE1Q0) -L(SSExDx) 958 .int L(SSE2Q0) -L(SSExDx) 959 .int L(SSE3Q0) -L(SSExDx) 960 .int L(SSE4Q0) -L(SSExDx) 961 .int L(SSE5Q0) -L(SSExDx) 962 .int L(SSE6Q0) -L(SSExDx) 963 .int L(SSE7Q0) -L(SSExDx) 964 965 .int L(SSE8Q0) -L(SSExDx) 966 .int L(SSE9Q0) -L(SSExDx) 967 .int L(SSE10Q0)-L(SSExDx) 968 .int L(SSE11Q0)-L(SSExDx) 969 .int L(SSE12Q0)-L(SSExDx) 970 .int L(SSE13Q0)-L(SSExDx) 971 .int L(SSE14Q0)-L(SSExDx) 972 .int L(SSE15Q0)-L(SSExDx) 973 974 .int L(SSE0Q1) -L(SSExDx) 975 .int L(SSE1Q1) -L(SSExDx) 976 .int L(SSE2Q1) -L(SSExDx) 977 .int L(SSE3Q1) -L(SSExDx) 978 .int L(SSE4Q1) -L(SSExDx) 979 .int L(SSE5Q1) -L(SSExDx) 980 .int L(SSE6Q1) -L(SSExDx) 981 .int L(SSE7Q1) -L(SSExDx) 982 983 .int L(SSE8Q1) -L(SSExDx) 984 .int L(SSE9Q1) -L(SSExDx) 985 .int L(SSE10Q1)-L(SSExDx) 986 .int L(SSE11Q1)-L(SSExDx) 987 .int L(SSE12Q1)-L(SSExDx) 988 .int L(SSE13Q1)-L(SSExDx) 989 .int L(SSE14Q1)-L(SSExDx) 990 .int L(SSE15Q1)-L(SSExDx) 991 992 .int L(SSE0Q2) -L(SSExDx) 993 .int L(SSE1Q2) -L(SSExDx) 994 .int L(SSE2Q2) -L(SSExDx) 995 .int L(SSE3Q2) -L(SSExDx) 996 .int L(SSE4Q2) -L(SSExDx) 997 .int L(SSE5Q2) -L(SSExDx) 998 .int L(SSE6Q2) -L(SSExDx) 999 .int L(SSE7Q2) -L(SSExDx) 1000 1001 .int L(SSE8Q2) -L(SSExDx) 1002 .int L(SSE9Q2) -L(SSExDx) 1003 .int L(SSE10Q2)-L(SSExDx) 1004 .int L(SSE11Q2)-L(SSExDx) 1005 .int L(SSE12Q2)-L(SSExDx) 1006 .int L(SSE13Q2)-L(SSExDx) 1007 .int L(SSE14Q2)-L(SSExDx) 1008 .int L(SSE15Q2)-L(SSExDx) 1009 1010 .int L(SSE0Q3) -L(SSExDx) 1011 .int L(SSE1Q3) -L(SSExDx) 1012 .int L(SSE2Q3) -L(SSExDx) 1013 .int L(SSE3Q3) -L(SSExDx) 1014 .int L(SSE4Q3) -L(SSExDx) 1015 .int L(SSE5Q3) -L(SSExDx) 1016 .int L(SSE6Q3) -L(SSExDx) 1017 .int L(SSE7Q3) -L(SSExDx) 1018 1019 .int L(SSE8Q3) -L(SSExDx) 1020 .int L(SSE9Q3) -L(SSExDx) 1021 .int L(SSE10Q3)-L(SSExDx) 1022 .int L(SSE11Q3)-L(SSExDx) 1023 .int L(SSE12Q3)-L(SSExDx) 1024 .int L(SSE13Q3)-L(SSExDx) 1025 .int L(SSE14Q3)-L(SSExDx) 1026 .int L(SSE15Q3)-L(SSExDx) 1027 1028 .int L(SSE0Q4) -L(SSExDx) 1029 .int L(SSE1Q4) -L(SSExDx) 1030 .int L(SSE2Q4) -L(SSExDx) 1031 .int L(SSE3Q4) -L(SSExDx) 1032 .int L(SSE4Q4) -L(SSExDx) 1033 .int L(SSE5Q4) -L(SSExDx) 1034 .int L(SSE6Q4) -L(SSExDx) 1035 .int L(SSE7Q4) -L(SSExDx) 1036 1037 .int L(SSE8Q4) -L(SSExDx) 1038 .int L(SSE9Q4) -L(SSExDx) 1039 .int L(SSE10Q4)-L(SSExDx) 1040 .int L(SSE11Q4)-L(SSExDx) 1041 .int L(SSE12Q4)-L(SSExDx) 1042 .int L(SSE13Q4)-L(SSExDx) 1043 .int L(SSE14Q4)-L(SSExDx) 1044 .int L(SSE15Q4)-L(SSExDx) 1045 1046 .int L(SSE0Q5) -L(SSExDx) 1047 .int L(SSE1Q5) -L(SSExDx) 1048 .int L(SSE2Q5) -L(SSExDx) 1049 .int L(SSE3Q5) -L(SSExDx) 1050 .int L(SSE4Q5) -L(SSExDx) 1051 .int L(SSE5Q5) -L(SSExDx) 1052 .int L(SSE6Q5) -L(SSExDx) 1053 .int L(SSE7Q5) -L(SSExDx) 1054 1055 .int L(SSE8Q5) -L(SSExDx) 1056 .int L(SSE9Q5) -L(SSExDx) 1057 .int L(SSE10Q5)-L(SSExDx) 1058 .int L(SSE11Q5)-L(SSExDx) 1059 .int L(SSE12Q5)-L(SSExDx) 1060 .int L(SSE13Q5)-L(SSExDx) 1061 .int L(SSE14Q5)-L(SSExDx) 1062 .int L(SSE15Q5)-L(SSExDx) 1063 1064 .int L(SSE0Q6) -L(SSExDx) 1065 .int L(SSE1Q6) -L(SSExDx) 1066 .int L(SSE2Q6) -L(SSExDx) 1067 .int L(SSE3Q6) -L(SSExDx) 1068 .int L(SSE4Q6) -L(SSExDx) 1069 .int L(SSE5Q6) -L(SSExDx) 1070 .int L(SSE6Q6) -L(SSExDx) 1071 .int L(SSE7Q6) -L(SSExDx) 1072 1073 .int L(SSE8Q6) -L(SSExDx) 1074 .int L(SSE9Q6) -L(SSExDx) 1075 .int L(SSE10Q6)-L(SSExDx) 1076 .int L(SSE11Q6)-L(SSExDx) 1077 .int L(SSE12Q6)-L(SSExDx) 1078 .int L(SSE13Q6)-L(SSExDx) 1079 .int L(SSE14Q6)-L(SSExDx) 1080 .int L(SSE15Q6)-L(SSExDx) 1081 1082 .int L(SSE0Q7) -L(SSExDx) 1083 .int L(SSE1Q7) -L(SSExDx) 1084 .int L(SSE2Q7) -L(SSExDx) 1085 .int L(SSE3Q7) -L(SSExDx) 1086 .int L(SSE4Q7) -L(SSExDx) 1087 .int L(SSE5Q7) -L(SSExDx) 1088 .int L(SSE6Q7) -L(SSExDx) 1089 .int L(SSE7Q7) -L(SSExDx) 1090 1091 .int L(SSE8Q7) -L(SSExDx) 1092 .int L(SSE9Q7) -L(SSExDx) 1093 .int L(SSE10Q7)-L(SSExDx) 1094 .int L(SSE11Q7)-L(SSExDx) 1095 .int L(SSE12Q7)-L(SSExDx) 1096 .int L(SSE13Q7)-L(SSExDx) 1097 .int L(SSE14Q7)-L(SSExDx) 1098 .int L(SSE15Q7)-L(SSExDx) 1099 1100 .int L(SSE0Q8) -L(SSExDx) 1101 .int L(SSE1Q8) -L(SSExDx) 1102 .int L(SSE2Q8) -L(SSExDx) 1103 .int L(SSE3Q8) -L(SSExDx) 1104 .int L(SSE4Q8) -L(SSExDx) 1105 .int L(SSE5Q8) -L(SSExDx) 1106 .int L(SSE6Q8) -L(SSExDx) 1107 .int L(SSE7Q8) -L(SSExDx) 1108 1109 .int L(SSE8Q8) -L(SSExDx) 1110 .int L(SSE9Q8) -L(SSExDx) 1111 .int L(SSE10Q8)-L(SSExDx) 1112 .int L(SSE11Q8)-L(SSExDx) 1113 .int L(SSE12Q8)-L(SSExDx) 1114 .int L(SSE13Q8)-L(SSExDx) 1115 .int L(SSE14Q8)-L(SSExDx) 1116 .int L(SSE15Q8)-L(SSExDx) 1117 1118 .int L(SSE0Q9) -L(SSExDx) 1119 .int L(SSE1Q9) -L(SSExDx) 1120 .int L(SSE2Q9) -L(SSExDx) 1121 .int L(SSE3Q9) -L(SSExDx) 1122 .int L(SSE4Q9) -L(SSExDx) 1123 .int L(SSE5Q9) -L(SSExDx) 1124 .int L(SSE6Q9) -L(SSExDx) 1125 .int L(SSE7Q9) -L(SSExDx) 1126 1127 .int L(SSE8Q9) -L(SSExDx) 1128 .int L(SSE9Q9) -L(SSExDx) 1129 .int L(SSE10Q9)-L(SSExDx) 1130 .int L(SSE11Q9)-L(SSExDx) 1131 .int L(SSE12Q9)-L(SSExDx) 1132 .int L(SSE13Q9)-L(SSExDx) 1133 .int L(SSE14Q9)-L(SSExDx) 1134 .int L(SSE15Q9)-L(SSExDx) 1135 1136 .int L(SSE0QA) -L(SSExDx) 1137 .int L(SSE1QA) -L(SSExDx) 1138 .int L(SSE2QA) -L(SSExDx) 1139 .int L(SSE3QA) -L(SSExDx) 1140 .int L(SSE4QA) -L(SSExDx) 1141 .int L(SSE5QA) -L(SSExDx) 1142 .int L(SSE6QA) -L(SSExDx) 1143 .int L(SSE7QA) -L(SSExDx) 1144 1145 .int L(SSE8QA) -L(SSExDx) 1146 .int L(SSE9QA) -L(SSExDx) 1147 .int L(SSE10QA)-L(SSExDx) 1148 .int L(SSE11QA)-L(SSExDx) 1149 .int L(SSE12QA)-L(SSExDx) 1150 .int L(SSE13QA)-L(SSExDx) 1151 .int L(SSE14QA)-L(SSExDx) 1152 .int L(SSE15QA)-L(SSExDx) 1153 1154 .int L(SSE0QB) -L(SSExDx) 1155 .int L(SSE1QB) -L(SSExDx) 1156 .int L(SSE2QB) -L(SSExDx) 1157 .int L(SSE3QB) -L(SSExDx) 1158 .int L(SSE4QB) -L(SSExDx) 1159 .int L(SSE5QB) -L(SSExDx) 1160 .int L(SSE6QB) -L(SSExDx) 1161 .int L(SSE7QB) -L(SSExDx) 1162 1163 .int L(SSE8QB) -L(SSExDx) 1164 .int L(SSE9QB) -L(SSExDx) 1165 .int L(SSE10QB)-L(SSExDx) 1166 .int L(SSE11QB)-L(SSExDx) 1167 .int L(SSE12QB)-L(SSExDx) 1168 .int L(SSE13QB)-L(SSExDx) 1169 .int L(SSE14QB)-L(SSExDx) 1170 .int L(SSE15QB)-L(SSExDx) 1171 1172 SET_SIZE(memset) 1173