我正在使用以下的阿盟例行公事来布置一阵。 我想知道我法典的效率低下:

.model flat, c
option casemap:none

            public sample
            sample PROC
                            push ebp
                            mov ebp, esp
                            push ecx
                            push edx
                            push esi
                            push eax
                            mov ecx,[ebp+0Ch]
                            mov esi,[ebp+08h]
                            push ecx
                            push esi
                            cmp ecx,1
                            je _exitLoop
                            sub ecx,01h
                                        push ecx
                                        mov edx,DWORD PTR [esi+4]
                                        cmp DWORD PTR [esi],edx
                                        ja _swap
                                        jmp _continueLoop
                                        mov DWORD PTR [esi-4],edx
                                        xchg DWORD PTR [esi],eax    
                                        jmp _skipIncrementESI
                                        add esi,4
                                        pop ecx
                                        loop _miniLoop 
                            pop esi
                            pop ecx 
                            loop _bubbleSort
                            pop eax
                            pop esi
                            pop edx
                            pop ecx
                            pop ebp
            sample ENDP

基本上,我有两处 lo,就泡沫算法而言,通常也是如此。 胎盘对外 lo的价值为10,对内 lo而言,为[Cx-1]。 我已尝试过例行工作,并汇编和成功运作,但我不相信这种做法是否有效。



1) Try to minimize the number of conditional jumps, because they are very expensive. Unroll if possible. 2) Reorder instructions to minimize stalls because of data depencency:

cmp DWORD PTR [esi],edx ;// takes some time to compute,
mov edx,DWORD PTR [esi+4] ; 
ja _swap ;// waits for results of cmp

3) 避免旧复合指令(dec ,jnz pair 高于loop,且不受x 登记的约束

很难起草比优化汇编者所产生守则更快的《组装法》,因为你应考虑许多因素:数据和指示的大小、一致性、管道、教学时间。 http://agner.org/optimize/“rel=“nofollow”>。 我特别建议第一书:C++的优化软件。



  • 不要像<代码>ja标签_1;jmp标签_2。 见jbe 标签_2

  • <代码>loop是一个非常缓慢的指示。 http://code>dec ebx;jnz loopstart

  • 利用所有登记册,而不是一再推波/波塞克斯和西。 使用<条码>bx和<条码>>。

  • jmp-targets should be well aligned. Use align 4 before the two loop-starts and after the jbe

Get yourself a manual for your cpu from Intel (you can download it as pdf), it has the timings for the opcodes, maybe it has other hints too.


            lea esi,[esi+4]

