- Performance Optimization
성능 최적화를 하기 위해서는 이전 프로그램보다 적은 메모리를 사용하고 실행 속도가 빨라져야한다. 즉, 해당 프로그램이 이전의 프로그램보다 성능을 최적화한 것이다.
- Example Source ( before Optimization )
http://kys910524.blogspot.kr/2016/05/radix-sort-vs-qsort-function-limited.html
이전의 RadixSort는 제한적인 입력에 대해서 qsort보다 약 4배 빠른 것을 알 수 있다.
- Optimization Contents
1) 비교 숫자를 기계어 해석에 맞게 10진수가 아닌 16진수로
위 소스는 기수 정렬(Radix Sort)와 qsort 함수의 성능 비교의 소스코드와 그 결과이다. 여기서 기수 정렬은 제한적인 자리수와 10진수 정수를 통한 일반적인 방법으로 구현되었다. qsort함수보다 성능이 3~4배 가량 빨라진 것을 알 수 있다. 여기서 이 소스를 여러가지 방법으로 성능 최적화를 시킨다면, 이보다 얼마나 더 개선될 수 있는지 알아 보겠다. 10진수를 기준으로 비교하였지만, 실제 컴퓨터 CPU는 2진수의 기계어를 해석하기 때문에, radix를 2진수, 8진수 16진수 같이 2진수로 묶이는 숫자로 비교 할 것이다. 여기서는 우리가 프로그래밍할 때, 보통 16진수 단위로 보기 떄문에 16진수를 radix로 사용하겠다. 이로 인하여 성능 최적화를 위한 비트연산(bitwsie operation)을 사용할 수 있게 되었다.
사용된 비트 연산 : |(OR), &(AND), <<(LEFT-SHIFT), >>(RIGHT-SHIFT), ^(XOR)
2) getMaxValue() function
이 함수는 기수 정렬을 위해 최대 자리수를 구하기 위한 최댓값을 얻는 함수이다.
- before
- after
이전 함수는 정렬할 배열 arr에서 최댓값을 찾는 함수였다. 각각의 하나의 값을 비교하기 위해 조건문과 대입문이 필요하다. 하지만 개선된 함수는 모든 arr배열의 값들은 | 비트연산을 하였다. 조건문도 필요 없으며 새로운 값을 대입하는 것이 아닌 | 비트연산 후 대입이기에 이전 함수보다 효율적이다.
예를 들면
10011
10110
11011
을 모두 | 연산을 한다면 11111이 된다. 가장 큰 11011이 모두 1로 꽉찬 11111보다 절대 커질 수 없으므로, 모든 arr배열의 값들을 | 연산하면 가장 큰 숫자를 얻을 수 있다.
3) countSort() function
이 함수는 매개변수로 전달된 자리수를 통해 해당 자리수의 정렬이 수행되는 함수이다.
- before
- after
16진수로 되어 있기 때문에 몫을 구하는 과정이 / exp에서 >> exp의 RIGHT-SHIFT 비트연산으로 바뀌었다. 나누는 연산는 +,-보다 많은 시간이 필요한 작업이기 때문에, 이 과정을 비트연산으로 처리함으로써 효율적인 연산 처리가 가능하다. 비트연산 << 4는 / 16과 같고 비트연산 << 8은 / 256과 같다.
또한 나머지를 구하는 과정을 %R(10)진수 대신에 비트연산 & 0xF를 사용하였다. 0xF는 15이기 때문에 0xF와 원래 숫자를 &연산 할 경우, 0~15까지의 숫자만 나올 수 있으므로 두 과정은 같은 연산이다. 나머지(%) 연산도 나누기(/) 연산 못지 않게 연산 과정이 많이 필요한 처리이므로, 이 과정을 비트 연산으로 처리하면 효율적인 연산 처리가 가능하다.
int tmp[N];
for (i = 0; i < n; i++)
arr[i] = tmp[i];
또한 위의 소스코드 두 구문이 사라졌다. 이 이유는 radixSort 함수를 설명하면서 설명하겠다.
4) radixSort() function
이 함수는 arr배열의 최댓값을 getMaxValue함수를 통해서 얻고 그 최댓값을 통해 1자리부터 최댓값의 자리수까지 countSort함수를 호출하는 함수이다.
- before
- after
countSort함수에서 지역변수 tmp[N]가 없어진 이유는 이전 함수에 만약 int형 데이터 100만개의 데이터를 정렬하려고 한다면, tmp배열이 지역변수로 선언되려고 하면 스택 오버플로우가 발생할 것이다. Windows의 스택 기본 할당은 1MB이며 VisualStudio의 스택 기본 할당도 1MB이다. 따라서 int형(4byte)기준으로 최대 25만개의 데이터만 스택에 배열로 선언할 수 있다. 따라서 radixSort함수에서 스택 공간 대신 힙공간을 이용한다. tmp배열을 동적으로 선언하여 countSort함수에 해당 힙공간을 가리키는 tmp를 전달해주면 된다. 이러한 방법을 통해 해당 소스는 확장성(scalability)가 생기게 되며 불필요한 지역변수 선언이 사라짐으로써 함수 호출과정에서 이전보다 더 적은 메모리를 사용하게 된다.
for (i = 0; i < n; i++)
arr[i] = tmp[i];
countSort함수의 위 문장은 각 자리수마다 radix기준으로 정렬된 결과가 tmp배열에 저장된다. 따라서 다시 원래의 arr배열에 대입해줘야 하기 떄문에 위의 문장이 필요하였다. tmp배열을 arr의 배열에 다시 대입하는 과정은 배열의 크기가 커질수록 그 시간 또한 증가한다. 따라서 arr, tmp, arr, tmp 순서로 자리수 정렬 결과를 번갈아 넣어주면 위의 복사 과정을 하지 않아도 된다. 복사하는 과정이 없어졌기 이 전의 함수보다 효율적이다.
int* pages[] = { arr, tmp };
위의 소스 코드를 통해 arr, tmp 순서로 번갈아 호출 될 수 있게, 두 배열의 주소값을 배열로 저장하였다.
for (int exp = 0; (m >> exp) > 0; exp += 4, page_index ^= 1)
countSort(pages[page_index], pages[page_index ^ 1], n, exp);
exp는 16진수이기에 x16씩 자리수를 계산해야하기 때문에 RIGHT SHIFT 연산을 위해서 4씩 증가하게 바꾼다.
page_index는 0으로 초기화 되어있다. 해당 for문을 한번 돌 때 마다, ^비트연산을 통해 page_index ^= 1 가 사용되기 때문에 0, 1, 0, 1과 같은 값을 토글 효과를 얻을 수 있다.
1 XOR 0 = 1
0 XOR 0 = 0
0 XOR 0 = 1
...
따라서 countSort함수는
countSort(pages[0], pages[1])
countSort(pages[1], pages[0])을 번갈아 가면서 호출하기 때문에 countSort의 정렬결과가 tmp에 저장된다면 해당 tmp는 다음 countSort함수의 arr이 되고 arr은 tmp가 된다.
if (page_index & 1) {
int *_tmp = tmp;
tmp = arr;
arr = tmp;
}
위의 if문은 정렬된 결과를 출력할 때, arr배열을 사용하기 때문에 마지막 countSort함수의 결과가 tmp에 저장되어있다면, tmp와 arr를 서로 swap한다.
4) main() function
- before
- after
main문도 확장성을 위해 arr과 arr2를 힙공간에 동적 할당 해준다.
- Example ( after Optimization )
이전의 RadixSort보다 3배 정도 빨라졌으며, qsort보다 10~20배 정도 더 빨라졌다. 또한 이전 소스보다 확장성도 좋아졌으며, 스택에 할당해야하는 불필요한 배열들이 없어져서 메모리 사용도 효율적이게 되었다. 이 결과를 통해 성능 최적화의 중요성을 알 수 있었다. 한정된 자원에 빠른 처리를 요하는 프로그램을 만든다면, 위와 같은 최적화는 필수적일 것이다.
여담으로, 컴파일러를 통해 최적화를 한다면 지금보다 더 빨라진다. release모드의 결과를 보게되면, 다음과 같다.
(여기서 release모드를 사용한다면 최적화하는 과정이 RadixSort뿐만 아니라 qsort도 빨라진다.)
※ std::sort가 qsort보다 빠른 이유
std::sort가 qsort 보다 빠른 이유 : Reference Link
- CF
여담으로, 컴파일러를 통해 최적화를 한다면 지금보다 더 빨라진다. release모드의 결과를 보게되면, 다음과 같다.
(여기서 release모드를 사용한다면 최적화하는 과정이 RadixSort뿐만 아니라 qsort도 빨라진다.)
※ std::sort가 qsort보다 빠른 이유
1>
qsort는 콜백함수 compare가 매개변수로 필요하기 때문에 compare 함수 호출에 따른 오버헤드 발생한다.
std::sort는 template으로 구성되어 함수 객체를 사용함으로써 inline이 가능하다.
2>
qsort는 return타입이 int이고 조건에 따른 3가지의 반환 값 1, 0, -1
std::sort는 return타입이 bool이고 조건에 따른 2가지의 반환 값 true, false
댓글 없음:
댓글 쓰기