KYS: 5월 2016

2016년 5월 17일 화요일

Performance Optimization (성능 최적화)

Performance Optimization

성능 최적화를 하기 위해서는 이전 프로그램보다 적은 메모리를 사용하고 실행 속도가 빨라져야한다. 즉, 해당 프로그램이 이전의 프로그램보다 성능을 최적화한 것이다.

Example Source ( before Optimization )

http://kys910524.blogspot.kr/2016/05/radix-sort-vs-qsort-function-limited.html

이전의 RadixSort는 제한적인 입력에 대해서 qsort보다 약 4배 빠른 것을 알 수 있다.

Optimization Contents

1) 비교 숫자를 기계어 해석에 맞게 10진수가 아닌 16진수로

위 소스는 기수 정렬(Radix Sort)와 qsort 함수의 성능 비교의 소스코드와 그 결과이다. 여기서 기수 정렬은 제한적인 자리수와 10진수 정수를 통한 일반적인 방법으로 구현되었다. qsort함수보다 성능이 3~4배 가량 빨라진 것을 알 수 있다. 여기서 이 소스를 여러가지 방법으로 성능 최적화를 시킨다면, 이보다 얼마나 더 개선될 수 있는지 알아 보겠다. 10진수를 기준으로 비교하였지만, 실제 컴퓨터 CPU는 2진수의 기계어를 해석하기 때문에, radix를 2진수, 8진수 16진수 같이 2진수로 묶이는 숫자로 비교 할 것이다. 여기서는 우리가 프로그래밍할 때, 보통 16진수 단위로 보기 떄문에 16진수를 radix로 사용하겠다. 이로 인하여 성능 최적화를 위한 비트연산(bitwsie operation)을 사용할 수 있게 되었다.

사용된 비트 연산 : |(OR), &(AND), <<(LEFT-SHIFT), >>(RIGHT-SHIFT), ^(XOR)

2) getMaxValue() function

이 함수는 기수 정렬을 위해 최대 자리수를 구하기 위한 최댓값을 얻는 함수이다.

- before

- after

이전 함수는 정렬할 배열 arr에서 최댓값을 찾는 함수였다. 각각의 하나의 값을 비교하기 위해 조건문과 대입문이 필요하다. 하지만 개선된 함수는 모든 arr배열의 값들은 | 비트연산을 하였다. 조건문도 필요 없으며 새로운 값을 대입하는 것이 아닌 | 비트연산 후 대입이기에 이전 함수보다 효율적이다.

예를 들면

10011

10110

11011

을 모두 | 연산을 한다면 11111이 된다. 가장 큰 11011이 모두 1로 꽉찬 11111보다 절대 커질 수 없으므로, 모든 arr배열의 값들을 | 연산하면 가장 큰 숫자를 얻을 수 있다.

3) countSort() function

이 함수는 매개변수로 전달된 자리수를 통해 해당 자리수의 정렬이 수행되는 함수이다.

- before

- after

16진수로 되어 있기 때문에 몫을 구하는 과정이 / exp에서 >> exp의 RIGHT-SHIFT 비트연산으로 바뀌었다. 나누는 연산는 +,-보다 많은 시간이 필요한 작업이기 때문에, 이 과정을 비트연산으로 처리함으로써 효율적인 연산 처리가 가능하다. 비트연산 << 4는 / 16과 같고 비트연산 << 8은 / 256과 같다.

또한 나머지를 구하는 과정을 %R(10)진수 대신에 비트연산 & 0xF를 사용하였다. 0xF는 15이기 때문에 0xF와 원래 숫자를 &연산 할 경우, 0~15까지의 숫자만 나올 수 있으므로 두 과정은 같은 연산이다. 나머지(%) 연산도 나누기(/) 연산 못지 않게 연산 과정이 많이 필요한 처리이므로, 이 과정을 비트 연산으로 처리하면 효율적인 연산 처리가 가능하다.

int tmp[N];

for (i = 0; i < n; i++)

arr[i] = tmp[i];

또한 위의 소스코드 두 구문이 사라졌다. 이 이유는 radixSort 함수를 설명하면서 설명하겠다.

4) radixSort() function

이 함수는 arr배열의 최댓값을 getMaxValue함수를 통해서 얻고 그 최댓값을 통해 1자리부터 최댓값의 자리수까지 countSort함수를 호출하는 함수이다.

- before

- after

countSort함수에서 지역변수 tmp[N]가 없어진 이유는 이전 함수에 만약 int형 데이터 100만개의 데이터를 정렬하려고 한다면, tmp배열이 지역변수로 선언되려고 하면 스택 오버플로우가 발생할 것이다. Windows의 스택 기본 할당은 1MB이며 VisualStudio의 스택 기본 할당도 1MB이다. 따라서 int형(4byte)기준으로 최대 25만개의 데이터만 스택에 배열로 선언할 수 있다. 따라서 radixSort함수에서 스택 공간 대신 힙공간을 이용한다. tmp배열을 동적으로 선언하여 countSort함수에 해당 힙공간을 가리키는 tmp를 전달해주면 된다. 이러한 방법을 통해 해당 소스는 확장성(scalability)가 생기게 되며 불필요한 지역변수 선언이 사라짐으로써 함수 호출과정에서 이전보다 더 적은 메모리를 사용하게 된다.

for (i = 0; i < n; i++)

arr[i] = tmp[i];

countSort함수의 위 문장은 각 자리수마다 radix기준으로 정렬된 결과가 tmp배열에 저장된다. 따라서 다시 원래의 arr배열에 대입해줘야 하기 떄문에 위의 문장이 필요하였다. tmp배열을 arr의 배열에 다시 대입하는 과정은 배열의 크기가 커질수록 그 시간 또한 증가한다. 따라서 arr, tmp, arr, tmp 순서로 자리수 정렬 결과를 번갈아 넣어주면 위의 복사 과정을 하지 않아도 된다. 복사하는 과정이 없어졌기 이 전의 함수보다 효율적이다.

int* pages[] = { arr, tmp };

위의 소스 코드를 통해 arr, tmp 순서로 번갈아 호출 될 수 있게, 두 배열의 주소값을 배열로 저장하였다.

for (int exp = 0; (m >> exp) > 0; exp += 4, page_index ^= 1)

countSort(pages[page_index], pages[page_index ^ 1], n, exp);

exp는 16진수이기에 x16씩 자리수를 계산해야하기 때문에 RIGHT SHIFT 연산을 위해서 4씩 증가하게 바꾼다.

page_index는 0으로 초기화 되어있다. 해당 for문을 한번 돌 때 마다, ^비트연산을 통해 page_index ^= 1 가 사용되기 때문에 0, 1, 0, 1과 같은 값을 토글 효과를 얻을 수 있다.

1 XOR 0 = 1

0 XOR 0 = 0

0 XOR 0 = 1

...

따라서 countSort함수는

countSort(pages[0], pages[1])

countSort(pages[1], pages[0])을 번갈아 가면서 호출하기 때문에 countSort의 정렬결과가 tmp에 저장된다면 해당 tmp는 다음 countSort함수의 arr이 되고 arr은 tmp가 된다.

if (page_index & 1) {

int *_tmp = tmp;

tmp = arr;

arr = tmp;

}

위의 if문은 정렬된 결과를 출력할 때, arr배열을 사용하기 때문에 마지막 countSort함수의 결과가 tmp에 저장되어있다면, tmp와 arr를 서로 swap한다.

4) main() function

- before

- after

main문도 확장성을 위해 arr과 arr2를 힙공간에 동적 할당 해준다.

Example ( after Optimization )

이전의 RadixSort보다 3배 정도 빨라졌으며, qsort보다 10~20배 정도 더 빨라졌다. 또한 이전 소스보다 확장성도 좋아졌으며, 스택에 할당해야하는 불필요한 배열들이 없어져서 메모리 사용도 효율적이게 되었다. 이 결과를 통해 성능 최적화의 중요성을 알 수 있었다. 한정된 자원에 빠른 처리를 요하는 프로그램을 만든다면, 위와 같은 최적화는 필수적일 것이다.

여담으로, 컴파일러를 통해 최적화를 한다면 지금보다 더 빨라진다. release모드의 결과를 보게되면, 다음과 같다.
(여기서 release모드를 사용한다면 최적화하는 과정이 RadixSort뿐만 아니라 qsort도 빨라진다.)

※ std::sort가 qsort보다 빠른 이유

qsort는 콜백함수 compare가 매개변수로 필요하기 때문에 compare 함수 호출에 따른 오버헤드 발생한다.

std::sort는 template으로 구성되어 함수 객체를 사용함으로써 inline이 가능하다.

qsort는 return타입이 int이고 조건에 따른 3가지의 반환 값 1, 0, -1

std::sort는 return타입이 bool이고 조건에 따른 2가지의 반환 값 true, false

std::sort가 qsort 보다 빠른 이유 : Reference Link

2016년 5월 10일 화요일

4.2 Performance Upgrade - Completion

Previous Problem

Previous sources are ineffiently implemented about data send & receive.
If data is transfered by 'receive()' function, Host must wait until the host receive data.
So game'flow don't softly run.

Thus, I improved these sources as follows.

Improved Source

- change current socket option into non-blocking mode as using 'ioctlsocket(sock, FIONBIO, &sock_on)'

- server must wait as continuosly calling 'recevie()' function by the time opponent send data

- change current socket option into non-blocking mode as using 'ioctlsocket(sock, FIONBIO, &sock_on)'

- I block what is calling send(), receive() funtions as using time. I renew opponent's data every second. Also, receive() function don't wait until opponent receive data.

Result Screen (completed)

Source Download (Github Repository)

Console-based Multiplayer Tetris Game Project Completion

2016년 5월 8일 일요일

Effective C++ (ECPP) 'Chapter 2 - 생성자, 소멸자 및 대입 연산자'

항목 5 : C++가 은근슬쩍 만들어 호출해 버리는 함수들에 촉각을 세우자

컴파일러가 자동적으로 생성해주는 기본 생성자(basic constructor), 복사 생성자(copy constructor), 복사 대입 연산자(copy assignment operator), 소멸자(destrucor)는 최종 결과 코드가 'legal'하고 'resonable'해야 한다. 그렇지 않으면, 컴파일러가 거부한다. 따라서 이러한 경우는 직접 기본 생성자와 복사 생성자, 복사 대입연산자, 소멸자를 만들어야 한다. 직접 위의 것들을 만든 경우, 암시적으로 위의 것들은 만들어지지 않는다.

- 암시적으로 생선되는 기본 생성자, 복사 생성자, 복사 대입 연산자, 소멸자 특징

1. public 멤버

2. inline 함수

- 암시적 복사 대입 연산자를 가질 수 없는 경우

1. C++의 참조자가 원래 자신이 참조하고 있는 것과 다른 객체를 참조하는 경우

2. 데이터 멤버가 상수 객체인 경우

3. private로 선언한 기본 클래스로부터 파생된 클래스의 경우

컴파일러는 경우에 따라 클래스에 대해 기본 생성자, 복사 생성자, 복사 대입 연산자, 소멸자를 암시적으로 만들어 놓을 수 있습니다.

class Empty {

public:

Empty() { ... } // 기본 생성자

Empty(const Empty& rhs) { ... } // 복사 생성자

~Empty() { ... } // 소멸자

Empty& operator=(const Empty& rhs) { ... } // 복사 대입 연산자

};

항목 6 : 컴파일러가 만들어낸 함수가 필요 없으면 확실히 이들의 사용을 금해 버리자

class Home {

public:

Home() { ... }

~Home() { ... }

private:

Home(const Home& rhs);

Home& operator=(const Home& rhs);

};

객체의 사본 생성을 막으려면 위와 같이 클래스를 만들어야 한다. Home 객체의 복사를 시도하려고 하면 컴파일러가 거부 할 것이며, 멤버 함수 혹은 friend 함수 안에서 사용하려고 해도 링커가 거부할 것입니다.

1. 함수들의 접근성을 private으로 외부로부터의 호출을 차단한다.

2. private 멤버 함수는 클래스의 멤버 함수와 friend 함수가 호출 할 수 있기 때문에 정의를 안해버리면 링크 시점에서 에러를 발생시켜 막을 수 있다.

에러 탐지는 미리 하는 것이 좋기 때문에 링크 시점 에러를 컴파일 시점 에러로 옮길 수 있다면, 옮기는게 좋다. 복사 생성자와 복사 대입 연산자를 private으로 선언하되, 이것을 별도의 기본 클래스에 넣고 이 클래스를 상속하는 방법을 사용하면 된다. 즉, 다음과 같이 사용한다.

class Uncopyable {

public:

Home() { ... }

~Home() { ... }

private:

Home(const Home& rhs);

Home& operator=(const Home& rhs);

}

class Home : private Uncopyable {

};

객체의 복사를 외부(멤버 함수, friend 함수)에서 시도하려고 할 때, 컴파일러는 Home 클래스 만의 복사 생성자와 복사 대입 연산자를 만들려고 할 것입니다. 하지만 컴파일러가 생성한 복사 함수는 기본 클래스(Uncopyable)의 대응 버전을 호출하게 되어 있습니다. 복사 함수들이 기본 클래스에서 공개되어 있지 않기 때문에 이러한 호출은 발생하지 않고 컴파일 과정에서 오류를 발생시킵니다.

컴파일러에서 자동으로 제공하는 기능을 허용치 않으려면, 대응되는 멤버 함수를 private로 선언한 후에 구현은 하지 않은 채로 두어야 합니다. boost 라이브러리인 Uncopyable과 비슷한 기본 클래스(noncopyable)를 쓰는 것도 한 방법입니다.

항목 7 :
항목 8 :
항목 9 :
항목 10 :
항목 11 :
항목 12 :

2016년 5월 3일 화요일

Radix Sort VS 'qsort' function (limited range condition)

제한적인 입력이 주어 졌을 때,
기수정렬(Radix Sort)과 'qsort' 함수의 속도 비교
랜덤으로 입력받은 100,000개의 데이터를 사용하였다.

제한적인 범위

- 숫자는 정수

- 자리수는 최대 4자리

Source

Result