블로그 이미지
두번째 블로그, 조금은 개인적인 공간;ㅅ;
메시에

태그목록

공지사항

최근에 달린 댓글

글 보관함

calendar

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

'공부_2학년 2학기/확률통계'에 해당되는 글 2

  1. 2013.11.21 11/20 확률통계 - Pairs of Random Variables
  2. 2013.11.18 11/18 확률통계 - Scalar Quantization & Entropy and Source Coding

* Pairs of R.V?

- X, Y 두 개의 확률 변수 사이의 관계에 주목한다.

 

* Joint CDF

- F(x,y) = Pr(X<=x, Y<=y)

- Properties

ㄴ x, y 둘 중 하나라도 마이너스 무한대 => 0

ㄴ 둘 다 무한대 => 1

ㄴ 항상 0과 1 사이의 값을 가짐

ㄴ Pr(x1<X<x2, y1<Y<y2) = F(x2, y2) - F(x1, y2) - F(x2, y1) + F(x1, y1) -- 그림으로 보기

ㄴ Marginal CDF : F(x, 무한대) = F(x), F(무한대, y) = F(y)                   -- 그림으로 보기

 

ex) Uniform (unit square) -- 0<x<1, 0<y<1

 

Joint CDF ::

F(x,y) = 1 (x>1, y>1)

         = 0  (x<0 or y<0)

         = xy (0<x<1, 0<y<1)  --  Joint

   = x  (0<x<1, y>1)  --  Marginal

   = y  (x>1, 0<y<1)  --  Marginal

 

* Joint PDF : Joint CDF를 x, y에 대해서 한번씩 편미분

ex) 위의 예제의 Joint CDF = xy  -->  Joint PDF = 1

ex) 위와 같은 Uniform 분포이나 Unit Square가 아니라 가로 x, 세로 y인 경우?

    -> 면적분했을 때 1이 되어야 함 (Joint CDF) -> Joint PDF = 1/ab

 

- Marginal PDF : f(x)는 f(x,y) 을 y에 대해서 마이너스 무한대부터 무한대까지 적분하여 얻음

 

* Marginal PDF가 두 개 주어진다고 해서 원래의 Joint PDF를 알 수는 없다.

counterexample : Marginal이 같은데 Joint가 다른 경우가 존재.

 

* Joint PMF

 

* Joint PMF, PDF의 Conditional Distribution

:: Joint / Marginal.

다른 하나의 변수가 Condition이 됨

 

1. Scalar Quantization (양자화)

 

* 아날로그 데이터 -> 디지털 데이터로 변환하는 과정

 

1) Sampling : continuous한 시간축을 discrete하게 변환

                   나이키스트 샘플링 이론 (원래 주파수의 2배로 샘플링하면 손실 X)

 

2) Scalar Quantization (양자화) : continuous한 value를 discrete하게 변환

   : Information Loss가 불가피.

 

3) Encoding

 

- Quantization의 예

: 4 bit를 사용해서 양자화한다고 했을 때 값은 0~15 중 하나가 될 수 있음.

  값이 9.2라면 -> 9로 변환. (0.2 손실)

 

 

 

 

* 양자화를 위한 척도

 

- 가능한 한 값의 손실을 적게 할 수 있다면 좋겠다.

 

- Signal Distortion

   d = E[(X-q(X))^2]

 

- SQNR (Signal to Quantization Noise power Ratio) : 이게 작을수록 손실이 적다는 뜻.

  SQNR = E[X^2] / d

                   ㄴ Second Moment

 

- 데시벨 (Decibel) : 10 * log    PowerX / PowerY

                                       10

                             3dB가 높아지면 신호 품질이 두 배.

 

 

 

* Scalar Quantization에서의 척도 계산 예 : Linear Quantization에서

 

- X ~ Uniform (-a/2, a/2), PDF : 1/a

 

- Linear Quantization? : 각 구간을 균등하게 나눔.

 

- 3비트 양자화라고 했을 때

  ㄴ (-a/2, a/2) 구간을 8개의 소구간으로 나눈다.

  ㄴ 각 소구간의 중앙값이 그 구간의 value가 된다.

 

- SQNR의 계산 (필기 참고)

  : E[X^2] 구하기 (적분), d 구하기 (Conditional Expected Value, Thm. of Total Prob.)

 

 

* Thm. of Optimum Quantization

 

- Linear Quantization이 언제나 적합한가?

 : 특정 부분에만 신호가 조밀하게 모여있다면 그 구간을 잘게 자르고

   신호가 별로 없는 부분은 넓게 자르는 것이 더 효율적일 것이다.

 : 사람의 목소리 신호는 Laplace Distribution으로 모형화

 

- 최적의 양자화를 위한 방법

: d의 극소값을 구한다 -> 편미분을 통해 도출

 

1) Conditional mean criterion

(x0, x1) 구간의 양자화 값 y0은 (x0, x1) 구간의 평균값이 되어야 한다.

 

2) Midpoint criterion

구간 구분선 x1의 위치는 양쪽의 양자화 값 y0, y1의 중앙값이 되어야 한다.

 

=> x를 구하려면 y 두 개를 알아야 하고 y를 구하려면 x 두 개를 알아야 한다.

=> 연립방정식.

 

- 여기서 나오는 연립방정식을 Analytical한 방법으로 풀기는 어려우므로

  MATLAB 등으로 계산.

 

 

* 예 : Input은 라플라스 분포, n-bit Quantizer의 경우 

- 라플라스 분포의 대칭성을 이용, 양의 값에 M Level 음의 값에 M Level 총 2M Level 할당

 

- n-bit => 2^n 개의 양자화 Level을 가짐. 즉 2^n = 2M

 

- n이 커지면 직접 계산하는 것은 거의 불가능, MATLAB 이용

 

- 처음에는 구분선 x의 값을 Uniform이라 가정하고 임의로 할당

 -> y를 구한다 -> 그 y를 기준으로 x를 다시 구한다 -> ...

 -> 반복하면 최적의 값으로 수렴하게 됨.

 

 

 

2. Entropy & Source Coding

: 정보를 Code로 표현 -> 더 적은 Data 양으로 많은 정보를 표현하고 싶다!

 

 

* 정량적인 정보 (Information) 의 정의

 

- 정보의 양을 확률과 연관지어 생각

 

- 정보란? 어떤 event에 대한 function

 

- 정보의 양이란? probability of the event

  : 그 정보에 대한 사건이 적게 발생한다면 희귀한 정보 -> 정보의 양이 많은 것.

 

- I (A) = -log (pA)

 

 

* 엔트로피 (Entropy)

 

- 정보 양의 Average

 

- H (X) = <k=0부터 n-1까지 모두 더하기> Pr(X=k) * I (X=k)

           =                 ''                          Pk * log (1/Pk)    

 // Pk란 그 정보에 대한 사건이 발생할 확률

 

* 예 : X=0 또는 X=1이 각각 p, 1-p 확률로 발생

 

H (X) = p * log(1/p)  +  (1-p) * log(1/1-p)

 

- 항상 0이나 1만 발생 => H(X) = 0, 즉 정보가 없는 것.

 

- Entropy가 최대치가 될 때는? => p = 0.5 일 때.

 

 

* Source Coding과 Entropy : Entropy Coding (Variable-Length Coding)

 

- a,b,c,d 네 개의 출력이 있을 때 어떻게 코드 할당을 할 것인가?

 

- a가 나올 확률이 1/2, b는 1/4, c와 d는 1/8이라 했을 때

               a    b    c    d               평균 사용 Bit 수 ( = Entropy )

Code 1  :  00   01  10  11                        2

Code 2  :   0   10  110 111                     1.75 (H(X) 계산에 의해서)

 

Code 2가 더 효율적인 코드 할당이다.

 

- 자주 나오는 정보는 더 적은 심볼로 할당, 잘 안나오는 정보는 많이 할당해도 됨.

 

- Code 3 : 0 1 10 01

이런 건 문제가 있는 코드. 0이 나왔을 때 a인지 d인지 구별을 못함.

이전 1 다음