Biotechnology

03-2. Regression의 심화 본문

생명공학 전공지식/Machine Learning

03-2. Regression의 심화

로얄블루 2018. 6. 20. 08:00

안녕하세요,


로얄블루입니다. 





오늘도 이어서 'Machine Learning' 에 대해


Andrew Ng 교수님의 Coursera 수업의 내용을 


가공하여 포스팅하도록 하겠습니다. 



03-2. Regression의 심화



저번 포스팅으로



Regression의 기초에 대해서 간략하게 살펴봤습니다.



보러가기 :  http://biotech-lab.tistory.com/entry/031-Regression%EC%9D%98-%EA%B8%B0%EC%B4%88?category=739602






오늘은 


Multiple Regression와 


Normalization(정규화)에 대해서 알아보겠습니다. 




짱구와 함께 공부를



첫째로 Multiple Regression에 대해 알아보겠습니다. 






Multiple Linear Regression


여러 개의 변수를 통해 Y의 값을 알아내는 수식을 만드는 것을 말합니다.





Multiple Linear Regression


저번 포스팅에서 설명했던 Simple Linear Regression의 차이는


변수의 개수에 있습니다.





아래에 세 방정식이 있습니다.





위의 수식들이 나타낼 모양은 어떻게 될까요?







첫번째 식은 '1차원 직선', 


두번째 식은 '2차원 평면',


그리고 세번째 식은 '3차원 공간'을 나타냅니다. 




예를 들어, 2차원의 평면은 아래와 같은 모양으로 볼 수 있겠죠.




1개의 X만을 가진 수식을 만드는 것 Simple Linear Regression,


그리고 2개 이상의 X 변수들을 가지고 수식을 만든다면,


Multiple Linear Regression이라 부릅니다. 





우리가 저번 시간에 배운


Simple Linear Regression에 대해서 떠올려보도록 하겠습니다. 




이 수식에서 달라져야 할 부분은 바로 





그 외에 Cost Function (비용 함수)와 목표는 달라지지 않습니다.



따라서 식을 고쳐보도록 하겠습니다.



그리고 바뀐 식을 Cost Function (비용 함수)에 대입하면


Multiple Linear Regression을 위한 Cost Function이 탄생합니다.



정리하면, 다음과 같습니다. 





그리고 우리는 지난 시간의 결과와 똑같은 방법을 수행하면 됩니다.

 





이것으로 우리는 Multiple Linear Regression이 


어떻게 작동하고 있는지를 살펴봤습니다.




둘째로 Normalization에 대해 알아보겠습니다. 





그림을 통해 예시를 하나 들겠습니다.


곰모양 젤리가 5개, 팬더가 1가 있다고 가정하겠습니다.




우리는 6개의 곰 모양 중 1개를 선택하고, 


다시 넣어 또 선택하는 행동을 


100번 반복하겠습니다.




과연 곰모양 젤리와 팬더 중 어느 것이 많이 나올까요?




당연히 곰모양 젤리겠죠.


그 이유는 개수가 팬더보다 5배가 많으니, 


나올 확률도 5배가 많겠죠.




데이터의 상태도 마찬가지입니다. 





예를 들어,


이라는 데이터는 


10000 에서 20000 사이의 수치를 가지고 있다고 가정하겠습니다. 


반면 라는 데이터는 1에서 2 사이의 수치를 가지고 있다고 합시다.




1에서 2 사이의 값을 지닌 Y를 예측하고자 하면


A는 0에 가까울 것이고, B는 1 부근에 위치할 가능성이 높을 겁니다. 


과연 과 의 기여도는 동등하다고 말할 수 있을까요?



이것이 Feature ScalingNormalization을 하는 이유입니다.


데이터 값을 어느 정도 치우치지 않게 만드는 역할이죠.






정규화에 있어서 다음 방법이 가장 널리 쓰입니다. 



식은


X에서 평균을 뺀 후


X의 최대값에서 최소값을 뺀 수치로 나눠줍니다.


이 방법을 Mean normalization이라고 부릅니다. 





또는 최대값에서 최소값이 아닌, 최대값으로 나눠주는 경우도 있습니다. 









오늘은 


다중 선형 근사(Multiple Linear Regression)와 


정규화(Normalization)에 대해서 배워보았습니다.






다음 포스팅은 


Normal equation (정규 방정식)을 알아보겠습니다.


이상으로 오늘의 포스팅을 마치도록 하겠습니다. 


다들 행복하세요!




출처 :  


https://www.coursera.org/learn/machine-learning


https://coggle.it/diagram/Wcez0SY9AQABcRGj/t/machine-learning-coursera


'Machine Learning' in Stanford University, Prof. Andrew Ng 





Comments