회귀 모형의 의미와 개념에 대해 알아보겠습니다.
회귀모형의 의미와 개념 이해
회귀 모델은 특정 현상이나 패턴에 대한 원인에 따라 결과가 어떻게 달라지는지 알아내기 위해 인과 관계를 찾아 함수로 표현하는 인공지능 모델입니다. 회귀 모델은 복잡한 현실 세계를 표현하는 대량의 데이터에서 원인과 결과의 관계를 찾아 함수 형태로 모델을 만들고, 이를 기반으로 새로운 데이터가 들어올 때 결과를 예측하는 모델입니다.회귀 분석는 독립변수와 종속변수 사이의 관계를 추정하기 위한 통계적 방법이다. 회귀 모형은 선형 회귀와 비선형 회귀의 두 가지 유형으로 나눌 수 있다. 선형 회귀 모형은 그래프에 직선을 갖는 반면, 비선형 회귀 모형은 그래프에 곡선을 갖는다. 선형 회귀는 독립변수의 변화에 따라 종속변수의 변화를 2차원 관계로 추정하는 형태이다. 비선형 회귀는 독립변수의 변화에 따라 종속변수의 변화를 직선이 아닌 보다 복잡하고 고차원적인 관계로 추정하는 형태이다.
회귀 모델 의미 및 개념 설명
회귀 모형은 인공지능(AI) 분야에서 독립변수에 의해 종속변수가 어떻게 변화하는지에 대한 인과관계를 표현한 모형으로, 데이터 속에서 원인과 결과에 대해 학습할 수 있도록 해준다. 회귀 모형은 현실 세계를 나타내는 복잡하고 수많은 데이터 속에서 원인과 결과 사이의 간단한 관계를 찾아내고 새로운 예측을 할 수 있도록 해주는 함수이다. 예를 들어, 매출량 증가와 마케팅 투입비용의 관계를 살펴볼 때, 마케팅 투입비용이 증가하면 매출량도 증가하고 마케팅비용이 감소하면 매출량도 감소하는 것으로 나타난다면, 마케팅 투입비용이 독립변수가 되고 매출량이 종속변수가 되어 함수를 만들 수 있다. 이러한 패턴을 보이는 데이터를 바탕으로 마케팅 투입비용에 의해 매출량이 얼마나 증가하는지를 그래프로 나타내면, 위쪽으로 기울어진 직선을 그릴 수 있다. 이 그래프 형태와 모형 함수를 활용하면 특정 마케팅 투입비용에 대한 예상 매출량을 예측할 수 있다. 회귀 모형에는 선형 회귀와 비선형 회귀가 있다. 선형 회귀에서는 모델이 예측한 그래프가 직선이 되고, 비선형 회귀에서는 곡선이 됩니다.[회귀 모델의 2가지 구분]
선형 회귀는 독립 변수와 종속 변수 간의 선형 상관 관계를 모델링하는 분석 기법입니다. 선형 회귀는 입력 데이터를 통해 출력 데이터를 예측하거나 두 변수 간의 선형 관계를 식별하는 데 사용됩니다. 선형 회귀에서 가장 중요한 목표는 정답에 가장 가까운 출력 값을 예측할 수 있는 회귀 계수를 찾는 것입니다. 예측 값과 실제 값의 차이를 오류 또는 손실이라고 합니다. 여기서 최소 제곱 오차 함수를 사용할 수 있습니다. 선형 회귀 모델은 입력 값과 출력 값 간의 관계를 선형 방정식으로 표현할 수 있기 때문에 두 변수 간의 관계를 직관적으로 설명할 수 있습니다. 두 범주의 경우 로지스틱 회귀 모델과 같이 분류 문제에 적용할 수 있는 모델도 있습니다. 비선형 회귀는 독립 변수와 종속 변수 간의 관계가 선형 상관 관계가 아닌 보다 복잡한 현실 세계를 모델링하는 분석 기법입니다. 비선형 회귀는 입력 데이터를 통해 출력 데이터를 예측하기 위해 간단한 선형 상관 관계가 아닌 2차 또는 고차 곡선으로 특징지을 수 있는 독립 변수와 종속 변수 간의 관계를 분석합니다. 비선형 회귀의 대표적인 예로는 다항식과 대수가 있다. 회귀 모형이 선형인지 비선형인지 구분할 때 실제로는 독립변수와 종속변수의 관계가 아닌 회귀계수에 따라 결정된다. 이는 회귀 모형에서 추정된 미지수가 독립변수나 종속변수가 아닌 회귀계수이기 때문이다. 선형 회귀 모형에서 회귀계수 간의 관계는 비교적 간단하고 직관적이기 때문에 각 조건의 영향을 해석하기 쉽다. 그러나 비선형 회귀 모형은 현실 세계의 복잡한 관계 대부분을 표현할 수 있는 함수이다. 비선형 회귀 모형은 딥러닝 기법을 사용하여 보다 정확한 함수를 찾는다. 회귀 모형은 선형인지 비선형인지 여부뿐만 아니라 종속변수의 수에 따라서도 분류할 수 있다. 종속변수가 하나인 회귀 모형을 단변량 회귀 모형이라고 하고, 종속변수가 둘 이상인 모형을 다변량 회귀 모형이라고 한다.[회귀 모델의 종속 변수에 따른 분류]
단변량 회귀 모형은 회귀 분석에서 주로 사용되는 방법입니다. 다변량 회귀 모형은 계량경제학과 같이 종속 변수 간의 상관관계에서 복잡한 현상을 보여줄 때 사용할 수 있습니다. 회귀 모형은 일부 데이터의 값에 영향을 미치는 조건을 고려하여 얻은 평균과 유사한 개념입니다. 통계적으로 모든 데이터는 함수 형태로 표현할 수 있습니다.
[통계학적 관점의 함수 형태]y = f(x1, x2, x3, x4, x5, …. , xk ; β1, β2, β3, β4, β5, … , βk) + ε
통계적 관점에서는 함수 형태로 조건에 따른 평균을 구하는 함수이며, 이 함수를 회귀 모형이라고 한다. 조건 x1, x2, x3, x4, x5, …, xk가 주어졌을 때, 함수는 각 조건의 영향도에 따라 β1, β2, β3, β4, β5, …, βk를 고려하여 조건에 따른 평균값을 구한다. 함수 뒤에 오차항 ε가 붙는다. 현실 세계에서 나타나는 실질적인 제약으로 인해 발견되는 다양한 불확실성을 표현한 것이다. 이 불확실성은 또한 측정 오류나 현실에서 모든 정보를 파악하지 못하기 때문에 나타나는 한계이기도 하다. 통계적 관점에서 오차항 ε는 궁극적으로 평균이 0이고 분산이 0인 정규분포를 따르는 분포 형태이다. 회귀 분석은 위의 함수가 무엇인지 알아내는 과정이다. 인공지능 분야에서는 데이터를 기반으로 만들어진 이진 회귀 모형은 추정된 함수이므로 모형 검증을 통해 검증해야 한다. 회귀 모델의 경우 목표는 가능한 한 현실 세계를 잘 반영할 수 있는 회귀 모델을 만드는 것입니다. 여러 가지 중요한 조건이 함수에 반영되지 않고 추정이 잘못되면 underfitting 또는 overfitting 문제가 발생합니다. 대부분의 회귀 모델은 함수의 일부와 오류의 일부를 함께 반영하며 둘 중 어느 것이 더 큰 비중을 차지하는지에 대한 문제가 있습니다. 이 문제는 인공지능(AI)학습 능력이 더욱 발전할수록 더욱 정확한 모델을 만들 수 있다. 회귀 모델을 만드는 이유는 현실을 보다 단순한 형태로 표현하기 위해서이다. 회귀 모델을 만들기 위해서는 버려지는 정보가 존재하고, 이 버려지는 정보가 회귀 모델의 가정이 된다. 회귀 모델을 만들 때 실제 데이터는 특정한 특성을 가지고 있다고 가정하고 접근한다. 이러한 가정이 많을수록 모델은 단순해지고, 가정이 최소화될수록 모델은 더욱 복잡해진다. 인공지능(AI)은 인간이 스스로 접근할 수 없는 복잡한 현실 세계를 알아낼 수 있는 단계에 도달했다. 이는 가정이 필요 없으며 실제 데이터를 기반으로 학습을 통해 최적의 회귀 모델을 찾는다. 이를 통해 뉴턴의 법칙과 같은 단순한 함수 형태로 표현할 수 있는 법칙뿐만 아니라 인간이 함수 형태로 표현할 수 없는 영역을 표현하는 원리를 찾을 수 있다.