August 1, 2019 Comments(0) Uncategorized

    선형회귀 예제

    다음 플롯은 데이터에 중첩된 회귀 선을 보여 주습니다. 단일 예측 변수를 가진 선형 회귀를 단순 회귀라고 합니다. 실제 응용 프로그램에는 일반적으로 둘 이상의 예측 변수가 있습니다. 이러한 회귀는 다중 회귀라고합니다. 여러 선형 회귀 예제에 대한 자세한 내용은 예제 데이터와 함께 키 드라이버 해석에 대해 여러 선형 회귀를 사용하지 않아야 하는 이유에 대한 이 게시물을 확인하십시오. 흩어져 있는 회색 점은 관찰된 값입니다. 앞에서 말하듯이 B0은 상수이며 y축을 사용하여 회귀 선의 절편입니다. 선형 회귀 예제에서 문제를 살펴보겠습니다. 이것이 선형 회귀의 예측 능력입니다! 피팅된 회귀 선의 방정식은 플롯의 맨 위에 주어집니다. 회귀 방정식은 y의 평균 값을 하나 이상의 x 변수 함수로 설명하기 때문에 방정식은 실제로 “평균” 출생률(또는 “예측된” 출생률도 괜찮을 것)에 대한 것임을 명시해야 합니다. 통계 표기법에서 방정식은 (hat{y} = 4.267 + 1.373x )로 작성될 수 있습니다.

    F-테스트는 우리에게 몇 가지 중요한 통찰력을 제공하기 때문에 회귀에 중요합니다. F-통계가 낮을수록 중요하지 않은 모델에 가깝습니다. 지금까지 전체 데이터 집합을 사용하여 선형 회귀 모델을 빌드하는 방법을 보았습니다. 이러한 방식으로 빌드하면 모델이 새 데이터로 어떻게 수행되는지 알 수 없습니다. 따라서 데이터 집합을 80:20 샘플(training:test)으로 분할한 다음 80% 샘플에서 모델을 빌드한 다음 빌드된 모델을 사용하여 테스트 데이터에 대한 종속 변수를 예측하는 것이 좋습니다. 이제 관찰된 점에서 회귀 선까지 수직으로 그린다. 수직및회귀선 사이의 절편은 y값이 와 같은 점이 됩니다. 첫째, 회귀 계수(b1): 회귀 분석을 사용할 때 X.

    오류 분산값이 평균 제곱 잔차이고 회귀 모델이 일부 결과를 얼마나 심하게 예측하는지 나타내는 경우 Y 값을 예측하려고 합니다. 변수. 즉, 오류 분산은 회귀가 “설명”하지 않는 결과 변수의 분산입니다. 그렇다면 오류 분산이 유용한 척도입니까? 거의. 문제는 오류 분산이 표준화된 측정값이 아니라는 것입니다. 이 문제는 오류 분산을 결과 변수의 분산으로 나누어 해결됩니다. 이를 1에서 빼면 r-정사각형이 됩니다. 그림 2.

    예제 데이터의 분산형 플롯입니다. 검정선은 예측으로 구성되고, 점은 실제 데이터이며, 점과 검정선 사이의 수직선은 예측 오류를 나타냅니다. B1은 회귀선의 경사입니다. x의 각 단위 변경에 대해 y의 변경 정도를 보여 주며, y의 변경 정도를 보여줍니다. 표 1의 예제 데이터는 그림 1에 그려져 있습니다. X와 Y 사이에 긍정적인 관계가 있음을 알 수 있습니다. X에서 Y를 예측하려는 경우 X 값이 높을수록 Y예측이 높아지게 됩니다. b 계수는 X의 한 단위 증가와 연관된 Y의 단위 증가 수입니다. 우리의 b 계수 0.64 IQ의 한 단위 증가 는 성능 증가 0.64 단위와 관련 된 것을 의미 합니다. 아래와 같이 산점도에 회귀 선을 추가하여 이를 시각화했습니다. SAT와 GPA의 두 개의 열이 있습니다.

    이것이 바로 선형 회귀 예제가 될 것입니다. 이 데이터의 흥미롭고 중요한 특징은 연령이 증가함에 따라 회귀 선에서 개별 y-값의 차이가 증가한다는 것입니다. 이 데이터 기능을 비상 분산이라고 합니다. 예를 들어, 10세의 FEV 값은 6세 의 FEV 값보다 더 가변적입니다.