August 2, 2019 Comments(0) Uncategorized

    랜덤 포레스트 예제

    랜덤 포리스트에는 추천 엔진, 이미지 분류 및 기능 선택과 같은 다양한 응용 프로그램이 있습니다. 충성도 높은 대출 신청자를 분류하고 사기 행위를 식별하며 질병을 예측하는 데 사용할 수 있습니다. 데이터 집합에서 중요한 기능을 선택하는 Boruta 알고리즘의 기본에 있습니다. 마지막 단계는 임의 포리스트 모델을 평가하는 것입니다. 이전에 부트 스트랩 된 데이터 집합을 만들 면서 다른 샘플을 복제했기 때문에 하나의 항목 /샘플을 생두했습니다. 실제 문제에서는 원래 데이터 집합의 약 1/3이 부트스트랩 데이터 집합에 포함되지 않습니다. 랜덤 포리스트는 지니 중요도 또는 불순물(MDI)의 평균 감소를 사용하여 각 피처의 중요성을 계산합니다. 지니 중요성은 노드 불순물의 총 감소라고도 합니다. 변수를 삭제할 때 모델맞춤 또는 정확도가 감소하는 정도입니다. 감소가 클수록 변수가 더 중요합니다.

    여기서 평균 감소는 변수 선택에 대한 중요한 매개 변수입니다. Gini 인덱스는 변수의 전체 설명 능력을 설명할 수 있습니다. 위의 절차는 트리에 대한 원래 배깅 알고리즘을 설명합니다. 임의 포리스트는 이 일반 체계와 한 가지 방법으로만 다릅니다: 학습 프로세스에서 각 후보 분할에서 기능의 임의 하위 집합을 선택하는 수정된 트리 학습 알고리즘을 사용합니다. 이 프로세스를 “피처 배깅”이라고도 합니다. 이렇게하는 이유는 일반 부트 스트랩 샘플에서 나무의 상관 관계입니다 : 하나 또는 몇 가지 기능이 응답 변수 (대상 출력)에 대한 매우 강력한 예측 변수인 경우 이러한 기능은 많은 B 트리에서 선택되어 트리가 됩니다. 상관. Ho.[14] 나무와 숲은 다양한 조건에서 배깅 및 무작위 하위 공간 투영이 정확도 향상에 어떻게 기여하는지 분석합니다. 임의의 포리스트는 앙상블 용어로 우리의 약한 학습자에 해당하는 “의사 결정 트리”라는 표준 기계 학습 기술로 시작합니다. 의사 결정 트리에서 입력은 맨 위에 입력되고 트리를 통과할 때 데이터가 더 작고 작은 집합으로 버킷됩니다.

    자세한 내용은 아래 그림이 촬영되는 여기를 참조하십시오. 랜덤 포리스트가 들어오는 곳입니다. 데이터 집합의 여러 샘플에서 여러 의사 결정 트리의 결과를 결합하여 예측의 변동을 줄이는 데 사용되는 배깅 아이디어를 기반으로 합니다. 문제 진술: 타이타닉에 있던 개인의 특성을 연구하고 살아남을 가능성을 예측할 수 있는 임의포지엄 모델을 구축합니다. 임의 포리스트는 감독된 학습 알고리즘입니다. 분류 및 회귀에 모두 사용할 수 있습니다. 또한 가장 유연하고 사용하기 쉬운 알고리즘입니다. 숲은 나무로 구성되어 있습니다.

    나무가 많을수록 숲이 더 견고하다고 합니다. 임의 포리스트는 임의로 선택된 데이터 샘플에 의사 결정 트리를 만들고, 각 트리에서 예측을 얻고, 투표를 통해 최상의 솔루션을 선택합니다. 또한 기능 중요성에 대한 꽤 좋은 지표를 제공합니다. 임의 포리스트 알고리즘은 감독된 분류 알고리즘입니다. 이름에서 이 알고리즘에서 이 알고리즘에서 이 알고리즘은 여러 개의 트리가 있는 포리스트를 만듭니다. 예:- 크리켓을 재생하지 않는 경우 숫자 값 1과 0을 할당해 보겠습니다. 이제 올바른 분할을 식별하는 단계를 따르십시오: 임의포지엄에 대해 심도 있게 논의하기 전에 의사 결정 트리의 작동 방식을 이해해야 합니다. 앞에서 설명한 것처럼 임의 포리스트는 의사 결정 트리의 모음입니다. 각 의사 결정 트리는 해당 트리에 사용된 각 예측 변수를 기반으로 출력 클래스를 예측합니다. 마지막으로 임의 포리스트에 있는 모든 의사 결정 트리의 결과가 기록되고 과반수 표가 있는 클래스가 출력 클래스로 계산됩니다.