r 분산 분석 예제

geom_point()를 사용하여 산점도를 그리는 두 연속 변수 간의 공동 변형을 시각화하는 한 가지 좋은 방법을 이미 보았습니다. 포인트의 패턴으로 동변을 볼 수 있습니다. 예를 들어 다이아몬드의 캐럿 크기와 가격 간의 지수 관계를 볼 수 있습니다. 데이터 상관 관계는 모든 비즈니스 분석에서 중요한 부분입니다. R을 사용하면 Spark가 해시 또는 범위별로 데이터를 분할하여 클러스터 에 분산할 수 있습니다. 다음 예제에서는 두 개의 파티션을 만들고 각 파티션의 행 수를 계산합니다. 그런 다음 각 파티션의 첫 번째 레코드를 인쇄합니다. 경우에 따라 데이터의 특정 그룹에 R 함수를 적용할 수 있습니다. 예를 들어 특정 하위 그룹에 대해 회귀 모델을 계산한다고 가정합니다. 이 문제를 해결하려면 group_by 인수를 지정할 수 있습니다.

이 예제에서는 홍채의 행 수를 종별로 계산한 다음 각 종에 대한 간단한 선형 모델에 맞습니다. 예를 들어 mpg 데이터 집합에서 클래스 변수를 가져 가십시오. 당신은 고속도로 마일리지가 클래스에 따라 어떻게 다른지 알고 관심이있을 수 있습니다 : 이상값은 특이한 관찰이다; 패턴에 맞지 않는 데이터 포인트를 이상값은 데이터 입력 오류일 수 있습니다. 다른 시간 이상치는 중요한 새로운 과학을 제안한다. 데이터가 많은 경우 이상값은 히스토그램에서 보기 어려운 경우가 있습니다. 예를 들어 다이아몬드 데이터 집합에서 y 변수의 분포를 예로 들어 보겠습니다. 이상값의 유일한 증거는 x축의 비정상적으로 넓은 제한입니다. 주파수 분산을 표시하기 위한 R 코드의 더 많은 예: 히스토그램, 주파수 다각형, 줄기 및 잎 플롯, 지터링된 점도표, 순위 산점도, 각 값의 빈도, 경험적 누적 분포 함수(ECDF), P 값 플롯, 여러 P-값 플롯, 매끄러운 분포 함수. 나는 R의 기능의 아주 작은 부분을 보여주기 위해 간단한 “안녕하세요 세계”프로그램을 함께 넣어했습니다. 이 가상의 예에서는 다음 블록버스터 프로젝트를 계획하는 영화 제작자라고 가정합니다. 분명히 수익을 극대화하는 데 관심이 있지만, 오늘은 새로운 접근 방식을 취하기로 결정합니다 – 데이터를 사용하여 영화를 성공으로 만드는 것을 찾으십시오.

이상값과 함께 또는 이상값 없이 분석을 반복하는 것이 좋습니다. 결과에 최소한의 영향을 미치고 왜 그 곳에 있는지 알 수 없는 경우 누락된 값으로 바꾸고 계속 진행하는 것이 합리적입니다. 그러나 결과에 상당한 영향을 미치는 경우 정당화 없이 삭제해서는 안 됩니다. 데이터 입력 오류와 같은 원인의 원인을 파악하고 작성시 제거한 내용을 공개해야 합니다. 일반적으로 분산 프로그래밍은 클러스터의 노드 간 통신과 같은 하위 수준 인프라에 훨씬 더 중점을 두면서 이러한 원칙과 대조를 이루었습니다. 과거에 이러한 처리 인기 R 패키지는 지금 더 이상 사용되지 않는 패키지입니다, 눈과 멀티 코어 (각각 CRAN에 출시 2003 과 2009). 그러나 클러스터의 낮은 수준 기능으로 작업하려면 약간 다른 기술 집합이 필요하므로 분석 작업이 저하될 수 있습니다. 분산 된 데이터 구조의 정말 좋은 기능은 특정 데이터 세트의 구조에 맞게 조정 효율적인 알고리즘을 작성할 수 있도록 행, 열 및 블록에 의해 채워지고 액세스 할 수 있다는 것입니다. 예를 들어 개별 피처를 전처리하여 넓은 데이터 집합(행보다 더 많은 열)에 대한 데이터 정리를 용이하게 할 수 있습니다. 모든 기능에도 불구하고 분산 R은 여전히 명확하게 진행 중입니다. 그것은 리눅스 플랫폼에서만 사용할 수 있습니다. 알고리즘과 데이터는 메모리에 상주해야 합니다.

분산 R은 CRAN에서 사용할 수 없으며 우수한 설치 가이드를 사용하더라도 플랫폼을 설치하는 것은 약간의 관련 프로세스입니다. 예를 들어, 실행 하 여 특정 R 버전을 사용 하 여 만들 수 있습니다.: 이 분석의 목적을 위해 미국에서 생산 된 영화에만 관심이 있다고 가정 해 봅시다.

Mentalny Teatr Hipnozy > r 분산 분석 예제