java spark 예제

이러한 예제는 Spark API에 대한 간략한 개요를 제공합니다. Spark는 임의의 Java 또는 Python 개체를 포함하는 분산 데이터 집합의 개념을 기반으로 합니다. 외부 데이터에서 데이터 집합을 만든 다음 병렬 작업을 적용합니다. 스파크 API의 구성 블록은 RDD API입니다. RDD API에는 이전 데이터 집합을 기반으로 새 데이터 집합을 정의하는 변환과 클러스터에서 실행하는 작업을 시작하는 작업의 두 가지 유형이 있습니다. Spark의 RDD API 외에도 데이터프레임 API 및 머신 러닝 API와 같은 고급 API가 제공됩니다. 이러한 고급 API는 특정 데이터 작업을 수행하는 간결한 방법을 제공합니다. 이 페이지에서는 RDD API를 사용하는 예제와 높은 수준의 API를 사용하는 예제를 보여 드리겠습니다. 입력 데이터 읽기는 스칼라와 정확히 동일한 방식으로 수행됩니다. 스칼라에서는 명시적 KEY_VALUE_PAIRER 변환이 필요하지 않지만 Java에서는 이를 건너뛸 방법이 없는 것 같습니다. 아파치 스파크는 오픈 소스 클러스터 컴퓨팅 프레임워크입니다. 개발자가 HDFS, 카산드라, HBase, S3 등 다양한 데이터 소스에서 다양한 데이터 집약적 워크로드를 실행할 수 있도록 스칼라, 자바, 파이썬 및 R용 우아한 개발 API를 제공합니다. Spark를 사용해야 하는 Java 개발자에게 훌륭한 리소스입니다.

Spark는 처리하는 모든 리소스를 RDD(복원력 분산 데이터 집합)로 간주하여 분석하는 것이 훨씬 더 효율적인 찾기 데이터 구조에서 데이터를 구성하는 데 도움이 됩니다. 이제 입력 파일을 JavaRDD 개체 자체로 변환합니다: 이제 Java 8 API를 사용하여 JavaRDD 파일을 처리하고 파일에 포함된 단어를 별도의 단어로 분할합니다: pom.xml 파일에 스파크 관련 종속성이 있는 Java Maven 프로젝트를 설정해 보겠습니다. : 이 와 함께, 목록 2 WordCount 응용 프로그램에 대 한 소스 코드를 보여줍니다. 자바 7과 자바 8 모두에서 스파크 코드를 작성하는 방법을 보여줍니다. 아래에서 모두의 하이라이트에 대해 설명하겠습니다. 스칼라 버전의 processData() 함수는 세 가지 새로운 함수로 나누어졌습니다. 우리는 단순히 코드를 더 명확하게하기 위해이 작업을 했습니다 – Java는 자세한 것입니다. 모든 데이터 변환 단계는 Scala 솔루션의 processData()와 유사한 하나의 함수에 넣을 수 있습니다. 다음으로, 우리는 먼저 공간 분리 된 단어로 각 줄을 변환한 다음 각 라인 처리의 출력을 병합하는 flatmap 방법을 사용하여 JavaRDD 개체를 단어 JavaRDD 개체로 변환합니다.

Spark Core 구성 요소는 스파크 클러스터의 모든 기본 I/O 기능, 스케줄링 및 모니터링, 작업 디스패치, 서로 다른 스토리지 시스템과의 네트워킹, 오류 복구 및 효율적인 메모리 관리에 대한 책임이 있습니다. 나는 트위터 스트림을 분석하여 지진을 감지하는 실험에 대한 최근 기사를 우연히 만났다. 흥미롭게도, 이 기술은 일본 기상청보다 더 빨리 일본에서 지진을 알 릴 가능성이 있음을 보여주었습니다. 그들은 그들의 문서에서 다른 기술을 사용 하더라도, 그것은 우리가 단순화 된 코드 조각 및 접착제 코드 없이 사용 하는 Spark를 넣을 수 있는 방법을 볼 수 있는 좋은 예 라고 생각 합니다. 우리가 만든 JavaSparkContext 개체는 클러스터에 대한 연결 역할을 합니다. 여기에서 만든 스파크 컨텍스트에는 사용 가능한 모든 로컬 프로세서가 할당되어 있으므로 *.

Mentalny Teatr Hipnozy > java spark 예제