spark - 程序员宅基地

Spark Launcher Java API提交Spark算法

标签： spark

在介绍之前，我先附上spark 官方文档地址： http://spark.apache.org/docs/latest/api/java/org/apache/spark/launcher/package-summary.html 源码github地址： ...

spark源码（一）spark-submit如何将jar以及配置参数提交给spark服务器

标签： spark big data 大数据

spark-submit提交任务给spark服务器

Spark基础之 Spark的介绍

标签： spark 大数据分布式

Spark是一个分布式计算框架，是由Scala语言编写完成的，是apache基金会下的顶级开源项目，和Mapresuce的作用一样，可以完成对数据的计算。

Spark的简介

标签： spark

1.spark是一门大规模数据处理的同一分析引擎. 2.Spark可以对任意类型的数据进行自定义计算,结构化,半结构化,非结构化的数据都可以进行处理. 3. Hadoop Spark 基础平台, 包含计算, 存储, 调度纯计算工具...

Spark 中 JVM 内存使用及配置详情、spark报错与调优、Spark内存溢出OOM异常

标签： spark big data scala

一般在我们开发spark程序的时候，从代码开发到上线以及后期的维护中，在整个过程中都需要涉及到调优的问题，即一开始需要考虑如何把代码写的更简洁高效调优(即代码优化)，待开发测试完成后，提交任务时综合考量该...

Spark框架

标签： spark 大数据分布式

Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上。【Spark Core】：Spark的核心，Spark核心功能均由Spark Core模块提供，是...

Mastering.Apache.Spark.178397146

标签： Apache Spark

Explore the integration of Apache Spark with third party applications such as H20, Databricks and Titan Evaluate how Cassandra and Hbase can be used for storage An advanced guide with a combination of...

Spark之——Spark Submit提交应用程序

标签： Spark

本部分来源，也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件，用于在集群中启动应用程序（如*.py脚本）；对于spark支持的集群模式，spark-submit提交应用的时候有...

Spark框架概述、 Spark 框架模块详解、Spark 是什么、Spark 四大特点——速度快、易于使用、通用性强、运行...

标签： spark big data

Spark 是加州大学伯克利分校AMP实验室（Algorithms Machines and People Lab）开发的通用大数据出来框架。Spark生态童也称为BDAS，是伯克利AMP实验室所开发的，力图在算法（Algorithms）、机器（Machines）和人...

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

标签：大数据 python java

Apache Spark 3.3.0 从2021年07月03日正式开发，历时近一年，终于在2022年06月16日正式发布，在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE，感谢 Apache Spark 社区为 Spark 3.3 版本...

spring boot整合spark，集群模式或local模式运行，http请求调用spark API，启动job任务配置、优化spark配置...

标签： spark spring boot java

需求描述：前后端分离系统，用SpringBoot整合Spark API,调用大量数据（几百GB，上TB）进行处理计算，单机环境难以达到性能要求，此，需整合直接调用spark跑程序，且在集群跑… 在此，一台测试服务器模拟，搭建伪分布...

Spark 概述

标签： spark big data 大数据

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Hadoop 是由 java 语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。Spark 是一种由 Scala 语言开发的快速、通用、...

Spark的安装配置（spark-3.1.1-bin-hadoop2.7）

标签： spark 大数据 big data

将scala-2.12.13.tgz和spark-3.1.1-bin-hadoop2.7.tgz安装包上传到xshell 在xshell上解压压缩包输入解压命令： tar -zxvf scala-2.12.13.tgz tar -zxvf spark-3.1.1-bin-hadoop2.7.tgz 配置 1、...

spark安装教程

标签： spark hadoop

spark安装

【Spark】Spark安装详解

标签：分布式大数据 hadoop

Spark安装详解Spark的详情Spark的安装详解Spark Local的安装Spark Standalone模式Spark On YARN模式Spark HA模式 Spark的详情 Spark的简绍 Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算...

Spark初识-什么是Spark

标签： spark

Spark是一个基于内存的开源计算框架，于2009年诞生于加州大学伯克利分校AMPLab（AMP：Algorithms，Machines，People），它最初属于伯克利大学的研究性项目，后来在2010年正式开源，并于 2013 年成为了 Apache 基金...

深入浅出Spark-第一章（Spark简介）

标签： java spark 分布式

1. spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进，是UC Berkeley AMP lab所开源的类...

Spark Shell 的使用

标签： Spark

前一章中我们介绍了Spark的Standalone模式的安装. 本章我们介绍下Spark Shell操作窗口的基本的安装. 基本启动与使用基本启动与使用本地启动进入./bin目录, 使用spark-shell即可启动. localhost:bin Sean$ ...

Spark on Hive 和 Hive on Spark的区别与实现

标签： big data

Spark on Hive 是Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下：【总结】Spark使用Hive来提供表的...

【大数据开发运维解决方案】Hadoop2.7.6+Spark单机伪分布式安装

标签： hadoop spark 大数据

一、安装spark依赖的Scala 1.1 下载和解压缩Scala 下载地址：点此下载或则直接去官网挑选下载：官网连接在Linux服务器的opt目录下新建一个名为scala的文件夹，并将下载的压缩包上载上去： [root@hadoop opt]# cd...

Spark Streaming 实时写入Hive

标签： spark hive kafka

所以使用Spark Streaming替代Flume实现入库Hive功能。二、流程图 Created with Raphaël 2.2.0kafkaSpark StreamingETLhive 三、代码实现 pom文件 <?xml version="1.0" encoding="UTF-8"?> <project ...

Spark基础（1）——搭建Spark开发环境、UI界面查看spark集群

标签： hadoop spark

Spark：2.3.2版本 2.Spark部署 Standalone模式（主从） 2.1下载spark安装包安装包下载网址： Downloads | Apache Spark 标1：现在比较稳定的版本为3.2.1。和支持的Hadoop版本标2、标3：.

基于kyuubi+spark3 加速hive批计算任务

标签：大数据 spark hive

经调研及测试，我们发现spark 3.0引擎在sql兼容性及执行速度等方面有巨大优化，平均执行速度是hive的2-10倍，因此我们计划通过spark3.0进行离线加速工作。 0x01架构 kyuubi...

Spark 任务提交流程说明

标签： spark hadoop hdfs

本篇主要阐述 Spark 任务提交的流程，其主要目的在于通过了解 Spark 任务提交可以清楚大概的流程，并知道每一步是做什么；当遇到问题可以快速的知道是什么环节或者哪一步骤出现了问题，及时定位到问题并解决。目前...

SpringBoot 接入 Spark

标签： spark spring boot 大数据

SpringBoot 接入 Spark

Spark 操作 Hive

标签： hive spark big data

文章目录内置Hive外部的 Hive代码操作 Hive运行 Spark SQL CLI运行 Spark beeline Apache Hive 是 Hadoop 上的 SQL 引擎，Spark SQL 编译时可以包含 Hive 支持，也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 ...