Jackson | @Blog

Hive Join、复杂数据类型操作

Hive 中的Join操作 Inner Join inner join:只返回连接条件匹配上的数据 Left Join :左外连接,以左表的全部数据和右边关联的数据,缺失补NULL Right Join:右外连接,以右表的全部数据和左边关联的数据,缺失补NULL Full Join: 全外连接,返回全部的关联数据,缺失补NULL hiveserver2 启动HiveServer2 服务端......

Hive DML、DDL、Load Data

DDL 首先要创建表才能对Hive中的数据进行操作。 创建一个外部表: 12345678910CREATE EXTERNAL TABLE emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int) ROW FORMAT DELIMITED FIELDS TER......

Hive架构、部署、配置

Hive 概述 Hive 官网 https://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can......

MySQL 分组求 Top N 问题

数据表及字段信息: 12345CREATE TABLE `lesson` ( `sno` varchar(100) DEFAULT NULL, `course` varchar(100) DEFAULT NULL, `score` int(11) DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=latin1 第一列no为学号,第二列course为......

MapReduce执行流程、切片源码分析

MapReduce源码分析: 建议:写一个简单的MapReduce程序,使用Debug进行跟着源码一步一步的查看 入口点:boolean flag = job.waitForCompletion(true); 12345678910111213141516171819public boolean waitForCompletion {主要调用了submit方法submit()......

Yarn 资源调优、Yarn 三种调度器

Yarn 资源调优、Yarn 三种调度器 Yarn的资源调优 环境:服务器内存128G 、16物理core 资源调优如下: 一般情况下装完CentOS,消耗内存1G 系统预留15%-20%内存(包含装CentOS的部分),以防全部使用导致系统夯住 和 oom-kill事件,或者给未来部署组件预留部分空间(128*20%=25.6G==26G) 假设该节点只有NN和DN进程,......

MR on Yarn、文件格式、文件压缩

ResourceManager: application Manager 应用程序管理器 resource schedule 资源调度器 container MR on Yarn 的流程 1.用户向Yarn提交应用程序(job、application),jar包、sql等其中包含了applicationMaster程序、启动application Master的命令等。 2.RM为该jo......

HDFS API 操作

HDFS Java API操作 首先是完成FileSystem的初始化操作: 完成连接集群的配置信息 123456789101112131415161718192021222324252627public class HDFSAPITest { FileSystem fileSystem; /** * 在Before中完成FileSystem的初始化操作 ......

HDFS 副本存放策略、文件读写流程

HDFS 副本存放策略、文件读写流程、PID、常规命令、磁盘检查、数据均衡 HDFS 副本存放策略 HDFS默认三副本,在hdfs-site.xml 文件中进行配置,参数 dfs.replication 第一个副本: 假如上传节点为DN节点,优先放置本节点; 否则就随机挑选一台磁盘不太慢、CPU不太繁忙的节点存储副本 第二个副本: 放置在于第一个副本的不同的机架的一个节点上 第三个副本:......

相关连接地址

1.block自动修复: 2.Linux-Memory: 3.mysql安装: 4.window部署dbeaver海狸 5.cloudera组件下载地址 6.hadoop版本变动地址: 7.Apache Hadoop文档 8.Cloudera Hadoop文档 9.ssh信任关系 10.ssh信任关系多台: 11.Linux两个机制 oom clean ...