摘要: 环境描述:ambari集群安装完成后,使用jass.conf和jass.properties使用kafka topic报错。 首先需要确保的是jass.conf的行末尾不能有空格,否则会报错:Failed to construct kafka producer. 报错kafka kerberos s 阅读全文
posted @ 2020-12-17 14:03 Wind_LPH 阅读(1245) 评论(0) 推荐(0) 编辑
摘要: 创建用户 kadmin.local addprinc confluent@BIGDATA.COM 或 kadmin.local -q "addprinc confluent@BIGDATA.COM" 导出keytab文件 kadmin.local xst -k /etc/security/keyta 阅读全文
posted @ 2020-12-16 14:53 Wind_LPH 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 基于上编zookeeper的Kerberos: 1、zookeeper的认证方式 可分为world,auth,digest,ip和super。 worlda56爆大奖在线娱乐任何人都可以连接 autha56爆大奖在线娱乐需要通过授权 digest是用户密码 2、添加用户并授权 setAcl /node digest:[userna 阅读全文
posted @ 2020-11-10 14:11 Wind_LPH 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 集群以ambari安装的zookeeper为主。和kafka的Kerberos连接类似。 配置zookeeper_jaas.conf文件如下。 Client { com.sun.security.auth.module.Krb5LoginModule required useKeyTab=true 阅读全文
posted @ 2020-11-10 10:50 Wind_LPH 阅读(954) 评论(0) 推荐(0) 编辑
摘要: set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.dynamic.partition=true;set hive.auto.convert.join = true;set hive.mapjoin.smalltable.fil 阅读全文
posted @ 2020-11-05 09:55 Wind_LPH 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 参考:https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.5/authentication-with-kerberos/content/kerberos_kafka_consuming_events_or_messages_from_kafka_o 阅读全文
posted @ 2020-11-05 09:49 Wind_LPH 阅读(3197) 评论(0) 推荐(1) 编辑
摘要: 1、hive.mapred.mode=strict 对分区表进行查询必须设置where子句的分区条件 2、创建表引用HIve本身 create table parameter_example ( id string, name string, age int ) partitioned by (ye 阅读全文
posted @ 2020-10-22 22:29 Wind_LPH 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 单节点的任务: #!/bin/bash # 指定目录con_home=/app/confluent-6.0.0 #命令提示usage="Usage: $0 (start|stop|status|restart)" if [ $# -lt 1 ]; then echo $usage exit 1fi 阅读全文
posted @ 2020-09-30 16:49 Wind_LPH 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 对于shell的命令实时更新 import subprocess cmd = "你的shell命令" res = subprocess.Popen(shell, shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT) for lin 阅读全文
posted @ 2020-09-16 14:57 Wind_LPH 阅读(950) 评论(0) 推荐(0) 编辑
摘要: 下载地址:https://www.anaconda.com/products/individual ,需要注册用户 配置安装bzip2 yum -y install bzip2 1、bash Anaconda3-2020.07-Linux-x86_64.sh 2、回车通过 3、配置环境变量 expo 阅读全文
posted @ 2020-07-31 17:42 Wind_LPH 阅读(392) 评论(0) 推荐(0) 编辑
摘要: Spark的体系结构如下图。基本认知入门。 数据接口访问层是第一层绿色部分,包含Spark Streming、Spark SQL、MLIB和GraphX。 数据核心处理是第二层橙色,主要包含Spark Core。 数据的存储集中在第三层天蓝色,以HDFS、Hive、S3等为主。 任务调度则集中在第四 阅读全文
posted @ 2020-07-31 09:38 Wind_LPH 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 目录: 1、DF的创建 2、临时表 3、SQL查询 4、RDD到DF的转换 5、DF的API 简介 DataFrame是a56爆大奖在线娱乐不可变的分布式数据集,数据被组织成指定的列。和数据库中的表类似。 以下的spark变量均由SparkSession创建。 1、DataFrame的创建 jsonDf = spa 阅读全文
posted @ 2020-07-30 22:33 Wind_LPH 阅读(427) 评论(0) 推荐(0) 编辑
摘要: RDD不仅是分布式的数据集合,更是Spark的核心。 RDD会跟踪应用a56爆大奖在线娱乐块的所有转换(日志),也就是说,当RDD的某个分区数据丢失时会根据日志进行重新计算。 RDD是无Schema的数据结构。 1、RDD的生成 RDD的生成有三种方式, 1) .parallelize() 集合生成 2)外部文件或 阅读全文
posted @ 2020-07-28 22:26 Wind_LPH 阅读(199) 评论(0) 推荐(0) 编辑
摘要: Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出a56爆大奖在线娱乐中间步骤的祖先树,当RDD的一个分区丢失,可以根据祖先树重建该分区。 RDD有两组操作,转换(transformation)和行动(actio 阅读全文
posted @ 2020-07-28 21:19 Wind_LPH 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 简单版 特点是,无需借助任何第三方库。 # 加密和解密文件 # 字段内容以 ; 分割 class Crypt(): def __init__(self,line): self.line = line self.list=['','A','B','C','D','E','F','G','H','I', 阅读全文
posted @ 2020-05-28 14:51 Wind_LPH 阅读(362) 评论(0) 推荐(0) 编辑
摘要: SELECT pzrq,pzbh,pzlx,'example-1001','演示账套',id AS vou_id,subjcode,kmmc,zy,jfje,dfje,0,0, if(@pzrq = pz.pzrq AND @pzbh = pz.pzbh and @pzlx = pz.pzlx, @ 阅读全文
posted @ 2020-03-23 15:32 Wind_LPH 阅读(4420) 评论(0) 推荐(0) 编辑
摘要: 使用Stack对大JSON进行识别。基本功能完成,需要考虑特殊情况。 public HashMap<String,JSONObject> analyseFileToPutJSONInMysql(String filepath){ HashMap<String,JSONObject> rs = new 阅读全文
posted @ 2020-03-17 10:50 Wind_LPH 阅读(420) 评论(0) 推荐(0) 编辑
摘要: import numpy as npimport pandas as pdindex = pd.date_range('1/1/2000',periods=8)s = pd.Series(np.random.randn(5),index = ['a','b','c','d','e'])df = pd 阅读全文
posted @ 2020-01-12 14:58 Wind_LPH 阅读(394) 评论(0) 推荐(0) 编辑
摘要: import numpy as npimport pandas as pd# # 目录# 生成数据# 查看数据# 选择# 缺失值# 运算-apply# 合并# 分组# 重塑-reshape# 数据透视表# 时间序列# 类别-Category# csv数据输入/输出# s = pd.Series([1 阅读全文
posted @ 2020-01-10 23:12 Wind_LPH 阅读(309) 评论(0) 推荐(0) 编辑
摘要: mrbs是一个开源的会议室管理软件,面向区域多会议室预定软件。 官网:https://mrbs.sourceforge.io/ mrbs是一款php+MySQL/postSQL的架构模式,本人不会php,只谈部署经验-以记录部署过程和所遇问题。 部署环境,centos7.4 + mrbs1.4.10 阅读全文
posted @ 2020-01-07 10:31 Wind_LPH 阅读(2055) 评论(0) 推荐(0) 编辑