Hadoop大数据处理(Python版)

BUG之神 742

一、大数据概念

第1章 大数据概述


二、Linux(CentOS7)系统的安装与使用

Linux系统的安装:

1.Linux CentOS镜像为什么建议使用CentOS7.6 1810 阿里云版?

2.Vmware安装教程

3.VMware设置共享目录

4.CentOS7.6安装教程

Linux静态ip配置:

1.CentOS7设置静态ip教程

2.shell脚本一键设置CentOS静态ip教程

Linux系统的使用:

1.常用命令:

cd命令

ls命令

mkdir创建目录命令

cp复制命令

mv命令:移动、剪切

rm删除命令

2.权限与目录:

ls -l查看文件详细信息

Linux 常见打包命令

ln命令:为指定文件或目录建立同步链接

cat命令:查看文件内容

tail命令:查询文件内容

umask命令:设置用户在创建文件或目录时需要减去的默认权限

chattr命令:用于设置文件或目录隐藏属性

lsattr命令:显示chattr设置的隐藏属性

file命令:用于指定文件(任何文件)的基本信息

find命令:用于目录结构中搜索文件

tree命令:用于查询目录结构

3.Linux文件操作

文件与目录管理

用户管理

口令管理

用户组管理

与用户有关文件

Linux  其他命令

4.网络配置:

Linux网络配置


三、Python3语言基础

3.1Python3简介:见PPT

3.2Python及Pycharm安装教程

3.3基础语法:见PPT

3.4:见PPT

数据类型,number数据类型,字符串,列表,元组,字典,集合,函数,模块,类和对象,封装,构造函数,继承,异常,操作mysql


四、Hadoop开发环境

1.Hadoop非高可用大数据集群VS高可用大数据集群

2.Hadoop全分布设置教程

3.win10配置hosts,通过主机名访问hadoop集群

4.hadoop集群常见错误及解决办法


五、HDFS技术

HDFS常用命令

python hdfs模块

python pyhdfs模块


六、MapReduce技术

python sys.stdin.readline()的用法

单词计数MapReduce的原理分析

利用python进行MapReduce编程

yield相关用法

python用于mapreduce处理的mrjob模块

电影《教父》小说词频分析-MRjob

mrjob进阶详解教程

MRjob项目实战(观影日志分析)


七、Hive数据仓库

Hive安装

HiveQL操作详解


八、Sqoop工具

Sqoop工具


九、Hbase分布式数据库

Hbase完全分布式

HbaseShell DDL操作

HbaseShell DML操作


十、Hadoop综合实战

 


 

分享