一、技术栈分层架构
大数据技术栈通常分为四个核心层级:
-
数据采集层
负责多源异构数据的实时/批量采集- 日志采集: F l u m e Flume Flume、 L o g s t a s h Logstash Logstash
- 消息队列: K a f k a Kafka Kafka、 R a b b i t M Q RabbitMQ RabbitMQ
- 数据库同步: S q o o p Sqoop Sqoop、 C a n a l Canal Canal
-
数据存储层
解决海量数据的分布式存储问题
H D F S (分布式文件系统) HDFS \text{(分布式文件系统)} HDFS(分布式文件系统)
N o S Q L 数据库: C a s s a n d r a , H B a s e NoSQL \text{数据库:} Cassandra, \ HBase NoSQL数据库:Cassandra, HBase
云存储: S 3 , A z u r e B l o b 云存储:\ S3, \ Azure \ Blob 云存储: S3, Azure Blob -
数据处理层
实现批流融合计算- 批处理: S p a r k ( R D D / D a t a F r a m e ) Spark \ (RDD/DataFrame) Spark (RDD/DataFrame), M a p R e d u c e MapReduce MapReduce
- 流处理: F l i n k Flink Flink, S t o r m Storm Storm, S p a r k S t r e a m i n g Spark \ Streaming Spark Streaming
- SQL引擎: H i v e Hive Hive, I m p a l a Impala Impala
-
数据应用层
支撑上层业务场景
机器学习: S p a r k M L l i b , T e n s o r F l o w 机器学习:\ Spark \ MLlib, \ TensorFlow 机器学习: Spark MLlib, TensorFlow
可视化: T a b l e a u , K i b a n a 可视化:\ Tableau, \ Kibana 可视化: Tableau, Kibana
调度系统: A i r f l o w , A z k a b a n 调度系统:\ Airflow, \ Azkaban 调度系统: Airflow, Azkaban
二、能级演进背景
技术发展遵循"存储→计算→智能"的三阶跃迁:
-
基础存储能级(2003-2010)
Google发布 G F S GFS GFS(2003)和 B i g t a b l e Bigtable Bigtable(2006)论文,奠定分布式存储理论基础。Hadoop实现开源化,解决 P B PB PB级数据存储瓶颈。 -
实时计算能级(2010-2016)
数据时效性需求催生Lambda架构:
批处理层 + 速度层 → 服务层 \text{批处理层} + \text{速度层} \rightarrow \text{服务层} 批处理层+速度层→服务层
Spark内存计算将批处理性能提升 100 × 100\times 100×,Storm实现毫秒级延迟。 -
智能分析能级(2016至今)
云原生架构推动技术融合:- 计算存储分离: S n o w f l a k e Snowflake Snowflake架构
- 批流一体: F l i n k S t a t e f u l C o m p u t i n g Flink \ Stateful \ Computing Flink Stateful Computing
- AI融合: T e n s o r F l o w o n S p a r k TensorFlow \ on \ Spark TensorFlow on Spark
三、典型技术组合
场景 | 技术栈组合 | 吞吐量 |
---|---|---|
实时风控 | K a f k a + F l i n k + R e d i s Kafka + Flink + Redis Kafka+Flink+Redis | > 100 K e v e n t s / s >100K \ events/s >100K events/s |
数仓建设 | H i v e + S p a r k + H D F S Hive + Spark + HDFS Hive+Spark+HDFS | E B EB EB级存储 |
用户画像 | F l i n k + C l i c k H o u s e + T e n s o r F l o w Flink + ClickHouse + TensorFlow Flink+ClickHouse+TensorFlow | 千维特征实时计算 |
四、发展趋势
- Serverless化: A W S G l u e AWS \ Glue AWS Glue等无服务架构降低运维成本
- AI融合深化: P y T o r c h B i g G r a p h PyTorch \ BigGraph PyTorch BigGraph支持万亿级图计算
- 隐私计算:联邦学习与差分隐私技术保障数据安全
当前技术栈已从单一工具演进为生态体系,需根据 数据规模 × 时效性 × 业务复杂度 数据规模 \times 时效性 \times 业务复杂度 数据规模×时效性×业务复杂度三维度选择适配方案。