高效稳健的数据系统是保障各项业务运行的基石。
数据系统主要可以划分为:
- 分布式文件系统,如HDFS。
- 数据收集,包括移动端埋点,服务端日志,第三方数据等
- 数据仓库,长期保存结构化数据,Hive,提供数据清洗,特征工程等功能。
- 数据湖,长期保存非结构化数据,如S3,Minio。
- 数据库,线上服务使用的数据源,按性能分关系型(MySQL,PostgreSQL),键值型(Redis内存),文档型(MongoDB,CouchBase内存),列存储(HBase)。
- 消息队列,模块解耦,如Kafka。
- 日志系统,ELK(ElasticSearch, LogStash, Kibana)。
- 计算引擎,按功能分实时(Flink,Spark Streaming),离线(Spark,Hadoop)。
- ETL,日志抽取。