吹拉弹唱


  • Home
  • Archive
  • Categories
  • Tags
  • Books
  •  

© 2022 Kleon

Theme Typography by Makito

Proudly published with Hexo

机器学习系统 5-1 - 数据系统

Posted at 2021-05-12Updated at 2021-05-12 机器学习  机器学习 大数据 

高效稳健的数据系统是保障各项业务运行的基石。

数据系统主要可以划分为:

  • 分布式文件系统,如HDFS。
  • 数据收集,包括移动端埋点,服务端日志,第三方数据等
  • 数据仓库,长期保存结构化数据,Hive,提供数据清洗,特征工程等功能。
  • 数据湖,长期保存非结构化数据,如S3,Minio。
  • 数据库,线上服务使用的数据源,按性能分关系型(MySQL,PostgreSQL),键值型(Redis内存),文档型(MongoDB,CouchBase内存),列存储(HBase)。
  • 消息队列,模块解耦,如Kafka。
  • 日志系统,ELK(ElasticSearch, LogStash, Kibana)。
  • 计算引擎,按功能分实时(Flink,Spark Streaming),离线(Spark,Hadoop)。
  • ETL,日志抽取。

Share 

 Previous post: 烤面筋 - Rust Next post: 机器学习系统 4-10 - 逻辑回归 

© 2022 Kleon

Theme Typography by Makito

Proudly published with Hexo