博客
关于我
Spark MLlib 官方指南手册中文版
阅读量:462 次
发布时间:2019-03-06

本文共 1466 字,大约阅读时间需要 4 分钟。

Spark机器学习库(MLlib)指南

Spark MLlib 是 Spark 生态系统中专门为机器学习设计的库,它的目标是使实用的机器学习算法能够高效地扩展并易于使用。MLlib 提供了多种机器学习工具和算法,涵盖分类、回归、聚类和协同过滤等常见任务。

MLlib 的主要功能

  • 机器学习算法

    MLlib 提供了多种标准的机器学习算法,包括分类、回归、聚类和协同过滤算法。

  • 特征工程

    特征工程是机器学习中的核心环节,MLlib 提供了多种特征处理工具,包括特征提取、特征转换、特征选择和降维方法。

  • 管道构建

    MLlib 提供了构建、评估和调整机器学习管道的工具,使得用户能够轻松地构建和优化机器学习流程。

  • 数据存储与加载

    MLlib 提供了将算法、模型和管道保存和加载的功能,简化了机器学习模型的管理和部署。

  • 实用工具

    MLlib 还集成了线性代数、统计和数据处理等实用工具,为机器学习任务提供了强大的支持。

  • MLlib 的接口转变

    在 Spark 2.0 的版本中,MLlib 的主要机器学习接口已经从基于 RDD 的接口转向了基于 DataFrames 的接口。以下是关于这一转变的详细信息:

  • 基于 RDD 接口的维护

    MLlib 将继续在 spark.mllib 包中支持基于 RDD 的接口,这些接口仍然可以用于旧版本的 Spark。

  • 不再添加新的 RDD 接口

    MLlib 不再在基于 RDD 的接口中添加新的特征,未来所有新功能都将重点放在基于 DataFrames 的接口上。

  • 持续优化 DataFrames 接口

    随着 Spark 2.0 以后的版本推进,MLlib 将继续向基于 DataFrames 的接口添加新特征,缩小与基于 RDD 接口的差异。

  • 接口统一的时间表

    当基于 RDD 的接口与基于 DataFrames 的接口在特征上实现完全统一时(预计在 Spark 2.2 版本中),基于 RDD 的接口将被逐步废弃。

  • 接口全面移除

    预计在 Spark 3.0 版本中,基于 RDD 的 MLlib 接口将被完全移除。

  • 为什么选择基于 DataFrames 的接口?

    基于 DataFrames 的接口具有以下优势:

  • 更易于使用

    DataFrames 提供了更直观和易于掌握的接口,支持多种编程语言的统一开发体验。

  • 更强大的数据处理能力

    DataFrames 提供了对 Spark 数据源的更高效的操作,以及结构化查询语言(DataFrame 的查询语言),使得数据处理更加灵活。

  • 更完善的机器学习管道支持

    DataFrames 的接口更适合构建和优化机器学习管道,特别是在特征工程和模型调试方面表现更为突出。

  • MLlib 的工具包信息

    MLlib 的工具包使用 Breeze 作为线性代数库,Breeze 又依赖于 Netlib-Java 进行数值计算优化。如果本地的 Breeze 包未安装,运行时将显示警告提示,并切换到纯虚拟机模式执行。

    需要注意的是,由于本地的 Netlib-Java 安装可能会涉及证书许可问题,默认情况下 MLlib 不会使用本地代理进行优化。如果需要使用本地代理,请参考 Netlib-Java 的官方文档获取安装说明。

    对于基于 Python 的使用,需要确保安装了 NumPy 1.4 及以上版本,以便充分发挥 MLlib 的性能。

    中文指南目录

    点击以下目录项可查看详细内容:

    1. 特征提取、特征变换、特征选择
    2. 分类和回归
      • 3.1 分类
      • 3.2 回归
    3. 聚类
    4. 模型选择和调试

    转载地址:http://fnfbz.baihongyu.com/

    你可能感兴趣的文章
    NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
    查看>>
    nifi使用过程-常见问题-以及入门总结---大数据之Nifi工作笔记0012
    查看>>
    NIFI分页获取Mysql数据_导入到Hbase中_并可通过phoenix客户端查询_含金量很高的一篇_搞了好久_实际操作05---大数据之Nifi工作笔记0045
    查看>>
    NIFI分页获取Postgresql数据到Hbase中_实际操作---大数据之Nifi工作笔记0049
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    NIFI同步MySql数据源数据_到原始库hbase_同时对数据进行实时分析处理_同步到清洗库_实际操作06---大数据之Nifi工作笔记0046
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
    查看>>
    NIFI大数据进阶_FlowFile生成器_GenerateFlowFile处理器_ReplaceText处理器_处理器介绍_处理过程说明---大数据之Nifi工作笔记0019
    查看>>
    NIFI大数据进阶_FlowFile生成器_GenerateFlowFile处理器_ReplaceText处理器_实际操作---大数据之Nifi工作笔记0020
    查看>>
    NIFI大数据进阶_Json内容转换为Hive支持的文本格式_实际操作_02---大数据之Nifi工作笔记0032
    查看>>
    NIFI大数据进阶_Json内容转换为Hive支持的文本格式_操作方法说明_01_EvaluteJsonPath处理器---大数据之Nifi工作笔记0031
    查看>>
    NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka消费者处理器_来消费kafka数据---大数据之Nifi工作笔记0037
    查看>>
    NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka生产者---大数据之Nifi工作笔记0036
    查看>>
    NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
    查看>>
    NIFI大数据进阶_NIFI监控功能实际操作_Summary查看系统和处理器运行情况_viewDataProvenance查看_---大数据之Nifi工作笔记0026
    查看>>
    NIFI大数据进阶_NIFI监控的强大功能介绍_处理器面板_进程组面板_summary监控_data_provenance事件源---大数据之Nifi工作笔记0025
    查看>>
    NIFI大数据进阶_NIFI集群知识点_认识NIFI集群以及集群的组成部分---大数据之Nifi工作笔记0014
    查看>>
    NIFI大数据进阶_NIFI集群知识点_集群的断开_重连_退役_卸载_总结---大数据之Nifi工作笔记0018
    查看>>
    NIFI大数据进阶_使用NIFI表达式语言_来获取自定义属性中的数据_NIFI表达式使用体验---大数据之Nifi工作笔记0024
    查看>>