最新发布 第2页

宁哥的小站专注数据挖掘、机器学习方向。

大数据与分布式

Hive介绍及环境搭建

Hive介绍及环境搭建
Hive介绍 Hive是一个构建于Hadoop顶层的数据仓库。它依赖于HDFS和MapReduce,对HDFS数据提供类似于SQL的操作,可以将SQL语句转换为MapReduce任务进行运行。这样,Hive实现了以SQL查询方式来分析存储在HDFS中的数据,使得不熟悉MapRe...

fireling 2个月前 (11-29) 400℃ 2喜欢

Linux

文件同步利器:rsync

文件同步利器:rsync
在Linux上操作时,可能会有误删的情况,或者是我们在折腾了一顿(增删查改)之后有点小后悔,想对一个小时或者一天前的文件进行“回滚”恢复,那该怎么去做呢?rsync便是不二之选。 大家都知道,对文件的移动、复制常用的操作命令有mv、cp及scp。其中,mv是移动文件命令,将一个...

fireling 2个月前 (11-21) 554℃ 3喜欢

大数据与分布式

Spark的小变化

Spark的小变化
以前看过Hadoop及Spark的相关资料,最近又搭建了Hadoop及Spark集群,“反刍”了一下,发现目前的新版本与以前又有了一些变化。Hadoop目前发布了3版本,而Spark已经更新到了2.2版本。本文主要讲一下Spark的搭建及使用。 使用Spark会用到Hadoop...

fireling 2个月前 (11-21) 346℃ 0喜欢

数据挖掘与机器学习

回归分析中的最小二乘法

回归分析中的最小二乘法
在做回归分析时,求最佳拟合曲线通常采用最小二乘法来求解。最小二乘法是一种数学优化方法,它通过最小化误差的平方和来寻找数据的最佳函数匹配。 采用statsmodels进行回归分析 如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为线性回归,如Y=...

fireling 5个月前 (08-30) 992℃ 0喜欢

数据挖掘与机器学习

sklearn使用总结

sklearn使用总结
scikit-learn是Python实现的一个传统机器学习算法库,基本涵盖了机器学习涉及到的各个方面,包括数据的预处理、特征的提取、模型的构建、模型的训练、模型的验证以及模型的评价等等,目前项目已在Github上star数目超过2w。 scikit-learn一般简称为sk...

fireling 5个月前 (08-23) 1088℃ 6喜欢