数据挖掘与机器学习

文本分类介绍

文本分类介绍
文本挖掘(开源项目:文本挖掘系统)是指从大量的非结构化的文本信息,抽取出格式化的数据,以备进一步的应用,包括文本结构分析、文本摘要分析、文本分类分析、文本聚类分析、文本关联分析等。目前文本信息处理领域应用最多的就是文本分类。 文本分类的任务是:在给定的分类体系下,根据文本的内容...

fireling 2个月前 (03-02) 546℃ 4喜欢

个人随笔

写在狗年来临之前

写在狗年来临之前
很早就准备了一些话,想写在这里,结果拖到现在,趁着狗年来临之际,梳理一下,总结一下,规划一下。 去年的年终总结:写在鸡年来临之前,先分享给读者。 过去的一年,我的技术栈搭建更加丰满,掌握技能进一步丰富,同时作为在单位中负责开发、咨询于一体的部门,除了技术,我对于自己在其他方面的...

fireling 2个月前 (02-14) 885℃ 16喜欢

大数据与分布式

HBase介绍及交互式Shell使用

HBase介绍及交互式Shell使用
HBase介绍 HBase是运行于HDFS顶层的非关系型数据库,它具备随即读写功能,是一种面向列的数据库。 我们都知道,Hive能将SQL指令转化为MapReduce任务执行,虽然它基于HDFS存储,但仍可看作分布式的SQL系统。与之相比,HBase采用了Bigtable的数据...

fireling 3个月前 (01-25) 631℃ 4喜欢

大数据与分布式

ZooKeeper的安装配置

ZooKeeper的安装配置
ZooKeeper是一个针对大型分布式系统的协作系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的角色,相当于整个Hadoop动物体系里面的动物管理员。我们在运行HBase时,需要先配备ZooKeeper。这里主要讲一下ZooKeeper的几种...

fireling 4个月前 (01-10) 333℃ 3喜欢

Linux

SSH端口转发实现内网穿透

SSH端口转发实现内网穿透
“世界上最遥远的距离就是你在外网请求,我在内网测试。” 这句话的内容,对于开发人员来说,特别容易理解。很多情况下,我们的开发及测试环境在单位的内网下,只能通过位于内网的机器来连接操作,位于外网的机器是连不到内网环境的。比如说,如果我们周末在家工作,而家里的机器又不在单位内网环境...

fireling 4个月前 (12-28) 753℃ 8喜欢