2016年05月的内容

Python

如何快速读取数据文件若干行

如何快速读取数据文件若干行
用Python进行数据分析的童鞋们,经常遇到的问题就是遇到一个数据文件,大概几百兆,而只需要其中若干行数据。那么我们怎么办?最笨的办法,就是一次性将所有的文件数据加载到内存中再做索引或切片处理,可能一次性加载就需要耗费一点时间。如果重复性地做这种事情,你都会觉得不好意思跟自己交...

fireling 1年前 (2016-05-28) 1474℃ 3喜欢

大数据与分布式

“Pandas”化你的Spark DataFrames

“Pandas”化你的Spark DataFrames
此文为宁哥翻译文章,原文章请看这里。 关于DataFrame 上一篇博客我讲到了《基于Python的数据科学技术栈的综述》。这一篇让我们关注一个非常重要的概念:DataFrame。 DataFrame非常适合处理结构化数据和半结构化数据,它们基本上是一些行的集合,而每一列都有自...

fireling 1年前 (2016-05-24) 2137℃ 3喜欢