2015年11月的内容

网络爬虫

网易新闻排行榜抓取回顾

网易新闻排行榜抓取回顾
对网易新闻排行榜的抓取,是我以前学爬虫做的一个小实验。像下图,我的目的就是想把网易新闻排行榜这个页面下的所有新闻的标题和对应的链接都下载下来,分专题保存。 抓取页面很容易,但是有一点,在页面分析的时候,我发现并不是所有专题的页面结构是一样的。用正则表达式分析的话,速度确实慢了点...

fireling 2年前 (2015-11-19) 12302℃ 0评论 43喜欢

数据挖掘与机器学习

文本挖掘系统探究

文本挖掘系统探究
GitHub传送门 文本挖掘系统 Text Mining System 系统说明 集成了文本过滤、去重及邮件实时通知的功能 集成了文本关键词提取的功能 集成了文本分类即打标签的功能 集成了文本推荐即热点评价的功能 支持中英文 关于分词 英文分词,采用nltk工具包进行分...

fireling 2年前 (2015-11-17) 1677℃ 0评论 0喜欢

数据结构与算法

关于数组奇偶调序问题的总结

关于数组奇偶调序问题的总结
数组的奇偶调序问题,主要考察的是对数组下标或者数组指针的灵活操作。“双下标”策略或者“双指针”策略是屡试不爽的一个方案。 奇偶调序无非有两大类情况:奇偶边排,奇偶混排。 所谓“奇偶边排”,就是奇数排在一边,偶数排在一边。比如说我们让奇数都调整到偶数的前面。 我们可以维护两个i...

fireling 2年前 (2015-11-06) 755℃ 0评论 0喜欢