数据科学沉思录


黄耀鹏|技术分享.思想结晶

正则表达式及R字符串处理之终结版

在前一篇关于正则表达式和字符处理函数总结的博客的基础上,历时一周,我翻阅了更多的资料,进行修改和增加了一些实例演示和案例讲解,组成这一篇RClub的讲座课件。本着知识共享、完全开源的精神,在此奉献给大家。 0.动机:为什么学习字符串处理 传统的统计学教育几乎没有告诉过我们,如何进行文本...

使用Python进行线性回归

线性回归是最简单同时也是最常用的一个统计模型。线性回归具有结果易于理解,计算量小等优点。如果一个简单的线性回归就能取得非常不错的预测效果,那么就没有必要采用复杂精深的模型了。 今天,我们一起来学习使用Python实现线性回归的几种方法: 通过公式编写矩阵运算程序; 通过使用机器学...

Python中的线性代数运算

Python中的线性代数运算 这里,为了熟悉Python语言的特性,我们采用一种最原始的方式去定义线性代数运算的相关函数。 如果是真实应用场景,则直接使用NumPy的函数即可。 1.向量 创建一个向量 我们可以把Python中的向量理解为有限维空间中的点。 height_we...

R字符串处理应用之邮件考勤自动化

引言 最近发现,担任助教真不是一件轻松的事情啊。虽然老师一直在想方设法减轻我的工作负担,可是核对名单真的是一件考验眼力和耐力的事情。 最近有一件非常艰巨的任务:检查上周的『考勤邮件』。这个『考勤邮件』,容我耐心的解释一番。上周,老师为了不浪费大家的时间,通过在某几分钟内发送一封邮件到公共邮...

R文件系统管理

文件系统交互的重要性 文件系统管理是存储和组织我们的数据的方法。在数据科学项目中频繁地接触到文件夹和文件管理。如在爬虫项目中,涉及工作路径的设置,文件夹的创建,文件的批量命名,文件的批量导入等操作。因此,高效、科学的文件管理方式将能够大大地提高我们的工作效率。 下面,让我们一起来全面地梳理...

R文本分类之RTextTools

RTextTools简介 古有曹植七步成诗,而RTextTools是一款让你可以在十步之内实现九种主流的机器学习分类器模型的文本分类开发包。 它集成了(或者说支持)如下算法相关的包: 支持向量机(Support Vector Machine from e1071) ...

R文本挖掘之tm包

认识tm包 tm包是R文本挖掘方面不可不知也不可不用的一个package。它提供了文本挖掘中的综合处理功能。如:数据载入,语料库处理,数据预处理,元数据管理以及建立“文档-词条”矩阵。 下面,即从tm包提供的各项功能函数的探索出发,一起开始我们的文本挖掘奇幻之旅。 首先,运行下面的几行代...

深入理解SAS之批量数据导入

当我们在处理『大量的数据』(我偏不说大数据)的时候,如果一个文件一个文件的读入未免太不优雅。(很多同学看到这可能很不屑了:“这不就只是一个循环就能搞定吗?还值得写一篇博客?楼主这博客未免也太LOW了吧”。) 然而,如果我们操作的工具仅限于『上古神器』SAS,那无疑是『戴着镣铐跳舞』。SAS的...