数据清洗
【作 者】刘鹏,张燕,李法平,陈潇潇著
【丛书名】大数据应用人才培养系列教材
【形态项】 238
【出版项】 北京:清华大学出版社 , 2018.06
【ISBN号】978-7-302-49327-3
【中图法分类号】TP274
【主题词】数据处理-技术培训-教材
【参考文献格式】 刘鹏,张燕,李法平,陈潇潇著. 大数据应用人才培养系列教材 数据清洗. 北京:清华大学出版社, 2018.06.
内容提要:
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步......
下载试读地址