首页 文章

    《干净的数据:数据清洗入门与实践》.pdf

    内容简介  · · · · · · 数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。 本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。 如果你是

    作者:RainNight 2021-04-8 所属分类:[爬虫]

    《Python网络数据采集》PDF清晰版

    《Python网络数据采集》是2016年人民邮电出版社出版的图书,作者是【美】米切尔 ( RyanMitchell )。   内容简介 本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。第1部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。   目录

    作者:RainNight 2021-04-11 所属分类:[爬虫]

    精通Scrapy网络爬虫.epub

    内容简介 本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及京东、知乎、豆瓣、360爬虫案例等。本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言

    作者:RainNight 2021-07-4 所属分类:[爬虫]

网盘推荐

微信公众号

书籍标签