首页 文章

    《干净的数据:数据清洗入门与实践》.pdf

    内容简介  · · · · · · 数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。 本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。 如果你是

    作者:RainNight 2021-04-8 所属分类:[爬虫]

    《Python网络数据采集》PDF清晰版

    《Python网络数据采集》是2016年人民邮电出版社出版的图书,作者是【美】米切尔 ( RyanMitchell )。   内容简介 本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。第1部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。   目录

    作者:RainNight 2021-04-11 所属分类:[爬虫]

    精通Scrapy网络爬虫.epub

    内容简介 本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及京东、知乎、豆瓣、360爬虫案例等。本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言

    作者:RainNight 2021-07-4 所属分类:[爬虫]

    Spidering Hacks.pdf

    内容简介  · · · · · · The Internet, with its profusion of information, has made us hungry for ever more, ever better data. Out of necessity, many of us have become pretty adept with search engine queries, but there are

    作者:RainNight 2021-08-7 所属分类:[爬虫]

网盘推荐

微信公众号

书籍标签