• Python爬虫之为BeautifulSoup添加索引查找

    最近在帮金融教授爬取优先股的数据,要求不能过滤掉部分信息缺失的数据并将缺失部分用"N/A"填充。这样一来必须要使用正则表达式将原始数据切成很小片,很不方便,好在有解析利器 BeautifulSoup,但是不知道什么原因BeautifulSoup只能索引到多个同类子节点的第一个节点。不能索引给我造成了极大困扰,有时候甚至还是需要使用纯正则来解析数据。思前想后我决定自己为其添加索引功能以备不时之需。

    ...
  • Python爬虫:多线程爬虫入门

    看了上一篇文章的朋友们会发现虽然我们可以爬取整个相册,但是速度非常慢,需要一个一个来爬,排队等待的效率是极其低下的。针对这种大部分时间浪费在网络阻塞的情况,python的多线程方法在这里大显神威。那什么是多线程呢,很简单: 假如需要做的事情是搬砖,而电脑是搬砖工人,通常程序都是单线程运行。也就是说只有一个工人在搬砖。如果觉得这样速度很慢,你可以

    多请几个工人

    ...
  • Python爬虫:二层爬虫之爬取整个相册

    上次读了这篇文章的之后的老司机们可能发现了一个问题,我们爬取的妹子图片怎么都!是!封!面!。那是因为我们爬取得的内容是列表页提供的,所以只有封面图片链接。这并不能满足广大爬友的喜好,要来就要来全套。于是我们试图让我们的爬虫,让它能够爬取每个相册并保存没个相册在一个新建的文件夹中。

    ...
  • Python爬虫: 带你上车之爬取妹子图

    简介

    30行python轻松爬取成百上千的妹子图到本地。没时间解释了,快上车。

    什么是爬虫?

    网络爬虫,顾名思义就是在网上爬来爬去的“虫子”,它能够按照一定规则自动抓取网络数据的脚本。比如说你找到了一个特别棒的网站,上面全是妹子图。而你想把它们存到你的随身硬盘当中。如果你要一张一张保存的话那需要比较持久的耐力,这个时候你就需要通过爬虫来帮你抓取你心心念念的妹子图。

    那么如何通过爬虫来完成任务呢?

    运行机制

    其实爬虫的工作流程和人是一样的,都需要经过下面几个步骤:

    使用本机的IP连接到网络 ->使用地址登入网站 ->看到网页内容 ->筛选需要的信息 -> 保存下载 -> 登入新网页 ->重复之前的动作

    是不是非常相似?

    为什么使用python

    很多编程语言都可以写爬虫,可我们为什么选择python呢?总的来说就是四个字:简单够用

    • Python语法简单,开发效率高
    • Python 有着丰富第三方爬虫工具库(requests,scrapy,BeautifulSoup)
    • 爬虫的速度瓶颈大多是在网络阻塞上,非超大规模爬取很少遇到计算性能瓶颈
    • Python起初被用来开发搜索引擎,所以关于爬虫的资料很多,社区活跃

    让我们开始吧!

    ...