使用selenium库制作自动提交表单的脚本

selenium用以制作自动化测试工具还是非常不错的,这里演示一个打开谷歌浏览器并输入一个关键词,最后提交搜索的示例脚本。安装selenium见《Python库selenium的安装与使用》。# coding:utf-8import starfrom selenium import webdriverfrom selenium.webdriver.c …… 阅读全文

Windows下Python爬虫框架pyspider的安装与使用

1、安装pipinstallpyspiderWindows下安装需要注意的问题:http://docs.pyspider.org/en/latest/Frequently-Asked-Questions/2、启动pyspider all3、后台配置http://localhost:5000/点击cr …… 阅读全文

pyspider创建淘女郎图片爬虫任务--出师不利

首先pyspider all启动pyspider的所有服务,然后访问http://localhost:5000创建一个爬虫任务:taonvlang,点开任务链接编辑http://localhost:5000/debug/taonvlang,默认模板:右侧为代码编辑区,可以在crawl_config里做一些配置,具体可以参考官网API文档:http://docs.pyspider.org/e …… 阅读全文

PySpider HTTP 599: SSL certificate problem错误的解决方法

[E 160329 11:32:22 base_handler:194] HTTP 599: SSL certificate problem: self signed certificate in certificate chain Traceback (most recent call last): File "D:\Python27\lib\site-packages …… 阅读全文

pyspider创建淘女郎图片爬虫任务-源码解析

源码:#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2016-03-29 10:59:36# Project: taonvlangfrom pyspider.libs.base_handler import *DIR_PATH = 'E:/taonvlang'class Handler(BaseHandl …… 阅读全文

pyspider创建淘女郎图片爬虫任务-运行流程解析

单步运行运行该任务,第一步爬取多页:每个页面里面抓取10个淘女郎主页链接:对每个淘女郎主页详情页面爬取图片链接:图片全部下载在E:\taonvlang\目录下按淘女郎名称创建文件夹保存。 …… 阅读全文

pyspider总结

框架本身的好处:步骤划分清晰,每步只要把每步的代码写好、调试好,能降低爬虫任务的复杂度和繁琐度。可以有效利用中间结果分别调试其中的任何一个步骤,不用回溯整条任务链。框架不足之处:1、证书问题2、登录问题爬的多的时候如何对抗反爬虫机制,例如淘女郎爬虫任务,爬多了会提示重新登录,明明谷歌浏览器已经登录状态,但是爬虫任务却不能直接使用浏览器的缓存数据,差评。 …… 阅读全文

Python打印函数用时的两种方法--类的构造析构函数与函数装饰器

在安卓审计项目里,我们使用python脚本来对APK进行扫描检测,为了统计每一步操作的耗时情况编写了一个简单的类,并通过下面的方式使用:#coding:utf-8import timeclass TimeRecorder: def __init__(self, name): print(name + u"开始") self.name = name …… 阅读全文