Biegral的个人博客，专注C#、JAVA、Python等技术开发

[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

作者：Biegral 发布时间：2015/3/25 17:50:05 阅读量：17549

在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片，但是上面这种分析HTML来爬取网站内容的方法存在很多弊端，譬如：正则表达式被HTML源码所约束，而不是取决于更抽象的结构；网页结构中很小的改动可能会导致程序的中断。所以下面介绍Beautiful Soup库爬取网页知识的基本用法及安装。 …… 阅读全文

[python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

作者：Biegral 发布时间：2015/4/16 19:49:12 阅读量：7087

本文主要是总结最近学习的论文、书籍相关知识，主要是Natural Language Pracessing(自然语言处理，简称NLP)和Python挖掘维基百科Infobox等内容的知识。此篇文章主要参考书籍《Natural Language Processing with Python》Python自然语言处理，希望对大家有所帮助。书籍下载地址：所谓“自然语言”，是指人们日常交流使用的语言，如英语、印地语随着不断演化，很难用明确的规则来刻画。从广义上，“自然语言处理”（ …… 阅读全文

[python学习] 模仿浏览器下载CSDN源文并实现PDF格式备份

作者：Biegral 发布时间：2015/5/17 2:52:30 阅读量：4927

最近突然想给自己的博客备份下，看了两个软件：一个是CSDN博客导出软件，好像现在不能使用了；一个是豆约翰博客备份专家，感觉都太慢，而且不灵活，想单独下一篇文章就比较费时。而且我的毕业论文是基于Python自然语言相关的，所以想结合前面的文章用Python实现简单的功能：1.通过网络下载本体的博客，包括图片，通过写消息头模拟登录实现下载CSDN文章；2.在通过Python把HTML转换成PDF格式，利用xhtml2pdf和PISA尝试失败，希望文章对你有所帮助。 …… 阅读全文

[Python学习] 简单爬取CSDN下载资源信息

作者：Biegral 发布时间：2015/7/21 17:04:36 阅读量：4332

这是一篇Python爬取CSDN下载资源信息的例子，主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息；写这篇文章的原因是我想获取自己的资源所有的评论信息，但是由于评论采用JS临时加载，所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。 …… 阅读全文

[Python] 专题五.列表基础知识二维list排序、获取下标和处理txt文本实例

作者：Biegral 发布时间：2015/9/16 21:22:02 阅读量：18812

通常测试人员或需要处理一些txt文本内容，而此时使用Python是比较方便的语言。Python不光在爬取网上资料上方便，还在NLP自然语言处理方面拥有独到的优势。这篇文章主要简单的介绍使用Python处理txt汉字文字，希望文章对你有所帮助或提供一些见解。一. list二维数组排序列表基础知识、列表排序介绍、二维列表排序、lambada表达式二. 处理txt文本读取文件&列表添加、列表排序、获取面积字符串、源代码及运行结果 …… 阅读全文

[Python学习] 专题六.局部变量、全局变量global、导入模块变量

作者：Biegral 发布时间：2015/9/27 16:21:06 阅读量：14191

定义在函数内的变量有局部作用域，在一个模块中最高级别的变量有全局作用域。本文主要讲述全局变量、局部变量和导入模块变量的方法。参考：《Python核心编程 (第二版)》全局变量的一个特征是除非删除掉，否则它们存活到脚本运行结束，且对于所有的函数，它们的值都是可以被访问的。然而局部变量，就像它们存放的栈，暂时地存在，仅仅只依赖于定义它们的函数现阶段是否处于活动。当一个函数调用出现时，其局部变量就进入声明它们的作用域。在那一刻，一个新的局部变量名为那个对象创建了，一旦函数完成，框架被释放，变量将会离开作用域。 …… 阅读全文

[Python爬虫] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

作者：Biegral 发布时间：2015/10/1 22:46:37 阅读量：14333

最近研究搜索引擎、知识图谱和Python爬虫比较多，中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数，但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。纪伯伦曾说过：“你无法同时拥有青春和关于青春的知识；因为青春忙于生计，没有余暇去求知；而知识忙于寻求自我，无法享受生活。”同样现在找工作的我，无法在拥有扎实基础知识的同时又兼顾深度的项目理解，但我更倾向于分享知识，因为它就是寻求自我，就是 …… 阅读全文

[python] 专题七.网络编程之套接字Socket、TCP和UDP通信实例

作者：Biegral 发布时间：2015/10/5 8:40:19 阅读量：8809

很早以前研究过C#和C++的网络通信,Python网络编程也类似。同时最近找工作笔试面试考察Socket套接字、TCP\UDP区别比较多，所以这篇文章主要精简了《Python核心编程（第二版）》第16章内容。内容包括：服务器和客户端架构、套接字Socket、TCP\UDP通信实例和常见笔试考题。文章有详细的原理及代码和运行结果，希望文章对你有所帮助，如果有不足之处，还请海涵~ …… 阅读全文

Biegral Blog

最新发表