Biegral的个人博客，专注C#、JAVA、Python等技术开发

Python3爬虫之二网页解析【爬取自己CSDN博客信息】

作者：Biegral 发布时间：2017/8/31 13:18:22 阅读量：4435

与Java类比，Java的网页解析有Jsoup工具，Python的网页解析工具对应的是BeautifulSoup。详情可以阅读其官方文档。这里以爬取我的CSDN博客信息，包括获取每篇博客的标题、链接、书写日期、访问量、评论数量等信息为例，结合BeautifulSoup，进行网页的解析，详细的说明在代码的注解中讲解。# coding=utf-8# 对CSDN博客信息进行爬 …… 阅读全文

Python3爬虫之三网页解析【爬取豆瓣Top电影】

作者：Biegral 发布时间：2017/8/31 13:46:53 阅读量：3430

这里再练习一下对豆瓣Top250电影的爬取，其首页长这样我们需要的信息是电影的序号、电影的名字，因此直接按上一节的方法查看网页代码，解析网页结构，提取我们所需要的信息，完成代码如下：# coding = utf-8import refrom urllib import requestfrom urllib import errorclass DouBan …… 阅读全文

Python3爬虫之四简单爬虫架构【爬取百度百科python词条网页】

作者：Biegral 发布时间：2017/9/4 19:53:48 阅读量：2433

前面介绍了Python写简单的爬虫程序，这里参考慕课网Python开发简单爬虫总结一下爬虫的架构。让我们的爬虫程序模块划分更加明确，代码具有更佳的逻辑性、可读性。因此，我们可以将整个爬虫程序总结为以下5个模块： 1、爬虫调度端：负责启动、停止、监控爬虫程序的运行； 2、URL管理器：负责爬虫执行过程中待爬取的URL队列和已爬取的URL队列的管理【防重复、 …… 阅读全文

Python3爬虫之五网页下载器的几种方法【Python使用cookie模拟登录CSDN】

作者：Biegral 发布时间：2017/9/5 11:26:34 阅读量：1715

（1）直接请求from urllib import request# 目标网址url = "http://www.zhihu.com"# 直接请求response = request.urlopen(url)# 获取请求的状态码，200表示成功# 读取内容if(response.getcode() == 200): print(response.read())（ …… 阅读全文

Python3爬虫之六网页的初步分析【抓取豆瓣最新电影影评并用词云显示】

作者：Biegral 发布时间：2017/9/21 13:36:31 阅读量：1439

在做本章内容之前，先做两件事：1、安装结巴分词jieba；2、安装云词库wordcloud一、安装结巴分词1、上Git上下载Jieba源码：https://github.com/xingzhexiaozhu/jieba2、进入对应的文件目录，执行 python setup.py install安装完成二、安装云词库1、进入http://www.lfd.uci …… 阅读全文

获取Python多线程的返回值

作者：Biegral 发布时间：2018/4/21 18:39:43 阅读量：2445

用python多线程时，遇到需要获取每个线程返回值的问题，经查资料学习总结如下：Python中使用线程有两种方式：用方法包装线程和用类包装线程方法一、用方法包装线程thread.start_new_thread ( function, args[, kwargs] )-function 表示线程需要执行的函数-args 表示传入的参数# coding:utf-8import thread, t... …… 阅读全文

Python之项目路径的引入

作者：Biegral 发布时间：2018/5/3 20:11:42 阅读量：1234

在Python中，通过安装anaconda就可以直接引用大部分工具包了，通过IDE也不用担心引用路径的问题。但如果是引入自定义的包、项目等，路径问题稍须转弯。下图是我Demo的项目层次结构：Demo名称为---ImportPath；一级目录下有Main.py、OuterFunc.py和InFile文件夹；InFile文件夹下有InnerFunc.py； ... …… 阅读全文

Python服务端开发

作者：Biegral 发布时间：2018/5/3 20:25:57 阅读量：1118

之前的爬虫https://blog.csdn.net/column/details/17218.html几篇文章为Python实现客户端以Get/Post等方法请求服务。最近用Python写了一个服务，在此总结一下知识点：1、Python代码中执行shell命令；2、白名单设置---通过查看客户端ip是否在服务端的list中存在；3、日志分割---引入loggin类实现日志记录，引入TimedRo... …… 阅读全文

Biegral Blog

最新发表