Python3爬虫之二网页解析【爬取自己CSDN博客信息】
与Java类比,Java的网页解析有Jsoup工具,Python的网页解析工具对应的是BeautifulSoup。详情可以阅读其官方文档。 这里以爬取我的CSDN博客信息,包括获取每篇博客的标题、链接、书写日期、访问量、评论数量等信息为例,结合BeautifulSoup,进行网页的解析,详细的说明在代码的注解中讲解。# coding=utf-8# 对CSDN博客信息进行爬 …… 阅读全文
与Java类比,Java的网页解析有Jsoup工具,Python的网页解析工具对应的是BeautifulSoup。详情可以阅读其官方文档。 这里以爬取我的CSDN博客信息,包括获取每篇博客的标题、链接、书写日期、访问量、评论数量等信息为例,结合BeautifulSoup,进行网页的解析,详细的说明在代码的注解中讲解。# coding=utf-8# 对CSDN博客信息进行爬 …… 阅读全文
这里再练习一下对豆瓣Top250电影的爬取,其首页长这样 我们需要的信息是电影的序号、电影的名字,因此直接按上一节的方法查看网页代码,解析网页结构,提取我们所需要的信息,完成代码如下:# coding = utf-8import refrom urllib import requestfrom urllib import errorclass DouBan …… 阅读全文
前面介绍了Python写简单的爬虫程序,这里参考慕课网Python开发简单爬虫总结一下爬虫的架构。让我们的爬虫程序模块划分更加明确,代码具有更佳的逻辑性、可读性。因此,我们可以将整个爬虫程序总结为以下5个模块: 1、爬虫调度端:负责启动、停止、监控爬虫程序的运行; 2、URL管理器:负责爬虫执行过程中待爬取的URL队列和已爬取的URL队列的管理【防重复、 …… 阅读全文
(1)直接请求from urllib import request# 目标网址url = "http://www.zhihu.com"# 直接请求response = request.urlopen(url)# 获取请求的状态码,200表示成功# 读取内容if(response.getcode() == 200): print(response.read())( …… 阅读全文
在做本章内容之前,先做两件事:1、安装结巴分词jieba;2、安装云词库wordcloud一、安装结巴分词1、上Git上下载Jieba源码:https://github.com/xingzhexiaozhu/jieba2、进入对应的文件目录,执行 python setup.py install安装完成二、安装云词库1、进入http://www.lfd.uci …… 阅读全文
用python多线程时,遇到需要获取每个线程返回值的问题,经查资料学习总结如下:Python中使用线程有两种方式:用方法包装线程和用类包装线程方法一、用方法包装线程thread.start_new_thread ( function, args[, kwargs] )-function 表示线程需要执行的函数-args 表示传入的参数# coding:utf-8import thread, t... …… 阅读全文
在Python中,通过安装anaconda就可以直接引用大部分工具包了,通过IDE也不用担心引用路径的问题。但如果是引入自定义的包、项目等,路径问题稍须转弯。 下图是我Demo的项目层次结构:Demo名称为---ImportPath;一级目录下有Main.py、OuterFunc.py和InFile文件夹;InFile文件夹下有InnerFunc.py; ... …… 阅读全文
之前的爬虫https://blog.csdn.net/column/details/17218.html几篇文章为Python实现客户端以Get/Post等方法请求服务。最近用Python写了一个服务,在此总结一下知识点:1、Python代码中执行shell命令;2、白名单设置---通过查看客户端ip是否在服务端的list中存在;3、日志分割---引入loggin类实现日志记录,引入TimedRo... …… 阅读全文