博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 爬虫
阅读量:4913 次
发布时间:2019-06-11

本文共 1568 字,大约阅读时间需要 5 分钟。

正则表达式获取贴吧访问量

import urllib.requestimport redata=urllib.request.urlopen("https://tieba.baidu.com/f?kw=cpda&fr=ala0&tpl=5").read()data2=data.decode("utf-8","ignore")pat="(.*?)"s1 = re.compile(pat).findall(str(data2))print(s1)pat2='(.*?)'s2 = re.compile(pat2).findall(str(data2))print(s2)pat3='(.*?)'s3 = re.compile(pat3).findall(str(data2))print(s3)pat4='(.*?)'s4 = re.compile(pat4).findall(str(data2))print(s4)

正则表达式学习2--豆瓣获取文章

import urllib.requestimport refile=urllib.request.urlopen("https://read.douban.com/provider/all").read()file2=file.decode("utf-8","ignore")patn='
(.*?)
'mydata=re.compile(patn).findall(str(file2))print(mydata)for i in range(0,len(mydata)): print(mydata[i]+"\n")

url数据获取--异常值处理--新浪新闻获取文章

import urllib.requestimport redata=urllib.request.urlopen("http://news.sina.com.cn/").read()data2=data.decode("utf-8","ignore")pat='href="(http://news.sina.com.cn/.*?)"'allurl=re.compile(pat).findall(data2)for i in range(0,len(allurl)): try:  print("第"+str(i)+"次爬取")  thisurl=allurl[i]  print(thisurl)  file="D:/sinanews/"+str(i)+".html"  print(file)  print("-------成功-------") except urllib.error.URLError as e:  if hasattr(e,"code"):    print(e.code)  if hasattr(e,"reason"):    print(e.reason)

  

 

import urllib.requestimport refile=urllib.request.urlopen("https://read.douban.com/provider/all").read()file2=file.decode("utf-8","ignore")patn='<div class="name">(.*?)</div>'mydata=re.compile(patn).findall(str(file2))print(mydata)for i in range(0,len(mydata)):    print(mydata[i]+"\n")

转载于:https://www.cnblogs.com/wei23/p/10887432.html

你可能感兴趣的文章
bzoj4873: [Shoi2017]寿司餐厅
查看>>
结对-航空购票系统-开发过程
查看>>
分支语句
查看>>
VBA语句 - 判断语句
查看>>
Android开发代码规范(转)
查看>>
生成函数学习笔记
查看>>
localtime函数时区问题
查看>>
MYSQL分页limit速度太慢优化方法
查看>>
鼎捷智能制造方案 从经营视角实现智能化运营
查看>>
[LeetCode 112 113] - 路径和I & II (Path Sum I & II)
查看>>
关于SpringCloud微服务架构概念的一点理解
查看>>
显示文件后缀
查看>>
Android 知识总汇
查看>>
字符转换
查看>>
codeforces水题100道 第十五题 Codeforces Round #262 (Div. 2) A. Vasya and Socks (brute force)
查看>>
PHP学习笔记 - 进阶篇(10)
查看>>
什么是测试策略?
查看>>
[深入React] 3.JSX的神秘面纱
查看>>
【codevs 2306】【bzoj 1877】[SDOI 2009]晨跑(费用流)
查看>>
第一次OO作业总结
查看>>