博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python获取知乎日报另存为txt文件
阅读量:5371 次
发布时间:2019-06-15

本文共 2184 字,大约阅读时间需要 7 分钟。

前言

拿来练手的,比较简单(且有bug),欢迎交流~

功能介绍

抓取当日的知乎日报的内容,并将每篇博文另存为一个txt文件,集中放在一个文件夹下,文件夹名字为当日时间。

使用的库

re,BeautifulSoup,sys,urllib2

注意事项

1.运行环境是Linux,python2.7.x,想在win上使用直接改一下里边的命令就可以了

2.bug是在处理 “如何正确吐槽”的时候只能获取第一个(懒癌发作了)

3.直接获取(如下)内容是不可以的,知乎做了反抓取的处理

urllib2.urlop(url).read()

所以加个Headers就可以了

4.因为zhihudaily.ahorn.me这个网站时不时挂掉,所以有时候会出现错误

1 def getHtml(url):2     header={
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}3 request=urllib2.Request(url,None,header)4 response=urllib2.urlopen(request)5 text=response.read()6 return text

4.在做内容分析的时候可以直接使用re,也可以直接调用BeautifulSoup里的函数(我对正则表达式发怵,所以直接bs),比如

1 def saveText(text):2     soup=BeautifulSoup(text)3     filename=soup.h2.get_text()+".txt"4     fp=file(filename,'w')5     content=soup.find('div',"content")6     content=content.get_text()

show me the

1 #Filename:getZhihu.py 2 import re 3 import urllib2 4 from bs4 import BeautifulSoup 5 import sys 6  7 reload(sys) 8 sys.setdefaultencoding("utf-8") 9 10 #get the html code11 def getHtml(url):12     header={
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}13 request=urllib2.Request(url,None,header)14 response=urllib2.urlopen(request)15 text=response.read()16 return text17 #save the content in txt files18 def saveText(text):19 soup=BeautifulSoup(text)20 filename=soup.h2.get_text()+".txt"21 fp=file(filename,'w')22 content=soup.find('div',"content")23 content=content.get_text()24 25 # print content #test26 fp.write(content)27 fp.close()28 #get the urls from the zhihudaily.ahorn.com29 def getUrl(url):30 html=getHtml(url) 31 # print html32 soup=BeautifulSoup(html)33 urls_page=soup.find('div',"post-body")34 # print urls_page35 36 urls=re.findall('"((http)://.*?)"',str(urls_page))37 return urls 38 #main() founction39 def main():40 page="http://zhihudaily.ahorn.me"41 urls=getUrl(page)42 for url in urls:43 text=getHtml(url[0])44 saveText(text)45 46 if __name__=="__main__":47 main()

 

转载于:https://www.cnblogs.com/wswang/p/4435203.html

你可能感兴趣的文章
MySQL各存储引擎
查看>>
项目--简单导出CSV文件
查看>>
Oracle session相关数据字典(一)
查看>>
BZOJ 3399 [Usaco2009 Mar]Sand Castle城堡(贪心)
查看>>
WCF(一) 简单的认知
查看>>
[MFC][DShow]简单例子
查看>>
js onclick事件传参
查看>>
WiCloud 商业Wi-Fi管理平台
查看>>
python中的网页标签等字符处理
查看>>
Linux常用命令(十二)
查看>>
Linux常用命令(十五)
查看>>
Linux常用命令(十四)
查看>>
Linux常用命令(十七)
查看>>
Linux常用命令(十六)
查看>>
day 3 修改haproxy.cfg 作业
查看>>
sim usim Uim 区别
查看>>
网页中插入透明Flash的方法和技巧
查看>>
动态内存申请函数选择(realloc、malloc 、alloca、 calloc)
查看>>
获取元素属性get_attribute
查看>>
Python/jquery
查看>>