python监控微信朋友圈
1. Python 分享到朋友圈 功能怎么实现
首先要说下,比较两个是否相等,应该用==才对。
关于运行字符串,可以用eval。
>>> a=10
>>> c="a==10"
>>> if eval(c):
print "a=10"
a=10
>>>
2. python怎么抓取微信阅
抓取微信公众号的文章
一.思路分析
目前所知晓的能够抓取的方法有:
1、微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=&scene=0#rd)
2、通过微信合作方搜狗搜索引擎(http://weixin.sogou.com/),发送相应请求来间接抓取
第1种方法中,这种链接不太好获取,而且他的规律不是特别清晰。
因此本文采用的是方法2----通过给 weixin.sogou.com 发送即时请求来实时解析抓取数据并保存到本地。
二.爬取过程
1、首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰
在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文名可能会有重复,同时公众号名字一定要完全正确,不然可能搜到很多东西,这样我们可以减少数据的筛选工作,只要找到这个唯一英文名对应的那条数据即可),即发送请求到'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_= ' % 'python',并从页面中解析出搜索结果公众号对应的主页跳转链接。
2.获取主页入口内容
使用request , urllib,urllib2,或者直接使用webdriver+phantomjs等都可以
这里使用的是request.get()的方法获取入口网页内容
[python]view plain
#爬虫伪装头部设置
self.headers={'User-Agent':'Mozilla/5.0(WindowsNT6.3;WOW64;rv:51.0)Gecko/20100101Firefox/51.0'}
#设置操作超时时长
self.timeout=5
#爬虫模拟在一个request.session中完成
self.s=requests.Session()
#搜索入口地址,以公众为关键字搜索该公众号
defget_search_result_by_keywords(self):
self.log('搜索地址为:%s'%self.sogou_search_url)
returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content
#获得公众号主页地址
defget_wx_url_by_sougou_search_html(self,sougou_search_html):
doc=pq(sougou_search_html)
#printdoc('p[class="tit"]')('a').attr('href')
#printdoc('div[class=img-box]')('a').attr('href')
#通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址
returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
#使用webdriver加载公众号主页内容,主要是js渲染的部分
defget_selenium_js_html(self,url):
browser=webdriver.PhantomJS()
browser.get(url)
time.sleep(3)
#执行js得到整个页面内容
html=browser.execute_script("returndocument.documentElement.outerHTML")
returnhtml
#获取公众号文章内容
defparse_wx_articles_by_html(self,selenium_html):
doc=pq(selenium_html)
print'开始查找内容msg'
returndoc('div[class="weui_media_boxappmsg"]')
#有的公众号仅仅有10篇文章,有的可能多一点
#returndoc('div[class="weui_msg_card"]')#公众号只有10篇文章文章的
#!/usr/bin/python
#coding:utf-8
importsys
reload(sys)
sys.setdefaultencoding('utf-8')
fromurllibimportquote
frompyqueryimportPyQueryaspq
fromseleniumimportwebdriver
importrequests
importtime
importre
importjson
importos
classweixin_spider:
def__init__(self,kw):
'构造函数'
self.kw=kw
#搜狐微信搜索链接
#self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_='%quote(self.kw)
self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_='%quote(self.kw)
#爬虫伪装
self.headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64;rv:47.0)Gecko/20100101FirePHP/0refox/47.0FirePHP/0.7.4.1'}
#操作超时时长
self.timeout=5
self.s=requests.Session()
defget_search_result_by_kw(self):
self.log('搜索地址为:%s'%self.sogou_search_url)
returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content
defget_wx_url_by_sougou_search_html(self,sougou_search_html):
'根据返回sougou_search_html,从中获取公众号主页链接'
doc=pq(sougou_search_html)
#printdoc('p[class="tit"]')('a').attr('href')
#printdoc('div[class=img-box]')('a').attr('href')
#通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址
returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
defget_selenium_js_html(self,wx_url):
'执行js渲染内容,并返回渲染后的html内容'
browser=webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
#执行js得到整个dom
html=browser.execute_script("returndocument.documentElement.outerHTML")
returnhtml
defparse_wx_articles_by_html(self,selenium_html):
'从selenium_html中解析出微信公众号文章'
doc=pq(selenium_html)
returndoc('div[class="weui_msg_card"]')
defswitch_arctiles_to_list(self,articles):
'把articles转换成数据字典'
articles_list=[]
i=1
ifarticles:
forarticleinarticles.items():
self.log(u'开始整合(%d/%d)'%(i,len(articles)))
articles_list.append(self.parse_one_article(article))
i+=1
#break
returnarticles_list
defparse_one_article(self,article):
'解析单篇文章'
article_dict={}
article=article('.weui_media_box[id]')
title=article('h4[class="weui_media_title"]').text()
self.log('标题是:%s'%title)
url='http://mp.weixin.qq.com'+article('h4[class="weui_media_title"]').attr('hrefs')
self.log('地址为:%s'%url)
summary=article('.weui_media_desc').text()
self.log('文章简述:%s'%summary)
date=article('.weui_media_extra_info').text()
self.log('发表时间为:%s'%date)
pic=self.parse_cover_pic(article)
content=self.parse_content_by_url(url).html()
contentfiletitle=self.kw+'/'+title+'_'+date+'.html'
self.save_content_file(contentfiletitle,content)
return{
'title':title,
'url':url,
'summary':summary,
'date':date,
'pic':pic,
'content':content
}
defparse_cover_pic(self,article):
'解析文章封面图片'
pic=article('.weui_media_hd').attr('style')
p=re.compile(r'background-image:url(.∗?)')
rs=p.findall(pic)
self.log('封面图片是:%s'%rs[0]iflen(rs)>0else'')
returnrs[0]iflen(rs)>0else''
defparse_content_by_url(self,url):
'获取文章详情内容'
page_html=self.get_selenium_js_html(url)
returnpq(page_html)('#js_content')
defsave_content_file(self,title,content):
'页面内容写入文件'
withopen(title,'w')asf:
f.write(content)
defsave_file(self,content):
'数据写入文件'
withopen(self.kw+'/'+self.kw+'.txt','w')asf:
f.write(content)
deflog(self,msg):
'自定义log函数'
printu'%s:%s'%(time.strftime('%Y-%m-%d%H:%M:%S'),msg)
defneed_verify(self,selenium_html):
'有时候对方会封锁ip,这里做一下判断,检测html中是否包含id=verify_change的标签,有的话,代表被重定向了,提醒过一阵子重试'
returnpq(selenium_html)('#verify_change').text()!=''
defcreate_dir(self):
'创建文件夹'
ifnotos.path.exists(self.kw):
os.makedirs(self.kw)
defrun(self):
'爬虫入口函数'
#Step0:创建公众号命名的文件夹
self.create_dir()
#Step1:GET请求到搜狗微信引擎,以微信公众号英文名称作为查询关键字
self.log(u'开始获取,微信公众号英文名为:%s'%self.kw)
self.log(u'开始调用sougou搜索引擎')
sougou_search_html=self.get_search_result_by_kw()
#Step2:从搜索结果页中解析出公众号主页链接
self.log(u'获取sougou_search_html成功,开始抓取公众号对应的主页wx_url')
wx_url=self.get_wx_url_by_sougou_search_html(sougou_search_html)
self.log(u'获取wx_url成功,%s'%wx_url)
#Step3:Selenium+PhantomJs获取js异步加载渲染后的html
self.log(u'开始调用selenium渲染html')
selenium_html=self.get_selenium_js_html(wx_url)
#Step4:检测目标网站是否进行了封锁
ifself.need_verify(selenium_html):
self.log(u'爬虫被目标网站封锁,请稍后再试')
else:
#Step5:使用PyQuery,从Step3获取的html中解析出公众号文章列表的数据
self.log(u'调用selenium渲染html完成,开始解析公众号文章')
articles=self.parse_wx_articles_by_html(selenium_html)
self.log(u'抓取到微信文章%d篇'%len(articles))
#Step6:把微信文章数据封装成字典的list
self.log(u'开始整合微信文章数据为字典')
articles_list=self.switch_arctiles_to_list(articles)
#Step7:把Step5的字典list转换为Json
self.log(u'整合完成,开始转换为json')
data_json=json.mps(articles_list)
#Step8:写文件
self.log(u'转换为json完成,开始保存json数据到文件')
self.save_file(data_json)
self.log(u'保存完成,程序结束')
#main
if__name__=='__main__':
gongzhonghao=raw_input(u'输入要爬取的公众号')
ifnotgongzhonghao:
gongzhonghao='python6359'
weixin_spider(gongzhonghao).run()
#!/usr/bin/python
#coding:utf-8
[python]view plain
3.获取公众号地址
从获取到的网页内容中,得到公众号主页地址, 这一步骤有很多方法, beautifulsoup、webdriver,直接使用正则,pyquery等都可以
这里使用的是pyquery的方法来查找公众号主页入口地址
[python]view plain
4.获取公众号主页的文章列表
首先需要加载公众号主页,这里用的是phantomjs+webdriver, 因为这个主页的内容需要JS 渲染加载,采用之前的方法只能获得静态的网页内容
[python]view plain
得到主页内容之后,获取文章列表,这个文章列表中有我们需要的内容
[python]view plain
5.解析每一个文章列表,获取我们需要的信息
6.处理对应的内容
包括文章名字,地址,简介,发表时间等
7.保存文章内容
以html的格式保存到本地
同时将上一步骤的内容保存成excel 的格式
8.保存json数据
这样,每一步拆分完,爬取公众号的文章就不是特别难了。
三、源码
第一版源码如下:
[python]view plain
第二版代码:
对代码进行了一些优化和整改,主要:
1.增加了excel存贮
2.对获取文章内容规则进行修改
3.丰富了注释
本程序已知缺陷: 如果公众号的文章内容包括视视频,可能会报错。
[python]view plain
3. 如何利用Python网络爬虫抓取微信好友数量以及
可以用wxpy模块来
4. python怎么能抓微信公众号文章的阅读数
思路一,利用rss生成工具,将搜狗的微信搜索结果生成一个rss,然后通过rss监控这个公众号的文章是否更新。(理论上应该可行,但没试过)
思路二,自己做一个桌面浏览器,IE内核。用这个浏览器登录web微信,这个微信帐号关注你想抓取的公众号,这样就可以监控到是这些公众号是否已更新,更新后链接是什么,从而达到抓取数据的目的。(使用过,效率不高,但非常稳定)
思路三,通过修改android的微信客户端来实现(这个方法是我们曾经使用过一段时间的)
思路四,想办法越过验证直接取到链接,再通过链接取到数据。
5. 怎么利用python或R分析我的微博或者朋友圈
一. 你在浏览微博的时候,受到哪些用户的影响。
1. 抓取你微博的关注列表,通过一定的条件筛选一部分用户,继续抓他们的关注列表,这样抓两到三层就行了,不然数据太大了。
2. 对抓取的用户进行影响力建模,例如,用户最近两个月的微博的转发评论和点赞数据
3. 最后分析出哪些用户对你的影响最大
二. 基于地理位置的分析
1. 抓取以某个城市为发微博的地理位置的微博数据,并且抓取发微博的用户的相关信息
2. 对数据清洗,通过用户资料筛选出是否土著居民,还是旅游出差之类的数据
3. 对数据分析,通过发微博的时间啊,某个地点发微博的次数啊,发微博出现最多的关键词
这些应该能得到一些有意思的数据
三. 自然语言处理
微博的大量的文本数据可以做自然语言处理,情感分析之类的很多研究
四. 热点事件追踪
1. 通过关键词的搜索,跟踪热点事件
2. 很多热点事情都是某个微博开始发酵的,可以抓取转发路径,找出哪些是重要的转发节点,
抓取评论内容,看看网友对这件事情的态度。
3. 监控微博博主的粉丝增加数量的变化
五. 计算机视觉相关研究
1. 抓取微博出现的图片,做计算视觉相关的研究
2. 抓取微博用户的头像,做人脸识别之类的,应该很有意思。
六. 个人微博数据分析
1. 发微博时间
2. 微博出现的关键词
3. 你点过哪些赞,评论过哪些微博。
4. 和哪些人发过私信,这些都可以研究,关键是找到合适的模型
6. Python查看微信被哪些好友删除,不用群发
在终端中执行:
git clone https github.com/0x5e/wechat-deleted-friends.git
cd wechat-deleted-friends
python wdf.py
然后按照提示操作就可以了.
完成之后手动删除生成的一个群聊, 不要在里面说话, 不说话好友们是不知情的.
7. 用python能爬到微信朋友圈动态吗
这个一般是比较困难的
首先你需要相应的接口,另外还需要朋友圈相关的权限等
8. python爬取微信好朋友圈怎么实现
有一个微信网页版.模拟登陆是可以登陆上去的.但是看不了朋友圈.只能通过手机的方式进行爬取了.
9. python可以实现对微信朋友圈的抓取吗
在 Hibernate 中,如果将属性 id 定义为 Integer 类型,那么 Hibernate 就可以根据其 值是否为 null 而判断一个对象是否是临时的,如果将 id 定义为了 int 类型,还需要在 hbm 映 射文件中设置其 unsaved-value 属性为 0。
10. 如何使用python在微信
在github , itchat了解一下