pbootcms网站模板|日韩1区2区|织梦模板||网站源码|日韩1区2区|jquery建站特效-html5模板网

PHP寫微信公眾號(hào)文章頁采集方法

給大家分析一下如何用PHP寫出采集微信公眾號(hào)文章的方法以及代碼詳細(xì)講解,需要的朋友學(xué)習(xí)一下。

通過搜狗搜索采集公眾號(hào)歷史消息有幾個(gè)問題:

1、有驗(yàn)證碼;

2、歷史消息列表只有最近10條群發(fā)內(nèi)容;

3、文章地址是有有效期的;

4、據(jù)說批量采集還要換ip;

通過我前面文章的方法就沒有這些問題,雖然采集系統(tǒng)搭建不如傳統(tǒng)采集器寫個(gè)規(guī)則去爬就可以了那么簡(jiǎn)單。但是一次搭建好之后批量采集的效率還是可以的。而且采集的文章地址是永久有效的,并且可以采集到一個(gè)公眾號(hào)所有的歷史消息。
我們還是從一個(gè)公眾號(hào)文章的鏈接地址開始看:

1、從微信右上角菜單復(fù)制到的鏈接地址:

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、歷史消息列表中獲取到的地址:

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3、完整的真實(shí)地址:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

以上這3個(gè)地址是同一篇文章的地址,在不同位置獲取到就得到了完全不同的3個(gè)結(jié)果。

和歷史消息頁一樣,微信有一套自動(dòng)補(bǔ)充參數(shù)的機(jī)制。第一個(gè)地址是復(fù)制鏈接得到的,看起來是一個(gè)偽裝的編碼。其實(shí)沒什么用我們不做考慮了。第二個(gè)地址是通過前面文章介紹的方法,從歷史消息的json文章列表中獲得到的鏈接地址,我們就是可以將這個(gè)地址保存到數(shù)據(jù)庫(kù)中。之后就可以通過這個(gè)地址從服務(wù)器獲取到文章內(nèi)容。而第三個(gè)鏈接補(bǔ)充了參數(shù)之后,目的是為了讓文章頁面中的閱讀量js可以獲取到閱讀量點(diǎn)贊量的json結(jié)果而加上的參數(shù)。我們前面文章的方法中因?yàn)槲恼马撁姹豢蛻舳舜蜷_顯示了出來,因?yàn)橛辛诉@些參數(shù),文章頁面中的js就去自動(dòng)獲取閱讀量了,所以我們才能通過代理服務(wù)獲取到這篇文章的閱讀量。

這篇文章的內(nèi)容就是以通過本專欄前面文章介紹的方法已經(jīng)獲取到了大量微信文章的基礎(chǔ)上,詳細(xì)研究如何獲取到文章內(nèi)容和其它一些有用的信息的方法。

PHP寫微信公眾號(hào)文章頁采集方法

(我的數(shù)據(jù)庫(kù)中保存的文章列表,一部分字段)

1、獲取文章源代碼:

通過php的函數(shù)file_get_content()就可以將文章源代碼讀取到變量中。微信文章的源代碼因?yàn)榭梢詮臑g覽器中打開所以我就不在這里粘貼了,以免浪費(fèi)頁面空間。

<?
//$content_url 變量的值為文章地址
$html = file_get_contents($content_url);
?>

2、源代碼中有用的信息:

1)原文內(nèi)容:

原文內(nèi)容是包含在一個(gè)<div id='js_content'></div>標(biāo)簽中的,通過php代碼獲?。?/p>

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<div id='js_content'>".$content[1][0];
?>

正則的開頭識(shí)別<div id='js_content'>,結(jié)尾識(shí)別<script/iUs,匹配到之后前面再補(bǔ)充一個(gè)<div id='js_content'>;我的正則匹配水平有限,只能寫成這樣的了。希望有高人能指點(diǎn)更好的正則匹配方法。

另外注意:這個(gè)匹配規(guī)則會(huì)可能在一段時(shí)間之后有變化。這篇文章會(huì)盡量保持更新。如果你根據(jù)我的文章制作了采集系統(tǒng)之后,當(dāng)某一天失效了,別忘了回來再看看文章是否有更新。

2)內(nèi)容處理:

通過上面的方法我們獲得了文章內(nèi)容的html,但是你將文章內(nèi)容顯示出來之后就會(huì)發(fā)現(xiàn),圖片和視頻不能正常顯示。因?yàn)檫@個(gè)html還需要一些加工:

首先是圖片,微信文章中的<img>標(biāo)簽中的src屬性全部都用了src屬性代替。只有在顯示的時(shí)候才會(huì)被替換過來。所以我們也有兩個(gè)方案,將源代碼直接替換過來,或者用js在顯示時(shí)候再替換。下面我先介紹直接替換html的方法:

<?
//$content變量的值是前面獲取到的文章內(nèi)容html
$content = str_replace("src","src",$content);
?>
【網(wǎng)站聲明】本站除付費(fèi)源碼經(jīng)過測(cè)試外,其他素材未做測(cè)試,不保證完整性,網(wǎng)站上部分源碼僅限學(xué)習(xí)交流,請(qǐng)勿用于商業(yè)用途。如損害你的權(quán)益請(qǐng)聯(lián)系客服QQ:2655101040 給予處理,謝謝支持。

相關(guān)文檔推薦

這篇文章主要介紹了PHP定義字符串的四種方式,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友可以參考下
下面小編就為大家分享一篇php 替換文章中的圖片路徑,下載圖片到本地服務(wù)器的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
下面小編就為大家分享一篇PHP給源代碼加密的幾種方法匯總(推薦),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
下面小編就為大家分享一篇php打開本地exe程序,js打開本地exe應(yīng)用程序,并傳遞相關(guān)參數(shù)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
這篇文章主要介紹了PHP類的反射來實(shí)現(xiàn)依賴注入過程以及相關(guān)知識(shí)點(diǎn)分享,對(duì)此有興趣的朋友跟著小編學(xué)習(xí)下吧。
php遍歷一個(gè)文件夾內(nèi)的所有文件和文件夾,并刪除所有文件夾和子文件夾下的所有文件的代碼,通過遞歸方式實(shí)現(xiàn)達(dá)到清空一個(gè)目錄的效果。本文給大家分享實(shí)例代碼,需要的朋友參考
主站蜘蛛池模板: 神马影院-实时更新秒播 | 广州印刷厂_广州彩印厂-广州艺彩印务有限公司 | 老城街小面官网_正宗重庆小面加盟技术培训_特色面馆加盟|牛肉拉面|招商加盟代理费用多少钱 | 碳纤维复合材料制品生产定制工厂订制厂家-凯夫拉凯芙拉碳纤维手机壳套-碳纤维雪茄盒外壳套-深圳市润大世纪新材料科技有限公司 | 全屋整木定制-橱柜,家具定制-四川峨眉山龙马木业有限公司 | 保温杯,儿童婴童奶瓶,运动水壶「广告礼品杯定制厂家」超朗保温杯壶 | 电渗析,废酸回收,双极膜-山东天维膜技术有限公司 | 深圳法律咨询【24小时在线】深圳律师咨询免费 | 工控机,嵌入式主板,工业主板,arm主板,图像采集卡,poe网卡,朗锐智科 | 河南橡胶接头厂家,河南波纹补偿器厂家,河南可曲挠橡胶软连接,河南套筒补偿器厂家-河南正大阀门 | 精密五金加工厂-CNC数控车床加工_冲压件|蜗杆|螺杆加工「新锦泰」 | RFID电子标签厂家-上海尼太普电子有限公司 | 科研ELISA试剂盒,酶联免疫检测试剂盒,昆虫_植物ELISA酶免试剂盒-上海仁捷生物科技有限公司 | pH污水传感器电极,溶解氧电极传感器-上海科蓝仪表科技有限公司 | 轻型地埋电缆故障测试仪,频响法绕组变形测试仪,静荷式卧式拉力试验机-扬州苏电 | 热熔胶网膜|pes热熔网膜价格|eva热熔胶膜|热熔胶膜|tpu热熔胶膜厂家-苏州惠洋胶粘制品有限公司 | 绿叶|绿叶投资|健康产业_绿叶投资集团有限公司 | 大_小鼠elisa试剂盒-植物_人Elisa试剂盒-PCR荧光定量试剂盒-上海一研生物科技有限公司 | 物联网卡_物联网卡购买平台_移动物联网卡办理_移动联通电信流量卡通信模组采购平台? | 钢丝绳探伤仪-钢丝绳检测仪-钢丝绳探伤设备-洛阳泰斯特探伤技术有限公司 | (中山|佛山|江门)环氧地坪漆,停车场地板漆,车库地板漆,聚氨酯地板漆-中山永旺地坪漆厂家 | 红立方品牌应急包/急救包加盟,小成本好项目代理_应急/消防/户外用品加盟_应急好项目加盟_新奇特项目招商 - 中红方宁(北京) 供应链有限公司 | 仓储笼_仓储货架_南京货架_仓储货架厂家_南京货架价格低-南京一品仓储设备制造公司 | 防爆鼓风机-全风-宏丰鼓风机-上海梁瑾机电设备有限公司 | 运动木地板_体育木地板_篮球馆木地板_舞台木地板-实木运动地板厂家 | 【连江县榕彩涂料有限公司】官方网站 | 水质监测站_水质在线分析仪_水质自动监测系统_多参数水质在线监测仪_水质传感器-山东万象环境科技有限公司 | 进口消泡剂-道康宁消泡剂-陶氏消泡剂-大洋消泡剂 | 生物除臭剂-除味剂-植物-污水除臭剂厂家-携葵环保有限公司 | 执业药师报名时间,报考条件,考试时间-首页入口 | 瓶盖扭矩测试仪-瓶盖扭力仪-全自动扭矩仪-济南三泉中石单品站 | 苹果售后维修点查询,苹果iPhone授权售后维修服务中心 – 修果网 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 合肥网带炉_安徽箱式炉_钟罩炉-合肥品炙装备科技有限公司 | 电机铸铝配件_汽车压铸铝合金件_发动机压铸件_青岛颖圣赫机械有限公司 | 铝合金电阻-无源谐波滤波器-上海稳达电讯设备厂 | 废旧物资回收公司_广州废旧设备回收_报废设备物资回收-益美工厂设备回收公司 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 北京网站建设|北京网站开发|北京网站设计|高端做网站公司 | 聚氨酯催化剂K15,延迟催化剂SA-1,叔胺延迟催化剂,DBU,二甲基哌嗪,催化剂TMR-2,-聚氨酯催化剂生产厂家 | 密集架-密集柜厂家-智能档案密集架-自动选层柜订做-河北风顺金属制品有限公司 | 开云(中国)Kaiyun·官方网站-登录入口 |