織夢俠
WWW.2L3.NET

最詳細火車頭數據采集系統DedeCMS發布文章攻略

文章來自:織夢俠 本文鏈接:http://www.xtjinzuan.com/zqzb/962.html

       搜索引擎不喜歡復制的東西更不喜歡數據采集,但有時候遇到一些情況,比如網站由于改版、換數據庫、換管理程序等,需要把網絡數據采集或網站備份。提醒各位:

①做任何操作之前一定要備份數據庫并打包原站;

②對排名較好的網站不建議對網站管理系統進行這樣大的修改;

③對新站不建議采集別人網站的信息,會降低新站特殊權重給分。

       前段時間做一個老網站的改版方案,由于管理系統和數據庫都更換,決定采用對原網站數據采集的解決方案。新手進行網站改版需要掌握的建站知識和SEO知識是非常多的,這些經驗拿來跟大家分享。

網站基本情況

       這個站原來有排名,收錄量也比較多,優化也比較好,制作風格和吖七很相似,代碼簡潔,前端大氣,標簽運用還可以,只是網站優化方法帶點黑帽。用的asp程序后臺,數據庫是access,要換成php,數據庫是mysql。

網站改版用的軟件工具

-EditPlus或DreamWear(代碼編輯器);
-APMServ(本地ASP、PHP環境);
-Fiddler Web漢化版(web數據抓包);
-火車頭(LocoySpider)采集7.6(破解穩定版、數據采集);
-DedeCMS V5.7(后臺內容管理程序);
-其他輔助工具。

網站借助火車頭采集改版詳細步驟

1.本地環境搭建、安裝DedeCMS、安裝Fiddler Web抓包工具、安裝火車頭采集7.6等軟件

       安裝方法很簡單,相關文章《本地安裝PHP環境 測試織夢CMS》,《如何安裝dedecms織夢詳解》。

       提供部分軟件下載鏈接:http://pan.baidu.com/s/1qXSaMOs 密碼:3n7e

2.火車頭設置(重點內容)

       官方說明較簡單,新手采集網站數據一定要多看多實踐。打開火車頭采集工具,新建一個任務和分組。

第一步:采集網址規則

①起始地址。即提取分頁規則,按照下圖依次:點擊添加-點擊批量/多頁-輸入地址格式,比如我要采集的地址列表有,即是:

http://www.123.com/case.asp?page=1&SmallClass=1
http://www.123.com/case.asp?page=2&SmallClass=1
http://www.123.com/case.asp?page=3&SmallClass=1

       看得出變量是1,2,3...采用通配符寫法就是

http://www.123.com/case.asp?page=(*)&SmallClass=1

       選擇等差數列的項數為所要采集的列表數量,根據實際情況寫。依次點擊添加

       再依次點擊添加-完成-關閉。

②多級網址獲取。 即獲取某個分頁的URL地址列表。在任意一個目標列表中,鼠標右鍵-查看源代碼,一般來說有基礎的同學就不必多說了,實在不懂的網上資源也多。找到特征代碼片段,按下圖寫好,保存即可。

        點擊測試網址采集,確保列表采集規則正確后,進行第二步。

轉載請注明文章來自織夢俠[秩名]作者的-最詳細火車頭數據采集系統DedeCMS發布文章攻略
聯系作者
取消
這個作者很懶什么也沒留下!
打賞作者
取消

本文作者無償奉獻,就打賞給我們織夢俠吧!

掃碼支付
掃碼打賞,建議金額1-10元

打開支付寶掃一掃,即可進行掃碼打賞哦

提醒:打賞金額將直接進入對方賬號,無法退款,請您謹慎操作。

蜗牛扑克