基于Web日志的瀏覽興趣度分析技術(shù)研究

作者：尹立民來源：原創(chuàng)日期：2013-12-25人氣：811

Web日志挖掘就是運(yùn)用數(shù)據(jù)挖掘的思想來對(duì)服務(wù)器日志進(jìn)行分析處理，解決網(wǎng)絡(luò)用戶的個(gè)性化服務(wù)問題。目前人們已經(jīng)在Web信息個(gè)性化服務(wù)的一些基本問題的研究工作上取得了一些成果，但如何將解決這些基本問題的方法有機(jī)地結(jié)合起來，以實(shí)現(xiàn)Web個(gè)性化服務(wù)，有必要繼續(xù)研究。
1 Web日志挖掘技術(shù)
1.1 Web挖掘基本概念及應(yīng)用 Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域，包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。通過Web挖掘，可以發(fā)現(xiàn)潛在客戶，延長(zhǎng)客戶的駐留時(shí)間，改進(jìn)站點(diǎn)設(shè)計(jì)等。
1.2 Web日志的挖掘過程 Web日志挖掘過程一般是預(yù)處理階段、挖掘算法、模式分析。數(shù)據(jù)預(yù)處理階段主要包括數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別幾個(gè)步驟。階段流程如圖1所示。
2 基于用戶瀏覽行為的挖掘?qū)崿F(xiàn)
在目前已有的數(shù)據(jù)挖掘的實(shí)現(xiàn)方式中，主要有用戶端實(shí)現(xiàn)和服務(wù)器端實(shí)現(xiàn)兩種方式。服務(wù)器端實(shí)現(xiàn)的方式主要是從服務(wù)器端的日志文件中獲取瀏覽信息。這種方式主要有以下缺點(diǎn)：①利用緩存進(jìn)行的訪問在服務(wù)器端不被記錄；用戶按后退鍵，利用本地緩存瀏覽以前訪問過的頁面占用戶所有瀏覽行為的30%。②當(dāng)用戶通過代理進(jìn)行瀏覽時(shí)只能通過用戶注冊(cè)的方式獲取用戶身份標(biāo)志。③在代理中，只能找到用戶瀏覽了哪些網(wǎng)頁，不能準(zhǔn)確地知道用戶對(duì)其的瀏覽時(shí)長(zhǎng)。④服務(wù)器負(fù)擔(dān)重。如何將解決這些基本問題的方法有機(jī)地結(jié)合起來，以實(shí)現(xiàn)Web個(gè)性化服務(wù)，還較少提出過完整的解決方案，有必要繼續(xù)在這一方面進(jìn)行研究。
3 利用線性回歸預(yù)測(cè)方法預(yù)測(cè)頁面瀏覽興趣度
3.1 Web日志頁面瀏覽興趣度分析研究的“微差” 如何有效地表達(dá)用戶瀏覽興趣是Web日志模式挖掘研究的方向之一。頁面興趣度的計(jì)算并不是一個(gè)新的課題，目前許多Web個(gè)性化推薦系統(tǒng)都涉及到頁面興趣度的計(jì)算。根據(jù)計(jì)算得到頁面興趣度，應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得用戶的興趣模型，但這些計(jì)算方法都存在不足。
基于以上分析，提出了利用線性回歸預(yù)測(cè)方法預(yù)測(cè)頁面瀏覽興趣度?；貧w分析不僅能確定待估參數(shù)，還能對(duì)回歸的有效性（顯著性）、估計(jì)誤差及待估參數(shù)的相關(guān)性做出定量描述。線性回歸預(yù)測(cè)方法為：根據(jù)歷史的樣本數(shù)據(jù)，建立多元線性回歸的預(yù)測(cè)模型，從而在不需要未來樣本數(shù)據(jù)的情況下，預(yù)測(cè)未來時(shí)刻多元線性回歸模型中的回歸參數(shù)，以及主要的模型精度評(píng)估指標(biāo)。
3.2 興趣度線性回歸方程設(shè)計(jì) 利用線性回歸方程計(jì)算興趣度關(guān)鍵是通過已有的興趣度，訪問次數(shù)，訪問時(shí)間和接收字節(jié)數(shù)求出回歸系數(shù)，其中訪問次數(shù)，訪問時(shí)間和接收字節(jié)數(shù)可通過Log得到。根據(jù)線性回歸模型，假設(shè)訪問次數(shù)、訪問時(shí)間和接收字節(jié)數(shù)與頁面瀏覽興趣度線性相關(guān)，線性方程建立如下：興趣度=α*訪問次數(shù)+β*訪問時(shí)間+γ*接收字節(jié)數(shù)+ε，其中α、β、γ、ε為回歸系數(shù)。興趣度主觀設(shè)定為：很感興趣，一般感興趣，偶爾感興趣和不感興趣。具體說明如下：在特定的時(shí)間內(nèi)和特定的網(wǎng)頁范圍內(nèi)，對(duì)于一個(gè)頁面，若訪問次數(shù)，訪問時(shí)間和接收字節(jié)數(shù)大于等于平均值的1.5，則認(rèn)為是很感興趣的，興趣度最小值設(shè)為80；若訪問次數(shù)，訪問時(shí)間和接收字節(jié)數(shù)大于等于平均值的0.8，則認(rèn)為是一般感興趣的，興趣度最小值設(shè)為40；若訪問次數(shù)，訪問時(shí)間和接收字節(jié)數(shù)大于等于平均值的0.4，則認(rèn)為是偶爾感興趣的，興趣度最小值設(shè)為20；若訪問次數(shù)，訪問時(shí)間和接收字節(jié)數(shù)小于平均值的0.4，則認(rèn)為是不感興趣的，興趣度最小值設(shè)為10。
3.3 利用線性回歸方程求解興趣度根據(jù)LINEST（known_y's，known_x's，const，stats）函數(shù)要求，把數(shù)據(jù)α=3.247829、β=0.228428、γ=0.194637、ε=11.39658帶入到：興趣度=α*訪問次數(shù)+β*訪問時(shí)間+γ*接收字節(jié)數(shù)+ε中，從而得出頁面興趣度回歸方程：
興趣度=11.39658+3.247829*訪問次數(shù)+0.228428*訪問時(shí)間+0.194637*接收字節(jié)數(shù)，記為：興趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。
3.4 實(shí)驗(yàn)結(jié)果分析通過利用線性回歸方程計(jì)算出的興趣度值與設(shè)定的興趣度值進(jìn)行比較，易發(fā)現(xiàn)興趣度值幾乎吻合，誤差很小，而且數(shù)據(jù)計(jì)算精度高。
由表1數(shù)據(jù)偏差值的統(tǒng)計(jì)數(shù)據(jù)，易初步判斷本實(shí)驗(yàn)建立的線性模型“興趣度=α*訪問次數(shù)+β*訪問時(shí)間+γ*接收字節(jié)數(shù)+ε”準(zhǔn)確，下面進(jìn)行理論證明。證明方法：利用方程的顯著性檢驗(yàn)——F檢驗(yàn)，判定訪問次數(shù)、訪問時(shí)間和接收字節(jié)數(shù)與頁面瀏覽興趣度的相關(guān)性程度，進(jìn)而準(zhǔn)確判定線性模型準(zhǔn)確與否。證明：由回歸系數(shù)不難看出回歸平方和ESS=4981.081，誤差平方和RSS=1162.919。由Table1：原始數(shù)據(jù)表A，B頁面，易得出總記錄數(shù)n=25，自變量個(gè)數(shù)k=3。所以利用方程顯著性檢驗(yàn)——F檢驗(yàn)公式：F=（ESS/k）/（RSS/（n-k-1））可求出統(tǒng)計(jì)量F的數(shù)值為F=29.9828。給定顯著性水平α=0.05，利用查F-分布表可得到臨界值Fα（k，n-k-1）=F0.05（3，21）=3.07。顯然F>Fα（k，n-k-1），所以可判定原方程興趣度=α*訪問次數(shù)+β*訪問時(shí)間+γ*接收字節(jié)數(shù)+ε總體上的線性關(guān)系在95%的水平下顯著成立，模型準(zhǔn)確。
實(shí)驗(yàn)和理論同時(shí)表明，通過線性回歸預(yù)測(cè)方法預(yù)測(cè)瀏覽興趣度，興趣度由線性回歸方程求出，相對(duì)于“興趣度=（訪問次數(shù)*訪問時(shí)間）/接收字節(jié)數(shù)”這個(gè)公式來說，由于考慮的因素更多，建立的線性回歸模型更準(zhǔn)確，所以求得的結(jié)果更精確，并且具有預(yù)見性。需要指出的是，本實(shí)驗(yàn)所提出的利用線性回歸模型預(yù)測(cè)頁面瀏覽興趣度的方法還有很大的理論探討空間。此外，本實(shí)現(xiàn)的設(shè)定興趣度值是作者主觀設(shè)定的，是否具有說服力還需進(jìn)一步探討。改進(jìn)的思想是：興趣度設(shè)定為三類，重新確定回歸系數(shù)。
通過線性回歸預(yù)測(cè)方法預(yù)測(cè)頁面瀏覽興趣度，是可行的并且具有較好的效果。
4 結(jié)束語
本文研究的是Web日志挖掘，希望通過Web日志分析研究瀏覽興趣度。研究的主要工作是：建立興趣度的線性回歸方程，求出線性回歸系數(shù)α、β、γ、ε，預(yù)測(cè)網(wǎng)站瀏覽興趣度。隨著互聯(lián)網(wǎng)的發(fā)展，Web服務(wù)的個(gè)性化趨勢(shì)已成必然，對(duì)瀏覽興趣度的分析勢(shì)必將成為分析瀏覽路徑的一個(gè)越來越重要的依據(jù)。以后的研究應(yīng)綜合考慮各種因素，這樣挖掘出的用戶興趣模型會(huì)更準(zhǔn)確。

關(guān)鍵字：論文篇教育篇發(fā)表論文

上一篇：金屬拉伸實(shí)驗(yàn)數(shù)據(jù)小波變換數(shù)字濾波方法研究
下一篇：數(shù)控仿真軟件在一體化教學(xué)中的應(yīng)用

欄目分類

熱門排行

推薦信息

期刊知識(shí)