您的位置:網(wǎng)站首頁 > 優(yōu)秀論文 > 正文
基于Web日志的瀏覽興趣度分析技術(shù)研究
作者:尹立民來源:原創(chuàng)日期:2013-12-25人氣:782
Web日志挖掘就是運用數(shù)據(jù)挖掘的思想來對服務(wù)器日志進(jìn)行分析處理,解決網(wǎng)絡(luò)用戶的個性化服務(wù)問題。目前人們已經(jīng)在Web信息個性化服務(wù)的一些基本問題的研究工作上取得了一些成果,但如何將解決這些基本問題的方法有機(jī)地結(jié)合起來,以實現(xiàn)Web個性化服務(wù),有必要繼續(xù)研究。
1 Web日志挖掘技術(shù)
1.1 Web挖掘基本概念及應(yīng)用 Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。通過Web挖掘,可以發(fā)現(xiàn)潛在客戶,延長客戶的駐留時間,改進(jìn)站點設(shè)計等。
1.2 Web日志的挖掘過程 Web日志挖掘過程一般是預(yù)處理階段、挖掘算法、模式分析。數(shù)據(jù)預(yù)處理階段主要包括數(shù)據(jù)清洗、用戶識別、會話識別幾個步驟。階段流程如圖1所示。
2 基于用戶瀏覽行為的挖掘?qū)崿F(xiàn)
在目前已有的數(shù)據(jù)挖掘的實現(xiàn)方式中,主要有用戶端實現(xiàn)和服務(wù)器端實現(xiàn)兩種方式。服務(wù)器端實現(xiàn)的方式主要是從服務(wù)器端的日志文件中獲取瀏覽信息。這種方式主要有以下缺點:①利用緩存進(jìn)行的訪問在服務(wù)器端不被記錄;用戶按后退鍵,利用本地緩存瀏覽以前訪問過的頁面占用戶所有瀏覽行為的30%。②當(dāng)用戶通過代理進(jìn)行瀏覽時只能通過用戶注冊的方式獲取用戶身份標(biāo)志。③在代理中,只能找到用戶瀏覽了哪些網(wǎng)頁,不能準(zhǔn)確地知道用戶對其的瀏覽時長。④服務(wù)器負(fù)擔(dān)重。如何將解決這些基本問題的方法有機(jī)地結(jié)合起來,以實現(xiàn)Web個性化服務(wù),還較少提出過完整的解決方案,有必要繼續(xù)在這一方面進(jìn)行研究。
3 利用線性回歸預(yù)測方法預(yù)測頁面瀏覽興趣度
3.1 Web日志頁面瀏覽興趣度分析研究的“微差” 如何有效地表達(dá)用戶瀏覽興趣是Web日志模式挖掘研究的方向之一。頁面興趣度的計算并不是一個新的課題,目前許多Web個性化推薦系統(tǒng)都涉及到頁面興趣度的計算。根據(jù)計算得到頁面興趣度,應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得用戶的興趣模型,但這些計算方法都存在不足。
基于以上分析,提出了利用線性回歸預(yù)測方法預(yù)測頁面瀏覽興趣度?;貧w分析不僅能確定待估參數(shù),還能對回歸的有效性(顯著性)、估計誤差及待估參數(shù)的相關(guān)性做出定量描述。線性回歸預(yù)測方法為:根據(jù)歷史的樣本數(shù)據(jù),建立多元線性回歸的預(yù)測模型,從而在不需要未來樣本數(shù)據(jù)的情況下,預(yù)測未來時刻多元線性回歸模型中的回歸參數(shù),以及主要的模型精度評估指標(biāo)。
3.2 興趣度線性回歸方程設(shè)計 利用線性回歸方程計算興趣度關(guān)鍵是通過已有的興趣度,訪問次數(shù),訪問時間和接收字節(jié)數(shù)求出回歸系數(shù),其中訪問次數(shù),訪問時間和接收字節(jié)數(shù)可通過Log得到。根據(jù)線性回歸模型,假設(shè)訪問次數(shù)、訪問時間和接收字節(jié)數(shù)與頁面瀏覽興趣度線性相關(guān),線性方程建立如下:興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε,其中α、β、γ、ε為回歸系數(shù)。興趣度主觀設(shè)定為:很感興趣,一般感興趣,偶爾感興趣和不感興趣。具體說明如下:在特定的時間內(nèi)和特定的網(wǎng)頁范圍內(nèi),對于一個頁面,若訪問次數(shù),訪問時間和接收字節(jié)數(shù)大于等于平均值的1.5,則認(rèn)為是很感興趣的,興趣度最小值設(shè)為80;若訪問次數(shù),訪問時間和接收字節(jié)數(shù)大于等于平均值的0.8,則認(rèn)為是一般感興趣的,興趣度最小值設(shè)為40;若訪問次數(shù),訪問時間和接收字節(jié)數(shù)大于等于平均值的0.4,則認(rèn)為是偶爾感興趣的,興趣度最小值設(shè)為20;若訪問次數(shù),訪問時間和接收字節(jié)數(shù)小于平均值的0.4,則認(rèn)為是不感興趣的,興趣度最小值設(shè)為10。
3.3 利用線性回歸方程求解興趣度 根據(jù)LINEST(known_y's,known_x's,const,stats)函數(shù)要求,把數(shù)據(jù)α=3.247829、β=0.228428、γ=0.194637、ε=11.39658帶入到:興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε中,從而得出頁面興趣度回歸方程:
興趣度=11.39658+3.247829*訪問次數(shù)+0.228428*訪問時間+0.194637*接收字節(jié)數(shù),記為:興趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。
3.4 實驗結(jié)果分析 通過利用線性回歸方程計算出的興趣度值與設(shè)定的興趣度值進(jìn)行比較,易發(fā)現(xiàn)興趣度值幾乎吻合,誤差很小,而且數(shù)據(jù)計算精度高。
由表1數(shù)據(jù)偏差值的統(tǒng)計數(shù)據(jù),易初步判斷本實驗建立的線性模型“興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε”準(zhǔn)確,下面進(jìn)行理論證明。證明方法:利用方程的顯著性檢驗——F檢驗,判定訪問次數(shù)、訪問時間和接收字節(jié)數(shù)與頁面瀏覽興趣度的相關(guān)性程度,進(jìn)而準(zhǔn)確判定線性模型準(zhǔn)確與否。證明:由回歸系數(shù)不難看出回歸平方和ESS=4981.081,誤差平方和RSS=1162.919。由Table1:原始數(shù)據(jù)表A,B頁面,易得出總記錄數(shù)n=25,自變量個數(shù)k=3。所以利用方程顯著性檢驗——F檢驗公式:F=(ESS/k)/(RSS/(n-k-1))可求出統(tǒng)計量F的數(shù)值為F=29.9828。給定顯著性水平α=0.05,利用查F-分布表可得到臨界值Fα(k,n-k-1)=F0.05(3,21)=3.07。顯然F>Fα(k,n-k-1),所以可判定原方程興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε總體上的線性關(guān)系在95%的水平下顯著成立,模型準(zhǔn)確。
實驗和理論同時表明,通過線性回歸預(yù)測方法預(yù)測瀏覽興趣度,興趣度由線性回歸方程求出,相對于“興趣度=(訪問次數(shù)*訪問時間)/接收字節(jié)數(shù)”這個公式來說,由于考慮的因素更多,建立的線性回歸模型更準(zhǔn)確,所以求得的結(jié)果更精確,并且具有預(yù)見性。需要指出的是,本實驗所提出的利用線性回歸模型預(yù)測頁面瀏覽興趣度的方法還有很大的理論探討空間。此外,本實現(xiàn)的設(shè)定興趣度值是作者主觀設(shè)定的,是否具有說服力還需進(jìn)一步探討。改進(jìn)的思想是:興趣度設(shè)定為三類,重新確定回歸系數(shù)。
通過線性回歸預(yù)測方法預(yù)測頁面瀏覽興趣度,是可行的并且具有較好的效果。
4 結(jié)束語
本文研究的是Web日志挖掘,希望通過Web日志分析研究瀏覽興趣度。研究的主要工作是:建立興趣度的線性回歸方程,求出線性回歸系數(shù)α、β、γ、ε,預(yù)測網(wǎng)站瀏覽興趣度。隨著互聯(lián)網(wǎng)的發(fā)展,Web服務(wù)的個性化趨勢已成必然,對瀏覽興趣度的分析勢必將成為分析瀏覽路徑的一個越來越重要的依據(jù)。以后的研究應(yīng)綜合考慮各種因素,這樣挖掘出的用戶興趣模型會更準(zhǔn)確。
1 Web日志挖掘技術(shù)
1.1 Web挖掘基本概念及應(yīng)用 Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。通過Web挖掘,可以發(fā)現(xiàn)潛在客戶,延長客戶的駐留時間,改進(jìn)站點設(shè)計等。
1.2 Web日志的挖掘過程 Web日志挖掘過程一般是預(yù)處理階段、挖掘算法、模式分析。數(shù)據(jù)預(yù)處理階段主要包括數(shù)據(jù)清洗、用戶識別、會話識別幾個步驟。階段流程如圖1所示。
2 基于用戶瀏覽行為的挖掘?qū)崿F(xiàn)
在目前已有的數(shù)據(jù)挖掘的實現(xiàn)方式中,主要有用戶端實現(xiàn)和服務(wù)器端實現(xiàn)兩種方式。服務(wù)器端實現(xiàn)的方式主要是從服務(wù)器端的日志文件中獲取瀏覽信息。這種方式主要有以下缺點:①利用緩存進(jìn)行的訪問在服務(wù)器端不被記錄;用戶按后退鍵,利用本地緩存瀏覽以前訪問過的頁面占用戶所有瀏覽行為的30%。②當(dāng)用戶通過代理進(jìn)行瀏覽時只能通過用戶注冊的方式獲取用戶身份標(biāo)志。③在代理中,只能找到用戶瀏覽了哪些網(wǎng)頁,不能準(zhǔn)確地知道用戶對其的瀏覽時長。④服務(wù)器負(fù)擔(dān)重。如何將解決這些基本問題的方法有機(jī)地結(jié)合起來,以實現(xiàn)Web個性化服務(wù),還較少提出過完整的解決方案,有必要繼續(xù)在這一方面進(jìn)行研究。
3 利用線性回歸預(yù)測方法預(yù)測頁面瀏覽興趣度
3.1 Web日志頁面瀏覽興趣度分析研究的“微差” 如何有效地表達(dá)用戶瀏覽興趣是Web日志模式挖掘研究的方向之一。頁面興趣度的計算并不是一個新的課題,目前許多Web個性化推薦系統(tǒng)都涉及到頁面興趣度的計算。根據(jù)計算得到頁面興趣度,應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得用戶的興趣模型,但這些計算方法都存在不足。
基于以上分析,提出了利用線性回歸預(yù)測方法預(yù)測頁面瀏覽興趣度?;貧w分析不僅能確定待估參數(shù),還能對回歸的有效性(顯著性)、估計誤差及待估參數(shù)的相關(guān)性做出定量描述。線性回歸預(yù)測方法為:根據(jù)歷史的樣本數(shù)據(jù),建立多元線性回歸的預(yù)測模型,從而在不需要未來樣本數(shù)據(jù)的情況下,預(yù)測未來時刻多元線性回歸模型中的回歸參數(shù),以及主要的模型精度評估指標(biāo)。
3.2 興趣度線性回歸方程設(shè)計 利用線性回歸方程計算興趣度關(guān)鍵是通過已有的興趣度,訪問次數(shù),訪問時間和接收字節(jié)數(shù)求出回歸系數(shù),其中訪問次數(shù),訪問時間和接收字節(jié)數(shù)可通過Log得到。根據(jù)線性回歸模型,假設(shè)訪問次數(shù)、訪問時間和接收字節(jié)數(shù)與頁面瀏覽興趣度線性相關(guān),線性方程建立如下:興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε,其中α、β、γ、ε為回歸系數(shù)。興趣度主觀設(shè)定為:很感興趣,一般感興趣,偶爾感興趣和不感興趣。具體說明如下:在特定的時間內(nèi)和特定的網(wǎng)頁范圍內(nèi),對于一個頁面,若訪問次數(shù),訪問時間和接收字節(jié)數(shù)大于等于平均值的1.5,則認(rèn)為是很感興趣的,興趣度最小值設(shè)為80;若訪問次數(shù),訪問時間和接收字節(jié)數(shù)大于等于平均值的0.8,則認(rèn)為是一般感興趣的,興趣度最小值設(shè)為40;若訪問次數(shù),訪問時間和接收字節(jié)數(shù)大于等于平均值的0.4,則認(rèn)為是偶爾感興趣的,興趣度最小值設(shè)為20;若訪問次數(shù),訪問時間和接收字節(jié)數(shù)小于平均值的0.4,則認(rèn)為是不感興趣的,興趣度最小值設(shè)為10。
3.3 利用線性回歸方程求解興趣度 根據(jù)LINEST(known_y's,known_x's,const,stats)函數(shù)要求,把數(shù)據(jù)α=3.247829、β=0.228428、γ=0.194637、ε=11.39658帶入到:興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε中,從而得出頁面興趣度回歸方程:
興趣度=11.39658+3.247829*訪問次數(shù)+0.228428*訪問時間+0.194637*接收字節(jié)數(shù),記為:興趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。
3.4 實驗結(jié)果分析 通過利用線性回歸方程計算出的興趣度值與設(shè)定的興趣度值進(jìn)行比較,易發(fā)現(xiàn)興趣度值幾乎吻合,誤差很小,而且數(shù)據(jù)計算精度高。
由表1數(shù)據(jù)偏差值的統(tǒng)計數(shù)據(jù),易初步判斷本實驗建立的線性模型“興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε”準(zhǔn)確,下面進(jìn)行理論證明。證明方法:利用方程的顯著性檢驗——F檢驗,判定訪問次數(shù)、訪問時間和接收字節(jié)數(shù)與頁面瀏覽興趣度的相關(guān)性程度,進(jìn)而準(zhǔn)確判定線性模型準(zhǔn)確與否。證明:由回歸系數(shù)不難看出回歸平方和ESS=4981.081,誤差平方和RSS=1162.919。由Table1:原始數(shù)據(jù)表A,B頁面,易得出總記錄數(shù)n=25,自變量個數(shù)k=3。所以利用方程顯著性檢驗——F檢驗公式:F=(ESS/k)/(RSS/(n-k-1))可求出統(tǒng)計量F的數(shù)值為F=29.9828。給定顯著性水平α=0.05,利用查F-分布表可得到臨界值Fα(k,n-k-1)=F0.05(3,21)=3.07。顯然F>Fα(k,n-k-1),所以可判定原方程興趣度=α*訪問次數(shù)+β*訪問時間+γ*接收字節(jié)數(shù)+ε總體上的線性關(guān)系在95%的水平下顯著成立,模型準(zhǔn)確。
實驗和理論同時表明,通過線性回歸預(yù)測方法預(yù)測瀏覽興趣度,興趣度由線性回歸方程求出,相對于“興趣度=(訪問次數(shù)*訪問時間)/接收字節(jié)數(shù)”這個公式來說,由于考慮的因素更多,建立的線性回歸模型更準(zhǔn)確,所以求得的結(jié)果更精確,并且具有預(yù)見性。需要指出的是,本實驗所提出的利用線性回歸模型預(yù)測頁面瀏覽興趣度的方法還有很大的理論探討空間。此外,本實現(xiàn)的設(shè)定興趣度值是作者主觀設(shè)定的,是否具有說服力還需進(jìn)一步探討。改進(jìn)的思想是:興趣度設(shè)定為三類,重新確定回歸系數(shù)。
通過線性回歸預(yù)測方法預(yù)測頁面瀏覽興趣度,是可行的并且具有較好的效果。
4 結(jié)束語
本文研究的是Web日志挖掘,希望通過Web日志分析研究瀏覽興趣度。研究的主要工作是:建立興趣度的線性回歸方程,求出線性回歸系數(shù)α、β、γ、ε,預(yù)測網(wǎng)站瀏覽興趣度。隨著互聯(lián)網(wǎng)的發(fā)展,Web服務(wù)的個性化趨勢已成必然,對瀏覽興趣度的分析勢必將成為分析瀏覽路徑的一個越來越重要的依據(jù)。以后的研究應(yīng)綜合考慮各種因素,這樣挖掘出的用戶興趣模型會更準(zhǔn)確。
欄目分類
熱門排行
推薦信息
- 提升高?;鶎涌蒲泄芾砣藛T能力的對策研究
- 以全覆蓋、強(qiáng)震懾、建網(wǎng)絡(luò)為目標(biāo) 讓高校黨委的巡察利劍“一插到底” ——以新疆大學(xué)巡視巡察上下聯(lián)動為例
- 數(shù)智時代高校時政熱點講解活動品牌創(chuàng)新路徑探析
- 恩格斯生態(tài)思想對我國鄉(xiāng)村生態(tài)振興的啟示
- 生活情境在小學(xué)數(shù)學(xué)課堂教學(xué)中的創(chuàng)設(shè)與應(yīng)用
- 夯實基層衛(wèi)生醫(yī)療機(jī)構(gòu) 構(gòu)建具有中國特色的免費醫(yī)療體系
- 基于文化視角的人與自然和諧共生內(nèi)涵闡釋
- 新課標(biāo)下小組合作學(xué)習(xí)在小學(xué)數(shù)學(xué)課堂教學(xué)中的有效運用
- 蘇北抗日根據(jù)地新四軍黨建工作與新時代“銀齡計劃”深度融合模式探索
- 人口負(fù)增長背景下學(xué)前教育專業(yè)就業(yè)挑戰(zhàn)與對策研究 ——以張家口學(xué)院為例
期刊知識
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級黨報?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報?