基于web日志的用戶訪問.docx
約74頁DOCX格式手機(jī)打開展開
基于web日志的用戶訪問,摘要隨著網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,基于web的應(yīng)用已經(jīng)覆蓋社會生活的各個方面,因此web上的數(shù)據(jù)通常是海量的。在這些數(shù)據(jù)中,相比網(wǎng)頁結(jié)構(gòu)和內(nèi)容,用戶的使用模式更加引人關(guān)注。通過獲取用戶的訪問模式,可以實現(xiàn)從優(yōu)化網(wǎng)站設(shè)計到改善客戶關(guān)系的一系列應(yīng)用:根據(jù)訪問者的行為模式來設(shè)計和修改網(wǎng)站結(jié)構(gòu)和布局,讓用戶以最短的時間訪問到感...
內(nèi)容介紹
此文檔由會員 違規(guī)屏蔽12 發(fā)布
摘 要
隨著網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,基于Web的應(yīng)用已經(jīng)覆蓋社會生活的各個方面,因此Web上的數(shù)據(jù)通常是海量的。在這些數(shù)據(jù)中,相比網(wǎng)頁結(jié)構(gòu)和內(nèi)容,用戶的使用模式更加引人關(guān)注。通過獲取用戶的訪問模式,可以實現(xiàn)從優(yōu)化網(wǎng)站設(shè)計到改善客戶關(guān)系的一系列應(yīng)用:根據(jù)訪問者的行為模式來設(shè)計和修改網(wǎng)站結(jié)構(gòu)和布局,讓用戶以最短的時間訪問到感興趣的頁面,優(yōu)化服務(wù)性能;理解和分析用戶的瀏覽行為,發(fā)現(xiàn)潛在的用戶并使用戶駐留;通過對用戶訪問行為的把握,組織決策者可以更有針對性地設(shè)計商品目錄,提高商業(yè)決策的準(zhǔn)確性;發(fā)現(xiàn)個體用戶的訪問模式,從而識別出用戶的興趣、愛好、習(xí)慣和需求,建立個性化用戶模型,為用戶提供更個性化的內(nèi)容和服務(wù)。
用戶使用模式的信息通常在Web服務(wù)器日志中有所體現(xiàn)。Web服務(wù)器日志記錄了用戶與服務(wù)器的交互信息,反映了用戶訪問Web站點的所有動作。對Web日志進(jìn)行分析挖掘,獲得用戶訪問行為的模式和興趣愛好等有用信息,從而可以理解用戶的訪問行為。
本文基于Web使用挖掘的方法和過程,將Web服務(wù)器日志文件作為數(shù)據(jù)源,旨在挖掘出單個用戶以及群體用戶的頻繁訪問路徑,以發(fā)現(xiàn)網(wǎng)站用戶的訪問模式。
針對單個用戶的頻繁訪問路徑挖掘,在詳細(xì)介紹兩種具有代表性的關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,從提高關(guān)聯(lián)規(guī)則有用性的角度,引入有趣度測量因子實現(xiàn)對算法的改進(jìn);針對群體用戶,在詳細(xì)分析用戶聚類的過程后,采用基于瀏覽路徑的聚類算法實現(xiàn)對群體用戶訪問模式的發(fā)現(xiàn)。
最后提出一個用戶訪問模式挖掘系統(tǒng)的模型框架,介紹各模塊的功能并進(jìn)行了實驗分析,結(jié)合具體的實例數(shù)據(jù)加以說明。
關(guān)鍵詞 Web使用挖掘;Web日志;關(guān)聯(lián)規(guī)則;用戶聚類;行為模式
Abstract
With the rapid development of the network and information technology, the application based on Web has covered all aspects of social life, so the data on the Web is usually huge. In these data, compared with the web structure and content, the using mode of users is more remarkable. By obtaining the access mode of users, we can realize a series of application from optimizing the design of websites to improving the customer relationship. Designing and modifying the structure and layout of websites according to the behavior patterns of users can let users visit interested pages in the shortest time and improve service performance. Understanding and analyzing the access behavior of users can find potential customers and keep users presence. By mastering the access behavior of users, group decision makers can design the goods catalogue more purposefully and improve the accuracy of business decisions. Finding the access pattern of the individual user can recognize the user's interests, hobbies, habits and needs, establish the personalized user model, provide the content and service more personally.
The information of usage modes is usually revealed in Web server logs. Web server logs records the mutual reacting information between users and servers which reflects all movement by users. Mining and analyzing Web logs can obtain access patterns and useful information including hobbies and interests so as to understand the access behavior of users.
Basing on the method and the process of Web usage mining and using Web server logs as data sources, the paper aims to mine frequent access paths of the individual user and group users, in order to find out the access modes of web users.
As for mining frequent access paths of the individual user, the paper introduces two representative association rule mining algorithm in detail, improves the algorithm by adding interesting measurement factor from the aspect of enhancing usefulness of association rules. As for group users , the paper analyzes the process of user clustering in detail, and uses UBPC to mine access patterns of users.
Finally, the paper proposes a model of user access patterns mining system, introduces the function of each module, does the experimental analysis by combining the concrete data to illustrate.
Key Words: web usage mining; web logs; association rule; user clustering; behavior mode
目錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 課題研究的背景及意義 1
1.1.1 課題研究的背景 1
1.1.2 課題研究的意義 2
1.2 國內(nèi)外研究現(xiàn)狀 3
1.2.1 數(shù)據(jù)預(yù)處理的國內(nèi)外研究現(xiàn)狀 3
1.2.2 模式發(fā)現(xiàn)的國內(nèi)外研究現(xiàn)狀 3
1.2.3 模式分析的國內(nèi)外研究現(xiàn)狀 4
1.3 論文的主要研究內(nèi)容 5
1.4 論文的組織結(jié)構(gòu) 6
1.5 本章小結(jié) 6
第2章 數(shù)據(jù)預(yù)處理 8
2.1 Web使用挖掘概述 8
2.1.1 Web使用挖掘的概念和應(yīng)用 8
2.1.2 Web日志的內(nèi)容 9
2.1.3 Web使用挖掘的過程 11
2.2 數(shù)據(jù)預(yù)處理 11
2.2.1 數(shù)據(jù)清洗 12
2.2.2 用戶識別 14
2.2.3 會話識別 15
2.2.4 路徑補(bǔ)充 16
2.2.5 事務(wù)識別 17
2.3 本章小結(jié) 19
第3章 基于關(guān)聯(lián)規(guī)則的用戶頻繁訪問模式挖掘 20
3.1 用戶頻繁訪問模式 20
3.2 關(guān)聯(lián)規(guī)則概述 20
3.2.1 關(guān)聯(lián)規(guī)則的概念和形式定義 20
3.2.2 支持度 22
3.2.3 置信度 22
3.3 關(guān)聯(lián)規(guī)則挖掘算法 22
3.3.1 Apriori算法 23
3.3.2 對Apriori算法經(jīng)典改進(jìn)的介紹 24
3.3.3 FP增長算法 25
3.4 基于有趣度的改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法 28
3.4.1 已有的有趣度定義 29
3.4.2 本文提出的有趣度定義 29
3.4.3 改進(jìn)的算法 30
3.4.4 實驗結(jié)果 32
3.4.5 實例分析 33
3.5 本章小結(jié) 35
第4章 基于聚類分析的群體用戶訪問模式發(fā)現(xiàn) 36
4.1 聚類 36
4.1.1 聚類的類型 36-..
隨著網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,基于Web的應(yīng)用已經(jīng)覆蓋社會生活的各個方面,因此Web上的數(shù)據(jù)通常是海量的。在這些數(shù)據(jù)中,相比網(wǎng)頁結(jié)構(gòu)和內(nèi)容,用戶的使用模式更加引人關(guān)注。通過獲取用戶的訪問模式,可以實現(xiàn)從優(yōu)化網(wǎng)站設(shè)計到改善客戶關(guān)系的一系列應(yīng)用:根據(jù)訪問者的行為模式來設(shè)計和修改網(wǎng)站結(jié)構(gòu)和布局,讓用戶以最短的時間訪問到感興趣的頁面,優(yōu)化服務(wù)性能;理解和分析用戶的瀏覽行為,發(fā)現(xiàn)潛在的用戶并使用戶駐留;通過對用戶訪問行為的把握,組織決策者可以更有針對性地設(shè)計商品目錄,提高商業(yè)決策的準(zhǔn)確性;發(fā)現(xiàn)個體用戶的訪問模式,從而識別出用戶的興趣、愛好、習(xí)慣和需求,建立個性化用戶模型,為用戶提供更個性化的內(nèi)容和服務(wù)。
用戶使用模式的信息通常在Web服務(wù)器日志中有所體現(xiàn)。Web服務(wù)器日志記錄了用戶與服務(wù)器的交互信息,反映了用戶訪問Web站點的所有動作。對Web日志進(jìn)行分析挖掘,獲得用戶訪問行為的模式和興趣愛好等有用信息,從而可以理解用戶的訪問行為。
本文基于Web使用挖掘的方法和過程,將Web服務(wù)器日志文件作為數(shù)據(jù)源,旨在挖掘出單個用戶以及群體用戶的頻繁訪問路徑,以發(fā)現(xiàn)網(wǎng)站用戶的訪問模式。
針對單個用戶的頻繁訪問路徑挖掘,在詳細(xì)介紹兩種具有代表性的關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,從提高關(guān)聯(lián)規(guī)則有用性的角度,引入有趣度測量因子實現(xiàn)對算法的改進(jìn);針對群體用戶,在詳細(xì)分析用戶聚類的過程后,采用基于瀏覽路徑的聚類算法實現(xiàn)對群體用戶訪問模式的發(fā)現(xiàn)。
最后提出一個用戶訪問模式挖掘系統(tǒng)的模型框架,介紹各模塊的功能并進(jìn)行了實驗分析,結(jié)合具體的實例數(shù)據(jù)加以說明。
關(guān)鍵詞 Web使用挖掘;Web日志;關(guān)聯(lián)規(guī)則;用戶聚類;行為模式
Abstract
With the rapid development of the network and information technology, the application based on Web has covered all aspects of social life, so the data on the Web is usually huge. In these data, compared with the web structure and content, the using mode of users is more remarkable. By obtaining the access mode of users, we can realize a series of application from optimizing the design of websites to improving the customer relationship. Designing and modifying the structure and layout of websites according to the behavior patterns of users can let users visit interested pages in the shortest time and improve service performance. Understanding and analyzing the access behavior of users can find potential customers and keep users presence. By mastering the access behavior of users, group decision makers can design the goods catalogue more purposefully and improve the accuracy of business decisions. Finding the access pattern of the individual user can recognize the user's interests, hobbies, habits and needs, establish the personalized user model, provide the content and service more personally.
The information of usage modes is usually revealed in Web server logs. Web server logs records the mutual reacting information between users and servers which reflects all movement by users. Mining and analyzing Web logs can obtain access patterns and useful information including hobbies and interests so as to understand the access behavior of users.
Basing on the method and the process of Web usage mining and using Web server logs as data sources, the paper aims to mine frequent access paths of the individual user and group users, in order to find out the access modes of web users.
As for mining frequent access paths of the individual user, the paper introduces two representative association rule mining algorithm in detail, improves the algorithm by adding interesting measurement factor from the aspect of enhancing usefulness of association rules. As for group users , the paper analyzes the process of user clustering in detail, and uses UBPC to mine access patterns of users.
Finally, the paper proposes a model of user access patterns mining system, introduces the function of each module, does the experimental analysis by combining the concrete data to illustrate.
Key Words: web usage mining; web logs; association rule; user clustering; behavior mode
目錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 課題研究的背景及意義 1
1.1.1 課題研究的背景 1
1.1.2 課題研究的意義 2
1.2 國內(nèi)外研究現(xiàn)狀 3
1.2.1 數(shù)據(jù)預(yù)處理的國內(nèi)外研究現(xiàn)狀 3
1.2.2 模式發(fā)現(xiàn)的國內(nèi)外研究現(xiàn)狀 3
1.2.3 模式分析的國內(nèi)外研究現(xiàn)狀 4
1.3 論文的主要研究內(nèi)容 5
1.4 論文的組織結(jié)構(gòu) 6
1.5 本章小結(jié) 6
第2章 數(shù)據(jù)預(yù)處理 8
2.1 Web使用挖掘概述 8
2.1.1 Web使用挖掘的概念和應(yīng)用 8
2.1.2 Web日志的內(nèi)容 9
2.1.3 Web使用挖掘的過程 11
2.2 數(shù)據(jù)預(yù)處理 11
2.2.1 數(shù)據(jù)清洗 12
2.2.2 用戶識別 14
2.2.3 會話識別 15
2.2.4 路徑補(bǔ)充 16
2.2.5 事務(wù)識別 17
2.3 本章小結(jié) 19
第3章 基于關(guān)聯(lián)規(guī)則的用戶頻繁訪問模式挖掘 20
3.1 用戶頻繁訪問模式 20
3.2 關(guān)聯(lián)規(guī)則概述 20
3.2.1 關(guān)聯(lián)規(guī)則的概念和形式定義 20
3.2.2 支持度 22
3.2.3 置信度 22
3.3 關(guān)聯(lián)規(guī)則挖掘算法 22
3.3.1 Apriori算法 23
3.3.2 對Apriori算法經(jīng)典改進(jìn)的介紹 24
3.3.3 FP增長算法 25
3.4 基于有趣度的改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法 28
3.4.1 已有的有趣度定義 29
3.4.2 本文提出的有趣度定義 29
3.4.3 改進(jìn)的算法 30
3.4.4 實驗結(jié)果 32
3.4.5 實例分析 33
3.5 本章小結(jié) 35
第4章 基于聚類分析的群體用戶訪問模式發(fā)現(xiàn) 36
4.1 聚類 36
4.1.1 聚類的類型 36-..