xml文檔檢索結(jié)果的聚類算法.doc
約27頁DOC格式手機(jī)打開展開
xml文檔檢索結(jié)果的聚類算法,27頁共計14304字摘要現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過相關(guān)度排序,仍包含較多與用戶查詢請求不相關(guān)的文檔。為提高檢索效率,需對檢索結(jié)果進(jìn)行聚類??蓴U(kuò)展標(biāo)記語言xml是信息表達(dá)和數(shù)據(jù)交換的格式和標(biāo)準(zhǔn),具有自描述性和可擴(kuò)展性等特點,近年來廣泛應(yīng)用于數(shù)據(jù)交換、web服務(wù)、內(nèi)容管理、web集成等領(lǐng)域。本文對web檢索結(jié)果...
內(nèi)容介紹
此文檔由會員 bfxqt 發(fā)布
27頁共計14304字
摘 要
現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過相關(guān)度排序,仍包含較多與用戶查詢請求不相關(guān)的文檔。為提高檢索效率,需對檢索結(jié)果進(jìn)行聚類??蓴U(kuò)展標(biāo)記語言XML是信息表達(dá)和數(shù)據(jù)交換的格式和標(biāo)準(zhǔn),具有自描述性和可擴(kuò)展性等特點,近年來廣泛應(yīng)用于數(shù)據(jù)交換、Web服務(wù)、內(nèi)容管理、Web集成等領(lǐng)域。
本文對Web檢索結(jié)果聚類和XML文檔聚類的國內(nèi)外研究現(xiàn)狀進(jìn)行了深入分析,并綜合考慮了XML技術(shù)和文檔聚類等,對結(jié)果文檔(片段)采取了新的建模方法:用標(biāo)簽路徑和元素特征來表示XML文檔的結(jié)構(gòu)語義、用文本中的關(guān)鍵詞來表示文檔的內(nèi)容信息,用標(biāo)簽路徑、元素特征和文本內(nèi)容三個向量來表示XML文檔(片段)。同時用傳統(tǒng)的Cosine度量來計算相似度并以最小最大化原則初始化簇,對經(jīng)典k-means算法加以改進(jìn)。實驗表明,聚類質(zhì)量較好,也有一定的穩(wěn)定性。
目 錄
1 引言 1
1.1 選題的意義 1
1.2 國內(nèi)外研究現(xiàn)狀 1
1.2.1 Web檢索結(jié)果聚類 1
1.2.2 XML文檔聚類 2
1.3 本實驗的目標(biāo)與論文結(jié)構(gòu)安排 3
2 相關(guān)技術(shù)分析 3
2.1 XML技術(shù) 3
2.1.1 XML的發(fā)展歷史簡介 4
2.1.2 XML的特點 5
2.1.3 XML文檔的數(shù)據(jù)結(jié)構(gòu) 6
2.2 文檔聚類 7
2.2.1 聚類的概念 7
2.2.2 文檔聚類的概念、作用和應(yīng)用 8
2.2.3 文檔聚類的體系結(jié)構(gòu) 8
2.2.4 文檔相似性矩陣 9
2.2.5 聚類算法 9
2.3 聚類效果的評價標(biāo)準(zhǔn) 12
2.3.1 熵 12
2.3.2 F標(biāo)準(zhǔn) 13
3 設(shè)計思想 13
3.1 XML檢索結(jié)果聚類 14
3.2 XML檢索結(jié)果文檔建模 14
3.3 XML文檔關(guān)鍵詞相關(guān)度的計算方法 15
3.4 相似性度量 15
3.5 聚類算法的偽代碼描述 16
4 開發(fā)實驗 17
4.1 實驗用的數(shù)據(jù)集、實驗環(huán)境 17
4.2 對結(jié)果的評價 18
5 總結(jié)與展望 20
【關(guān)鍵詞】XML;文檔檢索;建模;k-means聚類算法
參考文獻(xiàn)
[1] 王志梅,張俊林,李秋山. Web檢索結(jié)果快速聚類方法的研究與實現(xiàn). 計算機(jī)工程與設(shè)計, 2004, 25(12): 2231-2233, 2290
[2] 張健沛, 劉洋, 楊靜, 代坤. 搜索引擎結(jié)果聚類算法研究. 計算機(jī)工程, 2004, 30(5): 95-97
[3] 楊海濤. 一個基于搜索結(jié)果的個性化推薦系統(tǒng): [碩士學(xué)位論文]. 鄭州: 鄭州大學(xué)信息工程學(xué)院計算機(jī)應(yīng)用技術(shù)專業(yè), 2006
[4] 閆利國, 賀飛. XML文檔結(jié)構(gòu)相似測度研究. 計算機(jī)應(yīng)用研究, 2006, (3): 44-46
[5] 郝曉麗, 馮志勇. XML結(jié)構(gòu)聚類. 計算機(jī)應(yīng)用, 2005, 25(6): 1398-1400
[6] 梁作鵬, 吳文明, 董逸生. 一種基于結(jié)構(gòu)信息總結(jié)樹的XML文檔聚類方法. 應(yīng)用科學(xué)學(xué)報, 2005, 23(1): 71-74
[7] 陸翠明, 李芳. XML文檔相似性的仿真研究. 計算機(jī)仿真, 2005, 22(12): 300-302, 310
[8] 張丙奇, 白碩, 趙章界. XML數(shù)據(jù)相似度研究. 計算機(jī)工程, 2005, 31(11): 25-27, 126
[博士論文]. 北京: 中國科學(xué)院計算技術(shù)研究所, 2004
[9] 梁作鵬, 業(yè)寧, 董逸生. PBC:一種基于路徑的XML文檔聚類方法. 應(yīng)用科學(xué)學(xué)報, 2005, 23(4): 399-403
[10] 丁躍潮, 張濤. XML實用教程. 北京: 北京大學(xué)出版社,2006
[11] Raymond T.Ng, Jiawei Han. Efficient and effective clustering methods for spatial data mining.Proc. of VLDB Conf, 1994,144-155
[12] Andreas Hotho, Steffen Staab, Gerd Stumme. Ontologies Improve Text Document Clustering. icdm, Third IEEE International Conference on Data Mining (ICDM'03). Melbourne, Florida, 2003. p541
摘 要
現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過相關(guān)度排序,仍包含較多與用戶查詢請求不相關(guān)的文檔。為提高檢索效率,需對檢索結(jié)果進(jìn)行聚類??蓴U(kuò)展標(biāo)記語言XML是信息表達(dá)和數(shù)據(jù)交換的格式和標(biāo)準(zhǔn),具有自描述性和可擴(kuò)展性等特點,近年來廣泛應(yīng)用于數(shù)據(jù)交換、Web服務(wù)、內(nèi)容管理、Web集成等領(lǐng)域。
本文對Web檢索結(jié)果聚類和XML文檔聚類的國內(nèi)外研究現(xiàn)狀進(jìn)行了深入分析,并綜合考慮了XML技術(shù)和文檔聚類等,對結(jié)果文檔(片段)采取了新的建模方法:用標(biāo)簽路徑和元素特征來表示XML文檔的結(jié)構(gòu)語義、用文本中的關(guān)鍵詞來表示文檔的內(nèi)容信息,用標(biāo)簽路徑、元素特征和文本內(nèi)容三個向量來表示XML文檔(片段)。同時用傳統(tǒng)的Cosine度量來計算相似度并以最小最大化原則初始化簇,對經(jīng)典k-means算法加以改進(jìn)。實驗表明,聚類質(zhì)量較好,也有一定的穩(wěn)定性。
目 錄
1 引言 1
1.1 選題的意義 1
1.2 國內(nèi)外研究現(xiàn)狀 1
1.2.1 Web檢索結(jié)果聚類 1
1.2.2 XML文檔聚類 2
1.3 本實驗的目標(biāo)與論文結(jié)構(gòu)安排 3
2 相關(guān)技術(shù)分析 3
2.1 XML技術(shù) 3
2.1.1 XML的發(fā)展歷史簡介 4
2.1.2 XML的特點 5
2.1.3 XML文檔的數(shù)據(jù)結(jié)構(gòu) 6
2.2 文檔聚類 7
2.2.1 聚類的概念 7
2.2.2 文檔聚類的概念、作用和應(yīng)用 8
2.2.3 文檔聚類的體系結(jié)構(gòu) 8
2.2.4 文檔相似性矩陣 9
2.2.5 聚類算法 9
2.3 聚類效果的評價標(biāo)準(zhǔn) 12
2.3.1 熵 12
2.3.2 F標(biāo)準(zhǔn) 13
3 設(shè)計思想 13
3.1 XML檢索結(jié)果聚類 14
3.2 XML檢索結(jié)果文檔建模 14
3.3 XML文檔關(guān)鍵詞相關(guān)度的計算方法 15
3.4 相似性度量 15
3.5 聚類算法的偽代碼描述 16
4 開發(fā)實驗 17
4.1 實驗用的數(shù)據(jù)集、實驗環(huán)境 17
4.2 對結(jié)果的評價 18
5 總結(jié)與展望 20
【關(guān)鍵詞】XML;文檔檢索;建模;k-means聚類算法
參考文獻(xiàn)
[1] 王志梅,張俊林,李秋山. Web檢索結(jié)果快速聚類方法的研究與實現(xiàn). 計算機(jī)工程與設(shè)計, 2004, 25(12): 2231-2233, 2290
[2] 張健沛, 劉洋, 楊靜, 代坤. 搜索引擎結(jié)果聚類算法研究. 計算機(jī)工程, 2004, 30(5): 95-97
[3] 楊海濤. 一個基于搜索結(jié)果的個性化推薦系統(tǒng): [碩士學(xué)位論文]. 鄭州: 鄭州大學(xué)信息工程學(xué)院計算機(jī)應(yīng)用技術(shù)專業(yè), 2006
[4] 閆利國, 賀飛. XML文檔結(jié)構(gòu)相似測度研究. 計算機(jī)應(yīng)用研究, 2006, (3): 44-46
[5] 郝曉麗, 馮志勇. XML結(jié)構(gòu)聚類. 計算機(jī)應(yīng)用, 2005, 25(6): 1398-1400
[6] 梁作鵬, 吳文明, 董逸生. 一種基于結(jié)構(gòu)信息總結(jié)樹的XML文檔聚類方法. 應(yīng)用科學(xué)學(xué)報, 2005, 23(1): 71-74
[7] 陸翠明, 李芳. XML文檔相似性的仿真研究. 計算機(jī)仿真, 2005, 22(12): 300-302, 310
[8] 張丙奇, 白碩, 趙章界. XML數(shù)據(jù)相似度研究. 計算機(jī)工程, 2005, 31(11): 25-27, 126
[博士論文]. 北京: 中國科學(xué)院計算技術(shù)研究所, 2004
[9] 梁作鵬, 業(yè)寧, 董逸生. PBC:一種基于路徑的XML文檔聚類方法. 應(yīng)用科學(xué)學(xué)報, 2005, 23(4): 399-403
[10] 丁躍潮, 張濤. XML實用教程. 北京: 北京大學(xué)出版社,2006
[11] Raymond T.Ng, Jiawei Han. Efficient and effective clustering methods for spatial data mining.Proc. of VLDB Conf, 1994,144-155
[12] Andreas Hotho, Steffen Staab, Gerd Stumme. Ontologies Improve Text Document Clustering. icdm, Third IEEE International Conference on Data Mining (ICDM'03). Melbourne, Florida, 2003. p541
TA們正在看...
- 中餐主題宴會設(shè)計項目競賽規(guī)程2015.11.30定稿.doc
- 串的查找和替換數(shù)據(jù)結(jié)構(gòu)課程設(shè)計報告.doc
- 串聯(lián)型直流穩(wěn)壓電源設(shè)計.doc
- 串聯(lián)型直流穩(wěn)壓電源設(shè)計57868.doc
- 串聯(lián)型直流穩(wěn)壓電源課程設(shè)計.doc
- 串聯(lián)電路和并聯(lián)電路教學(xué)設(shè)計與反思.doc
- 串講4關(guān)系數(shù)據(jù)庫設(shè)計理論.doc
- 臨床設(shè)計研究病例報告表.doc
- 臨死前的嚴(yán)監(jiān)生公開課教學(xué)設(shè)計.doc
- 臨死前的嚴(yán)監(jiān)生公開課教學(xué)設(shè)計1.doc