wwwxxxx日本,国产精品九九,日日夜夜免费视频,亚洲无av码在线中文字幕

xml文檔檢索結(jié)果的聚類算法.doc

約27頁DOC格式手機(jī)打開展開

xml文檔檢索結(jié)果的聚類算法,27頁共計14304字摘要現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過相關(guān)度排序,仍包含較多與用戶查詢請求不相關(guān)的文檔。為提高檢索效率,需對檢索結(jié)果進(jìn)行聚類??蓴U(kuò)展標(biāo)記語言xml是信息表達(dá)和數(shù)據(jù)交換的格式和標(biāo)準(zhǔn),具有自描述性和可擴(kuò)展性等特點,近年來廣泛應(yīng)用于數(shù)據(jù)交換、web服務(wù)、內(nèi)容管理、web集成等領(lǐng)域。本文對web檢索結(jié)果...
編號:45-70819大小:394.50K
分類: 論文>計算機(jī)論文

內(nèi)容介紹

此文檔由會員 bfxqt 發(fā)布

27頁共計14304字
摘 要
現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過相關(guān)度排序,仍包含較多與用戶查詢請求不相關(guān)的文檔。為提高檢索效率,需對檢索結(jié)果進(jìn)行聚類??蓴U(kuò)展標(biāo)記語言XML是信息表達(dá)和數(shù)據(jù)交換的格式和標(biāo)準(zhǔn),具有自描述性和可擴(kuò)展性等特點,近年來廣泛應(yīng)用于數(shù)據(jù)交換、Web服務(wù)、內(nèi)容管理、Web集成等領(lǐng)域。
本文對Web檢索結(jié)果聚類和XML文檔聚類的國內(nèi)外研究現(xiàn)狀進(jìn)行了深入分析,并綜合考慮了XML技術(shù)和文檔聚類等,對結(jié)果文檔(片段)采取了新的建模方法:用標(biāo)簽路徑和元素特征來表示XML文檔的結(jié)構(gòu)語義、用文本中的關(guān)鍵詞來表示文檔的內(nèi)容信息,用標(biāo)簽路徑、元素特征和文本內(nèi)容三個向量來表示XML文檔(片段)。同時用傳統(tǒng)的Cosine度量來計算相似度并以最小最大化原則初始化簇,對經(jīng)典k-means算法加以改進(jìn)。實驗表明,聚類質(zhì)量較好,也有一定的穩(wěn)定性。
目 錄

1 引言 1
1.1 選題的意義 1
1.2 國內(nèi)外研究現(xiàn)狀 1
1.2.1 Web檢索結(jié)果聚類 1
1.2.2 XML文檔聚類 2
1.3 本實驗的目標(biāo)與論文結(jié)構(gòu)安排 3
2 相關(guān)技術(shù)分析 3
2.1 XML技術(shù) 3
2.1.1 XML的發(fā)展歷史簡介 4
2.1.2 XML的特點 5
2.1.3 XML文檔的數(shù)據(jù)結(jié)構(gòu) 6
2.2 文檔聚類 7
2.2.1 聚類的概念 7
2.2.2 文檔聚類的概念、作用和應(yīng)用 8
2.2.3 文檔聚類的體系結(jié)構(gòu) 8
2.2.4 文檔相似性矩陣 9
2.2.5 聚類算法 9
2.3 聚類效果的評價標(biāo)準(zhǔn) 12
2.3.1 熵 12
2.3.2 F標(biāo)準(zhǔn) 13
3 設(shè)計思想 13
3.1 XML檢索結(jié)果聚類 14
3.2 XML檢索結(jié)果文檔建模 14
3.3 XML文檔關(guān)鍵詞相關(guān)度的計算方法 15
3.4 相似性度量 15
3.5 聚類算法的偽代碼描述 16
4 開發(fā)實驗 17
4.1 實驗用的數(shù)據(jù)集、實驗環(huán)境 17
4.2 對結(jié)果的評價 18
5 總結(jié)與展望 20

【關(guān)鍵詞】XML;文檔檢索;建模;k-means聚類算法
參考文獻(xiàn)
[1] 王志梅,張俊林,李秋山. Web檢索結(jié)果快速聚類方法的研究與實現(xiàn). 計算機(jī)工程與設(shè)計, 2004, 25(12): 2231-2233, 2290
[2] 張健沛, 劉洋, 楊靜, 代坤. 搜索引擎結(jié)果聚類算法研究. 計算機(jī)工程, 2004, 30(5): 95-97
[3] 楊海濤. 一個基于搜索結(jié)果的個性化推薦系統(tǒng): [碩士學(xué)位論文]. 鄭州: 鄭州大學(xué)信息工程學(xué)院計算機(jī)應(yīng)用技術(shù)專業(yè), 2006
[4] 閆利國, 賀飛. XML文檔結(jié)構(gòu)相似測度研究. 計算機(jī)應(yīng)用研究, 2006, (3): 44-46
[5] 郝曉麗, 馮志勇. XML結(jié)構(gòu)聚類. 計算機(jī)應(yīng)用, 2005, 25(6): 1398-1400
[6] 梁作鵬, 吳文明, 董逸生. 一種基于結(jié)構(gòu)信息總結(jié)樹的XML文檔聚類方法. 應(yīng)用科學(xué)學(xué)報, 2005, 23(1): 71-74
[7] 陸翠明, 李芳. XML文檔相似性的仿真研究. 計算機(jī)仿真, 2005, 22(12): 300-302, 310
[8] 張丙奇, 白碩, 趙章界. XML數(shù)據(jù)相似度研究. 計算機(jī)工程, 2005, 31(11): 25-27, 126
[博士論文]. 北京: 中國科學(xué)院計算技術(shù)研究所, 2004
[9] 梁作鵬, 業(yè)寧, 董逸生. PBC:一種基于路徑的XML文檔聚類方法. 應(yīng)用科學(xué)學(xué)報, 2005, 23(4): 399-403
[10] 丁躍潮, 張濤. XML實用教程. 北京: 北京大學(xué)出版社,2006
[11] Raymond T.Ng, Jiawei Han. Efficient and effective clustering methods for spatial data mining.Proc. of VLDB Conf, 1994,144-155
[12] Andreas Hotho, Steffen Staab, Gerd Stumme. Ontologies Improve Text Document Clustering. icdm, Third IEEE International Conference on Data Mining (ICDM'03). Melbourne, Florida, 2003. p541
国精品人妻无码性色| 国产一级精品毛片| 肥胖女人毛片免费播放| 久久精品36色熟妇| 欧美一线高本道高清免费| 黄色网址网站久久| 日本一区二区免费在线观看| av插入中出| 婷婷五色月综合网| 亚洲色精品VR一区二区| 亚洲中文不卡34| 国产区图片区小说区| 好吊妞国产欧美日韩免费观看| 夜夜性日日| 欧美影院国产| 日韩无码视频免费看| 人妻爱爱网| 成人三级在线视频| 国产无码2020视频| 亚洲欧洲av综合色无码| 8O年无码一区二区| 成人毛片无码一区二区三区| 日日躁狠狠躁| 公妇乱淫100集| 欧美精品06| 91久久偷| 欧美一级生活片| 日本孕妇变态另类孕交| 中文字幕下载久久久| 黄片一区二区| 国产孕妇孕交600集| 色婷婷婷婷色六月丁| 午夜国产精品视频| 咪咪网五月开心网| 国产真人一级a爱做片| 波多野结衣人妻在线| 暖暖视频亚洲国产免费| 色综合AV熟女| 欧美久久综合网| 精品88彳久| 日女人b|