信息檢索結(jié)果間基于分數(shù)的相似性比較.doc
約25頁DOC格式手機打開展開
信息檢索結(jié)果間基于分數(shù)的相似性比較,原創(chuàng)畢業(yè)論文,僅在本站獨家提交,大家放心使用摘要 相似性是信息科學(xué),尤其是信息檢索領(lǐng)域中一個很熱門的研究課題,在信息檢索中,檢索系統(tǒng)針對用戶的信息需求從文檔集中檢出相應(yīng)文檔。當(dāng)用戶提交一個查詢請求后,檢索系統(tǒng)會利用倒排索引、文檔集統(tǒng)計信息和其他一些數(shù)據(jù),自動給出與查詢相關(guān)的文檔集合,同...
內(nèi)容介紹
此文檔由會員 好聲音v5 發(fā)布
信息檢索結(jié)果間基于分數(shù)的相似性比較
原創(chuàng)畢業(yè)論文,僅在本站獨家提交,大家放心使用
摘要 相似性是信息科學(xué),尤其是信息檢索領(lǐng)域中一個很熱門的研究課題,在信息檢索中,檢索系統(tǒng)針對用戶的信息需求從文檔集中檢出相應(yīng)文檔。當(dāng)用戶提交一個查詢請求后,檢索系統(tǒng)會利用倒排索引、文檔集統(tǒng)計信息和其他一些數(shù)據(jù),自動給出與查詢相關(guān)的文檔集合,同時按照各篇文檔與查詢計算出的相關(guān)度進行排序,最后將排序后的結(jié)果集推送給用戶。對于不同的信息檢索系統(tǒng),它們對同樣的查詢所產(chǎn)生的結(jié)果會有一定的相似性,本課題旨在研究何種方法能夠準確判斷這種相似性,主要對一些排好序的標準的數(shù)據(jù)集進行實驗,通過計算歐式距離和曼哈頓距離,比較相似性。如何檢索出滿足用戶查詢的信息即如何提高檢索的準確性是信息檢索中的關(guān)鍵問題。本課題對提高信息檢索準確性的模型也有一定的幫助。
關(guān)鍵詞 信息檢索 相似性 分數(shù)
Score-based similarity comparison of information retrieva l results
Abstract similary of information science, especially in the field of information retrieva l is a hot research topic,In information retrieva l, relevance is a matching relationship which is mainly retrieva l system according to the user's information needs from the document set between the document and the user demand .The user submits a query, retrieva l system will use the inverted index, document set of statistical information and other data, to automatically give the query related document collection,at the same time the document and the query according to the calculated correlation are sorted,and set the sorted result to the user.For different information retrieva l system, it has the same query results and have certain similarity,This paper aims to study how to accurately judge the similarity, based on some sorted data sets by calculating the Euclidean distance and the Manhattan distance , and compare the similarity.How to retrieve the query information which also is how to improve the retrieva l accuracy is the key problem in information retrieva l.This paper will help to improve the accuracy of information retrieva l model.
Key words information retrieva l similarity score
目 錄
第一章 引言 1
第二章 問題的提出 2
2.1 信息檢索 2
2.1.1 信息檢索的早期發(fā)展 2
2.1.2 圖書館和數(shù)字圖書館中的信息檢索 3
2.2 信息檢索系統(tǒng) 3
2.3 查詢 4
2.3.1 單詞查詢 4
2.3.2 布爾查詢 4
2.3.3 上下文查詢 4
2.4 結(jié)果排序 5
2.5 評價結(jié)果 5
2.5.1 TREC會議 5
2.5.2 TREC會議的評價指標 6
2.6 結(jié)果相似性比較 6
第三章 數(shù)據(jù)來源 7
3.1 TREC參考集 7
3.1.1 TREC會議的基準任務(wù) 7
3.1.2 TREC會議的評價指標 8
3.2 TREC2005文檔集 8
3.2.1 主題 8
3.2.2 數(shù)據(jù)集 9
3.2.3 任務(wù) 9
3.3 TREC5文檔集 10
3.3.1 主題 10
3.3.2 數(shù)據(jù)集 10
3.3.3 任務(wù) 11
第四章 系統(tǒng)分析 12
第五章 分數(shù)相關(guān)性比較的設(shè)計 12
5.1 設(shè)計原理 13
5.2 部分設(shè)計 14
5.2.1 文件讀寫 14
5.2.2 構(gòu)造數(shù)組 14
5.2.3 分數(shù)0-1規(guī)范化 14
5.2.4 計算歐式距離和曼哈頓距離 15
結(jié) 論 19
致謝 20
參考文獻 21
原創(chuàng)畢業(yè)論文,僅在本站獨家提交,大家放心使用
摘要 相似性是信息科學(xué),尤其是信息檢索領(lǐng)域中一個很熱門的研究課題,在信息檢索中,檢索系統(tǒng)針對用戶的信息需求從文檔集中檢出相應(yīng)文檔。當(dāng)用戶提交一個查詢請求后,檢索系統(tǒng)會利用倒排索引、文檔集統(tǒng)計信息和其他一些數(shù)據(jù),自動給出與查詢相關(guān)的文檔集合,同時按照各篇文檔與查詢計算出的相關(guān)度進行排序,最后將排序后的結(jié)果集推送給用戶。對于不同的信息檢索系統(tǒng),它們對同樣的查詢所產(chǎn)生的結(jié)果會有一定的相似性,本課題旨在研究何種方法能夠準確判斷這種相似性,主要對一些排好序的標準的數(shù)據(jù)集進行實驗,通過計算歐式距離和曼哈頓距離,比較相似性。如何檢索出滿足用戶查詢的信息即如何提高檢索的準確性是信息檢索中的關(guān)鍵問題。本課題對提高信息檢索準確性的模型也有一定的幫助。
關(guān)鍵詞 信息檢索 相似性 分數(shù)
Score-based similarity comparison of information retrieva l results
Abstract similary of information science, especially in the field of information retrieva l is a hot research topic,In information retrieva l, relevance is a matching relationship which is mainly retrieva l system according to the user's information needs from the document set between the document and the user demand .The user submits a query, retrieva l system will use the inverted index, document set of statistical information and other data, to automatically give the query related document collection,at the same time the document and the query according to the calculated correlation are sorted,and set the sorted result to the user.For different information retrieva l system, it has the same query results and have certain similarity,This paper aims to study how to accurately judge the similarity, based on some sorted data sets by calculating the Euclidean distance and the Manhattan distance , and compare the similarity.How to retrieve the query information which also is how to improve the retrieva l accuracy is the key problem in information retrieva l.This paper will help to improve the accuracy of information retrieva l model.
Key words information retrieva l similarity score
目 錄
第一章 引言 1
第二章 問題的提出 2
2.1 信息檢索 2
2.1.1 信息檢索的早期發(fā)展 2
2.1.2 圖書館和數(shù)字圖書館中的信息檢索 3
2.2 信息檢索系統(tǒng) 3
2.3 查詢 4
2.3.1 單詞查詢 4
2.3.2 布爾查詢 4
2.3.3 上下文查詢 4
2.4 結(jié)果排序 5
2.5 評價結(jié)果 5
2.5.1 TREC會議 5
2.5.2 TREC會議的評價指標 6
2.6 結(jié)果相似性比較 6
第三章 數(shù)據(jù)來源 7
3.1 TREC參考集 7
3.1.1 TREC會議的基準任務(wù) 7
3.1.2 TREC會議的評價指標 8
3.2 TREC2005文檔集 8
3.2.1 主題 8
3.2.2 數(shù)據(jù)集 9
3.2.3 任務(wù) 9
3.3 TREC5文檔集 10
3.3.1 主題 10
3.3.2 數(shù)據(jù)集 10
3.3.3 任務(wù) 11
第四章 系統(tǒng)分析 12
第五章 分數(shù)相關(guān)性比較的設(shè)計 12
5.1 設(shè)計原理 13
5.2 部分設(shè)計 14
5.2.1 文件讀寫 14
5.2.2 構(gòu)造數(shù)組 14
5.2.3 分數(shù)0-1規(guī)范化 14
5.2.4 計算歐式距離和曼哈頓距離 15
結(jié) 論 19
致謝 20
參考文獻 21