基于文本的web圖片搜索引擎的研究.doc
約65頁DOC格式手機打開展開
基于文本的web圖片搜索引擎的研究,65頁共計39501字摘要本文研究工作是針對web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型web圖片搜索引擎為目標,提出基于文本檢索方式的web圖片搜索引擎設(shè)計方案。文中介紹和研究了一系列與web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(vsm和lsi)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案...
內(nèi)容介紹
此文檔由會員 bfxqt 發(fā)布
65頁共計39501字
摘 要
本文研究工作是針對Web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型Web圖片搜索引擎為目標,提出基于文本檢索方式的Web圖片搜索引擎設(shè)計方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(VSM和LSI)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案中。
本文重點地研究如何從HTML文檔中提取圖片相關(guān)信息,保證高效和準確的實現(xiàn)圖片檢索。在對真實數(shù)據(jù)進行實驗和分析的基礎(chǔ)上,提出了若干關(guān)鍵技術(shù),用于系統(tǒng)的設(shè)計,現(xiàn)歸納如下:
1) 本文提出的方法通過細致地分析HTML文件的標記、標記、網(wǎng)頁標題、網(wǎng)頁的超鏈接文本、圖片URL、標記、關(guān)聯(lián)的和結(jié)構(gòu)、
摘 要
本文研究工作是針對Web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型Web圖片搜索引擎為目標,提出基于文本檢索方式的Web圖片搜索引擎設(shè)計方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(VSM和LSI)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案中。
本文重點地研究如何從HTML文檔中提取圖片相關(guān)信息,保證高效和準確的實現(xiàn)圖片檢索。在對真實數(shù)據(jù)進行實驗和分析的基礎(chǔ)上,提出了若干關(guān)鍵技術(shù),用于系統(tǒng)的設(shè)計,現(xiàn)歸納如下:
1) 本文提出的方法通過細致地分析HTML文件的標記、標記、網(wǎng)頁標題、網(wǎng)頁的超鏈接文本、圖片URL、標記、關(guān)聯(lián)的和結(jié)構(gòu)、