wwwxxxx日本,国产精品九九,日日夜夜免费视频,亚洲无av码在线中文字幕

基于文本的web圖片搜索引擎的研究.doc

約65頁DOC格式手機打開展開

基于文本的web圖片搜索引擎的研究,65頁共計39501字摘要本文研究工作是針對web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型web圖片搜索引擎為目標,提出基于文本檢索方式的web圖片搜索引擎設(shè)計方案。文中介紹和研究了一系列與web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(vsm和lsi)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案...
編號:45-37707大小:1.19M
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員 bfxqt 發(fā)布

65頁共計39501字
摘 要
本文研究工作是針對Web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型Web圖片搜索引擎為目標,提出基于文本檢索方式的Web圖片搜索引擎設(shè)計方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(VSM和LSI)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案中。
本文重點地研究如何從HTML文檔中提取圖片相關(guān)信息,保證高效和準確的實現(xiàn)圖片檢索。在對真實數(shù)據(jù)進行實驗和分析的基礎(chǔ)上,提出了若干關(guān)鍵技術(shù),用于系統(tǒng)的設(shè)計,現(xiàn)歸納如下:
1) 本文提出的方法通過細致地分析HTML文件的標記、標記、網(wǎng)頁標題、網(wǎng)頁的超鏈接文本、圖片URL、標記、關(guān)聯(lián)的結(jié)構(gòu)、結(jié)構(gòu)、圖片周圍文本等部分的結(jié)構(gòu)特點,并利用真實數(shù)據(jù)進行實驗驗證,總結(jié)了9條提取模式,用于從這些結(jié)構(gòu)中提取與圖片相關(guān)的信息,以保證提取到的信息相關(guān)性程度較高。研究了三種具體的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。
2) 提出了過濾無用圖片的方法,提高了系統(tǒng)中圖片的可用度。該方法將圖片文件大小小于某一閾值,圖片的長或?qū)捫∮谀骋婚撝?,圖片的長寬比例超過某一閾值以及同一網(wǎng)頁內(nèi)通過引用次數(shù)超過某一閾值的圖片作為無用圖片剔除。
3) 通過統(tǒng)計分析總結(jié)出HTML文件中表現(xiàn)出的一些潛在規(guī)律,比如JPG和GIF的區(qū)別、標記的不同意義以及圖片引用次數(shù)的不同意義。得到如下結(jié)論:JPG重要性大于GIF;標記來源圖片的重要性大于標記的圖片;引用次數(shù)越高的圖片重要性越高,而引用次數(shù)高的圖片需要經(jīng)過過濾才能保證重要性較高。
4) 粗略地探討了將LSI算法應(yīng)用于圖片搜索引擎來整合文字和內(nèi)容信息的方法,并通過簡單實驗進行了效果驗證。
5) 設(shè)計并實現(xiàn)了一個基于文本的Web圖片搜索引擎,給出了系統(tǒng)的總體結(jié)構(gòu)圖,并對獲取網(wǎng)頁、提取信息、圖片抓取和死鏈檢查、生成縮略圖、建立索引和提供查詢這6個工作流程進行了詳細的描述,最后對系統(tǒng)的使用效果和性能進行了簡單評測。
目 錄
第1章 引言 1
1.1 背景 1
1.2 圖片檢索系統(tǒng)概述 3
1.2.1 系統(tǒng)應(yīng)用領(lǐng)域 3
1.2.2 用戶檢索方式 3
1.2.3 系統(tǒng)評價 4
1.3 研究現(xiàn)狀 5
1.4 現(xiàn)有圖片檢索系統(tǒng)簡介 5
1.5 本文的主要工作 8
第2章 相關(guān)技術(shù) 10
2.1 網(wǎng)頁抓取技術(shù) 10
2.1.1 基本原理 10
2.1.2 大型Spider的問題 10
2.2 相關(guān)性排序技術(shù) 11
2.2.1 VSM 12
2.2.2 VSM的改良:LSI 13
2.3 信息提取技術(shù) 15
2.3.1 基于內(nèi)容的提取技術(shù) 15
2.3.2 基于文本的提取技術(shù) 17
2.4 信息索引技術(shù) 17
2.4.1 索引方式 18
2.4.2 提高索引的性能 19
2.5 其它相關(guān)技術(shù) 20
2.6 本章小結(jié) 21
第3章 WEB上的圖片信息提取 22
3.1 HTML簡介 22
3.2 圖片信息提取模式 23
3.3 HTML信息提取方法 27
3.3.1 HTML文檔的規(guī)范化 27
3.3.2 基于DOM的提取方法 27
3.3.3 基于字符串的提取方法 28
3.3.4 基于Wrapper的提取方法 28
3.4 無用圖片過濾 30
3.5 挖掘HTML的潛在規(guī)律 31
3.5.1 GIF和JPG的區(qū)別 31
3.5.2
的不同意義 32
3.5.3 圖片引用次數(shù)的分析 32
3.6 基于文本和基于內(nèi)容的整合模式 34
3.7 本章小結(jié) 37
第4章 WEB圖片搜索引擎的設(shè)計和實現(xiàn) 38
4.1 系統(tǒng)簡介 38
4.2 系統(tǒng)詳細工作流程 40
4.2.1 獲取網(wǎng)頁 40
4.2.2 提取信息 40
4.2.3 圖片抓取和死鏈檢查 42
4.2.4 生成縮略圖 42
4.2.5 建立索引 43
4.2.6 提供查詢 47
4.3 系統(tǒng)評測 50
4.4 本章小結(jié) 51
第5章 總結(jié)和展望 52
5.1 主要工作總結(jié) 52
5.2 技術(shù)發(fā)展方向 52
參 考 文 獻 54
致 謝 58

關(guān)鍵詞:Web圖片搜索引擎 圖像檢索 基于文本 基于內(nèi)容 信息提取
參 考 文 獻
[1]. 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)?!?003年中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報告》(2004.4.1)。http://www.cnnic.com.cn/index/0E/00/12/index.htm
[2]. Arvind Arasu et al. Searching The Web. ACM Transactions on Internet Technology, Volume 1, Issue 1, Pages 2 – 43, August 2001
[3]. Lawrence Page, Sergey Brin. The pagerank citation ranking: Bringing order to the Web. In Technical report, Computer Science Department, Stanford University, 1998.
[4]. E. V. Munson and Y. Tsymbalenko. To Search for Images on the Web, Look at the Text, Then Look at the Images, in Proceedings of the First International Workshop on Web Document Analysis, Seattle, pages 39-42, September 2001.
[5]. M. La Cascia, S. Sethi, and S. Sclaroff . Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web. Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, June 1998
[6]. 百度圖片搜索。http://image.baidu.com
[7]. Google圖像搜索。http://images.google.com/
[8]. ImageRover. http://www.cs.bu.edu/groups/ivc/ImageRover
[9]. WebSeer. http://infolab.cs.uchicago.edu/Webseer
[10]. WebSeek. http://www.ctr.columbia.edu/WebSEEk/
[11]. ImageSpace. http://www.wi.leidenuniv.nl/home/lim/image.scape.HTML
[12]. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391--407, 1990
[13]. Landauer, T. K., Foltz, P. W., and Laham, D. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998
[14]. H.T. Shen, B.C. Ooi, and K.L. Tan. Giving Meanings to WWW Images. ACM Multimedia'2000, pp 39-48
[15]. Zheng Chen, Liu Wenyin, Feng Zhang, Minjing Li and Hongjiang Zhang. Web Mining for Web Image Retrieval. Journal of the American Society for Information Science, vol. 52, No. 10, pp. 831-839, 2001
[16]. Zheng Chen, Liu Wenyin, Rui Yang, Mingjing Li and HongJiang Zhang. A Web Media Agent. WWW Posters 2001. The 3rd Annual Conference on World Wide Web Applications, September 5-7, 2001
欧美综合二区| 欧美,亚洲,日韩二区| 日韩不卡高清无码| 四四色播| 中文在线资源6| 色操爱网站| 国产婷婷一区二区三区| 97人人操人人网| 亚洲性猛交xx老熟女系列| 海外中文字幕在线观看| 最新国产无码电影| 亚洲精品国产精品乱码不卞精品国产 | 亚洲无码18禁止| 日本伊人天堂| 天堂SV在线最新版在线| 亚洲欧美888| 中文字幕免费禁片| 影音先锋少妇| 久久精综合网| 一道本日本欧美| av福利在线| 亚洲AV无码第一区二区三区| 欧美A级V片久久免费| 四虎影视免费| 午夜性爱| 亚洲av黄色在线观看| 自拍偷拍 日韩欧美| 母乳人妻| 韩国一本之道加勒比| 草草影院1| 国产欧洲亚洲黄色大片| 久久2 综合| 丰满人妻1234| 伊人合色视频| 国产精品久久久| 日韩成人一区| 中文字幕丝袜美腿av| 亚洲AV综合AV成人小说| 日韩免费短视频| 欧美黄图一区| 日韩无码视频不卡|