pdf文件抽取.rar
pdf文件抽取,pdf文件抽取頁數(shù):33字?jǐn)?shù):15158內(nèi)容摘要 隨著計(jì)算機(jī)技術(shù)的發(fā)展,電子期刊大量涌現(xiàn),網(wǎng)上獲取全文資料非常重要,但文件的格式多樣化,這給用戶的閱讀帶來一定麻煩。pdf文件格式與其它格式相比,有很多優(yōu)點(diǎn),為大部分網(wǎng)絡(luò)出版商所接受,國外的電子期刊大部分采用pdf 格式,而國內(nèi)對此文件格式的應(yīng)用不多見。本文簡單介紹了電子...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會員 伊麗莎 發(fā)布
PDF文件抽取
頁數(shù):33
字?jǐn)?shù):15158
內(nèi)容摘要
隨著計(jì)算機(jī)技術(shù)的發(fā)展,電子期刊大量涌現(xiàn),網(wǎng)上獲取全文資料非常重要,但文件的格式多樣化,這給用戶的閱讀帶來一定麻煩。PDF文件格式與其它格式相比,有很多優(yōu)點(diǎn),為大部分網(wǎng)絡(luò)出版商所接受,國外的電子期刊大部分采用PDF 格式,而國內(nèi)對此文件格式的應(yīng)用不多見。本文簡單介紹了電子期刊及其對文件格式的要求,及PDF 文件格式的特點(diǎn)。
但是PDF文件格式是面向顯示的,PDF文件本身缺乏語義信息,不適合基于語義的查詢。隨著Web應(yīng)用的發(fā)展,在出版、編輯、數(shù)字圖書館等領(lǐng)域,對PDF文件基于語義的查詢變得越來越重要,因此,對PDF 文件進(jìn)行文本內(nèi)容的提取具有十分重要的意義。本文的主要任務(wù)就是如何利用tika對PDF文件進(jìn)行抽取。
目 錄
1 概述 1
1.1 選題背景和意義 1
1.2 論文結(jié)構(gòu) 1
2 相關(guān)知識和技術(shù) 2
2.1 搜索引擎簡介 2
2.1.1 搜索引擎概念界定與說明 2
2.2.2 搜索引擎的工作原理 2
2.1.3 垂直搜索引擎 3
2.2 PDF文檔信息抽取的必要性 4
2.3 PDF文件的特點(diǎn) 4
2.4 常用解析工具分析比較 5
2.4.1 PDFBox分析 5
2.4.2 XPDF分析 5
2.4.3 PDFBox和XPDF的比較 6
2.5 apache-tika介紹 6
2.7 元數(shù)據(jù)標(biāo)準(zhǔn) 8
2.7.1 元數(shù)據(jù)標(biāo)準(zhǔn)簡介 8
2.7.2 通用元數(shù)據(jù)標(biāo)準(zhǔn) 8
2.7.3 特定領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn) 9
3 詳細(xì)分析與設(shè)計(jì) 10
3.1 PDF文件結(jié)構(gòu) 10
3.3.1 PDF的含義[9] 10
3.3.2 PDF的文件結(jié)構(gòu) 10
3.3.3 PDF的文檔結(jié)構(gòu) 11
3.3.4 PDF的頁面描述 12
3.2 PDFBox深入分析 13
3.3 PDF文檔信息抽取系統(tǒng)的研究 15
3.4 tika功能及體系架構(gòu) 18
3.5 數(shù)據(jù)庫設(shè)計(jì) 20
4 系統(tǒng)實(shí)現(xiàn) 21
4.1 tika的安裝和配置 21
4.2 MySQL數(shù)據(jù)庫安裝配置 28
4.3 PDF文件格式轉(zhuǎn)換批處理功能實(shí)現(xiàn) 30
5 總結(jié) 33
參考文獻(xiàn): 35
參考文獻(xiàn):
1 http://iip.dlmu.edu.cn/haisou/zh/resume.html
2 喬冬梅 搜索引擎現(xiàn)狀與發(fā)展研究 鄭州大學(xué) 2002-05-01
3 李廣麗 垂直搜索引擎的研究與設(shè)計(jì) 華東交通大學(xué) 2008-04-10
4 張秀秀,張立峰 PDF文件文本內(nèi)容提取研究 中國科學(xué)院國家科學(xué)圖書館蘭州分館,蘭州交通大學(xué)數(shù)理與軟件工程學(xué)院 2008-11-10
5 田海月 PDF文件格式研究 中國高新技術(shù)企業(yè) 2009年第6期
6 Michael Kofler MySQL 5權(quán)威指南(第3版) 人民郵電出版社 2006-12
7 周勛 元數(shù)據(jù)標(biāo)準(zhǔn)注冊系統(tǒng)研究與原型實(shí)現(xiàn) 南京理工大學(xué) 2007-07-07
8 Warwick Cathro 元數(shù)據(jù)研究概述 澳大利亞標(biāo)準(zhǔn)研究會圖書館標(biāo)準(zhǔn)分部 2004-04
9 季永芹 PDF詳解 印刷世界 2004-05
10 宋艷娟,張文德 基于XML的PDF文檔信息抽取系統(tǒng)的研究 現(xiàn)代圖書情報技術(shù) 2005年第9期
頁數(shù):33
字?jǐn)?shù):15158
內(nèi)容摘要
隨著計(jì)算機(jī)技術(shù)的發(fā)展,電子期刊大量涌現(xiàn),網(wǎng)上獲取全文資料非常重要,但文件的格式多樣化,這給用戶的閱讀帶來一定麻煩。PDF文件格式與其它格式相比,有很多優(yōu)點(diǎn),為大部分網(wǎng)絡(luò)出版商所接受,國外的電子期刊大部分采用PDF 格式,而國內(nèi)對此文件格式的應(yīng)用不多見。本文簡單介紹了電子期刊及其對文件格式的要求,及PDF 文件格式的特點(diǎn)。
但是PDF文件格式是面向顯示的,PDF文件本身缺乏語義信息,不適合基于語義的查詢。隨著Web應(yīng)用的發(fā)展,在出版、編輯、數(shù)字圖書館等領(lǐng)域,對PDF文件基于語義的查詢變得越來越重要,因此,對PDF 文件進(jìn)行文本內(nèi)容的提取具有十分重要的意義。本文的主要任務(wù)就是如何利用tika對PDF文件進(jìn)行抽取。
目 錄
1 概述 1
1.1 選題背景和意義 1
1.2 論文結(jié)構(gòu) 1
2 相關(guān)知識和技術(shù) 2
2.1 搜索引擎簡介 2
2.1.1 搜索引擎概念界定與說明 2
2.2.2 搜索引擎的工作原理 2
2.1.3 垂直搜索引擎 3
2.2 PDF文檔信息抽取的必要性 4
2.3 PDF文件的特點(diǎn) 4
2.4 常用解析工具分析比較 5
2.4.1 PDFBox分析 5
2.4.2 XPDF分析 5
2.4.3 PDFBox和XPDF的比較 6
2.5 apache-tika介紹 6
2.7 元數(shù)據(jù)標(biāo)準(zhǔn) 8
2.7.1 元數(shù)據(jù)標(biāo)準(zhǔn)簡介 8
2.7.2 通用元數(shù)據(jù)標(biāo)準(zhǔn) 8
2.7.3 特定領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn) 9
3 詳細(xì)分析與設(shè)計(jì) 10
3.1 PDF文件結(jié)構(gòu) 10
3.3.1 PDF的含義[9] 10
3.3.2 PDF的文件結(jié)構(gòu) 10
3.3.3 PDF的文檔結(jié)構(gòu) 11
3.3.4 PDF的頁面描述 12
3.2 PDFBox深入分析 13
3.3 PDF文檔信息抽取系統(tǒng)的研究 15
3.4 tika功能及體系架構(gòu) 18
3.5 數(shù)據(jù)庫設(shè)計(jì) 20
4 系統(tǒng)實(shí)現(xiàn) 21
4.1 tika的安裝和配置 21
4.2 MySQL數(shù)據(jù)庫安裝配置 28
4.3 PDF文件格式轉(zhuǎn)換批處理功能實(shí)現(xiàn) 30
5 總結(jié) 33
參考文獻(xiàn): 35
參考文獻(xiàn):
1 http://iip.dlmu.edu.cn/haisou/zh/resume.html
2 喬冬梅 搜索引擎現(xiàn)狀與發(fā)展研究 鄭州大學(xué) 2002-05-01
3 李廣麗 垂直搜索引擎的研究與設(shè)計(jì) 華東交通大學(xué) 2008-04-10
4 張秀秀,張立峰 PDF文件文本內(nèi)容提取研究 中國科學(xué)院國家科學(xué)圖書館蘭州分館,蘭州交通大學(xué)數(shù)理與軟件工程學(xué)院 2008-11-10
5 田海月 PDF文件格式研究 中國高新技術(shù)企業(yè) 2009年第6期
6 Michael Kofler MySQL 5權(quán)威指南(第3版) 人民郵電出版社 2006-12
7 周勛 元數(shù)據(jù)標(biāo)準(zhǔn)注冊系統(tǒng)研究與原型實(shí)現(xiàn) 南京理工大學(xué) 2007-07-07
8 Warwick Cathro 元數(shù)據(jù)研究概述 澳大利亞標(biāo)準(zhǔn)研究會圖書館標(biāo)準(zhǔn)分部 2004-04
9 季永芹 PDF詳解 印刷世界 2004-05
10 宋艷娟,張文德 基于XML的PDF文檔信息抽取系統(tǒng)的研究 現(xiàn)代圖書情報技術(shù) 2005年第9期
TA們正在看...
- 中規(guī)模集成組合邏輯電路.ppt
- 企業(yè)應(yīng)收賬款風(fēng)險的防范.rar
- 企業(yè)資本結(jié)構(gòu)優(yōu)化及其對公司治理績效的影響研究48頁.rar
- 企業(yè)最佳資本結(jié)構(gòu)決策模型.rar
- 啟元藥業(yè)全面成本管理體系設(shè)計(jì)69頁.rar
- 焊接識圖.ppt
- ckj61100數(shù)控車床的液壓系統(tǒng)設(shè)計(jì).doc
- 榫槽成型半自動切削機(jī).doc
- 公共心理學(xué)第三講心理的實(shí)質(zhì).ppt
- 公共心理學(xué)第八講問題解決與創(chuàng)造性培養(yǎng).ppt