語(yǔ)音軟件的應(yīng)用和開(kāi)發(fā)設(shè)計(jì).rar
語(yǔ)音軟件的應(yīng)用和開(kāi)發(fā)設(shè)計(jì),頁(yè)數(shù)70頁(yè) 字?jǐn)?shù) 4.1萬(wàn)字注意本論文包含完整的畢業(yè)論文_扉頁(yè).doc 畢業(yè)設(shè)計(jì)_目錄.doc 畢業(yè)設(shè)計(jì)_摘要.doc 畢業(yè)設(shè)計(jì)_正文.doc 畢業(yè)設(shè)計(jì)_翻譯和開(kāi)題報(bào)告畢業(yè)設(shè)計(jì)_任務(wù)書(shū) 還包括能運(yùn)行的本論文開(kāi)發(fā)實(shí)現(xiàn)的源程序摘要計(jì)算機(jī)語(yǔ)音技術(shù)是語(yǔ)音領(lǐng)域的一個(gè)重要部分,包括四種技術(shù),即語(yǔ)音分析技術(shù)、...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會(huì)員 云貝貝 發(fā)布
語(yǔ)音軟件的應(yīng)用和開(kāi)發(fā)設(shè)計(jì)
頁(yè)數(shù) 70頁(yè) 字?jǐn)?shù) 4.1萬(wàn)字
注意 本論文包含完整的畢業(yè)論文_扉頁(yè).doc
畢業(yè)設(shè)計(jì)_目錄.doc
畢業(yè)設(shè)計(jì)_摘要.doc
畢業(yè)設(shè)計(jì)_正文.doc
畢業(yè)設(shè)計(jì)_翻譯和開(kāi)題報(bào)告
畢業(yè)設(shè)計(jì)_任務(wù)書(shū)
還包括能運(yùn)行的本論文開(kāi)發(fā)實(shí)現(xiàn)的源程序
摘 要
計(jì)算機(jī)語(yǔ)音技術(shù)是語(yǔ)音領(lǐng)域的一個(gè)重要部分,包括四種技術(shù),即語(yǔ)音分析技術(shù)、語(yǔ)音存儲(chǔ)與再生技術(shù)、語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù)。語(yǔ)音合成技術(shù)是利用計(jì)算機(jī)一類機(jī)器,按人們預(yù)定的程序和指令,人為地產(chǎn)生出音素、音節(jié)、詞和句子的技術(shù)。語(yǔ)音合成技術(shù)不但可以用于人——機(jī)——人通信系統(tǒng),而且也是語(yǔ)音學(xué)研究的一種重要手段,對(duì)于揭示語(yǔ)音產(chǎn)生和語(yǔ)言感知機(jī)制具有重要意義。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)。這一技術(shù)的應(yīng)用將從根本上改變計(jì)算機(jī)的人機(jī)界面,從而對(duì)計(jì)算機(jī)的發(fā)展以及推廣應(yīng)用產(chǎn)生深遠(yuǎn)的影響。綜上所述,研究和探討計(jì)算機(jī)語(yǔ)音技術(shù)這一課題具有深遠(yuǎn)的理論意義和廣泛的應(yīng)用前景。
本文詳細(xì)介紹了計(jì)算機(jī)語(yǔ)音技術(shù)的兩大分支──語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)。通過(guò)對(duì)其發(fā)展歷史的回顧和其原理的論述,分析了語(yǔ)音合成和語(yǔ)音識(shí)別中的關(guān)鍵技術(shù),并指出語(yǔ)音技術(shù)在現(xiàn)實(shí)生活中各個(gè)領(lǐng)域的應(yīng)用,以及目前的語(yǔ)音系統(tǒng)所存在的缺陷和今后的發(fā)展方向。在論述計(jì)算機(jī)語(yǔ)音技術(shù)原理的基礎(chǔ)上,作者對(duì)微軟公司的語(yǔ)音軟件開(kāi)發(fā)包Microsoft Speech SDK5.1進(jìn)行了研究,并且總結(jié)了利用該開(kāi)發(fā)包基于VC++6.0實(shí)現(xiàn)文本¬¬──語(yǔ)音轉(zhuǎn)換系統(tǒng)(Text-to-Speech, TTS)和語(yǔ)音識(shí)別系統(tǒng)(Speech Recognition)的具體過(guò)程。通過(guò)對(duì)以上理論的研究和探索,作者設(shè)計(jì)開(kāi)發(fā)了一個(gè)功能較齊全的語(yǔ)音軟件,它具有文本¬¬¬──語(yǔ)音轉(zhuǎn)換、語(yǔ)音校對(duì)、將文本內(nèi)容保存為wav文件、語(yǔ)音錄入等功能,并有良好的人機(jī)交互界面。
關(guān)鍵詞:計(jì)算機(jī)語(yǔ)音技術(shù);語(yǔ)音合成;語(yǔ)音識(shí)別;組件對(duì)象模型(COM)
目 錄
1 緒論 …………….……………………………………………………………….. 1
1.1 語(yǔ)音技術(shù)概述 ……………………………………………………………………...1
1.2 研究語(yǔ)音技術(shù)的重要意義 ………………………………………….……………2
2 語(yǔ)音技術(shù)的基礎(chǔ)知識(shí) …………………………………………………………... 4
2.1 發(fā)音的生理機(jī)構(gòu)與過(guò)程 ………………………………………………………….4
2.1.1 發(fā)音的生理機(jī)構(gòu) ……………………………………………………………. 4
2.1.2 語(yǔ)音的產(chǎn)生過(guò)程 ……………………………………………………………..4
2.1.3 語(yǔ)音分類 ………………………………………………………………………5
2.2 語(yǔ)音的基本特性 ………………………………………………………………… 6
2.2.1 語(yǔ)音的物理屬性 ……………………………………………………………..6
2.2.2 漢語(yǔ)語(yǔ)音基礎(chǔ)及其特性 ……………………………………………………6
2.2.3 語(yǔ)音的波形特征 ……………………………………………………………..8
2.2.4 語(yǔ)音的頻譜特性 ……………………………………………………………..9
2.2.5 語(yǔ)音的音律特性 ……………………………………………………………12
3 語(yǔ)音合成技術(shù) …………………………………………………………………..13
3.1 語(yǔ)音合成技術(shù)簡(jiǎn)介 ……………………………………………………………. 13
3.1.1 語(yǔ)音合成概述 ………………………………………………………………13
3.1.2 國(guó)內(nèi)外語(yǔ)音合成技術(shù)的發(fā)展情況 ………………………………………13
3.2 語(yǔ)音合成原理 …………………………………………………………………….14
3.2.1 共振峰合成 ………………………………………………………………….15
3.2.2 LPC參數(shù) ……………………………………………………………………...17
3.2.3 PSOLA合成技術(shù) ……………………………………………………………17
3.2.4 LMA聲道模型 ………………………………………………………………18
3.3 文本──語(yǔ)音轉(zhuǎn)換系統(tǒng)(Text to Speech, TTS) ……………………………19
3.3.1 TTS的發(fā)展 …………………………………………………………………..19
3.3.2 TTS的組成部分 …………………………………………………………….21
3.3.3 TTS的典型應(yīng)用 …………………………………………………………….23
3.4 語(yǔ)音合成發(fā)展方向 ………………………………………………………………25
4 語(yǔ)音識(shí)別技術(shù) ………………………………………………………………….27
4.1 語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介 ………………………………………………………………27
4.1.1語(yǔ)音識(shí)別概述 ……………………………………………………………….27
4.1.2國(guó)內(nèi)外語(yǔ)音識(shí)別技術(shù)的發(fā)展情況 ……………………………………….29
4.2 語(yǔ)音識(shí)別的定義、原理和分類 …………………………………………………30
4.2.1 語(yǔ)音識(shí)別的定義 ……………………………………………………………30
4.2.2 語(yǔ)音識(shí)別的基本原理 ……………………………………………………...30
4.2.3 語(yǔ)音識(shí)別的分類 ……………………………………………………………31
4.3 語(yǔ)音識(shí)別的關(guān)鍵技術(shù) ………………………………………………………….32
4.3.1 語(yǔ)音識(shí)別單元的選取 ……………………………………………………...33
4.3.2 特征參數(shù)提取技術(shù) ………………………………………………………...33
4.3.3 模式匹配及模型訓(xùn)練技術(shù) ……………………………………………….34
4.4 語(yǔ)音識(shí)別的應(yīng)用及發(fā)展趨勢(shì) …………………………………………………34
4.4.1 語(yǔ)音識(shí)別的應(yīng)用 ……………………………………………………………34
4.4.2 語(yǔ)音識(shí)別的發(fā)展趨勢(shì) ……………………………………………………...35
5 語(yǔ)音軟件的設(shè)計(jì)和開(kāi)發(fā) ………………………………………………………..38
5.1 COM簡(jiǎn)介 ………………………………………………………………………..38
5.1.1 COM定義及COM接口 …………………………………………………..38
5.1.2 COM的基本概念 …………………………………………………………...39
5.1.3 COM對(duì)象的使用和處理 ………………………………………………….40
5.1.4 基本接口—─IUnknown ……………………………………..………….43
5.1.5 Unicode串處理 ……………………………………………………………...44
5.2 關(guān)于Microsoft Speech SDK5.1 ……………………………………………….46
5.2.1文本—語(yǔ)音轉(zhuǎn)換API (API for Text-to-Speech) ………………………47
5.2.2 語(yǔ)音識(shí)別API (API for Speech Recognition)………………………47
5.3 用VC++實(shí)現(xiàn)TTS和SR的過(guò)程 ……………………………………………..48
5.3.1 實(shí)現(xiàn)TTS的過(guò)程 ……………………………………………………………48
5.3.2 實(shí)現(xiàn)SR的過(guò)程 ……………………………………………………………..52
5.3.3 系統(tǒng)分析和測(cè)試 ……………………………………………………………54
6 結(jié)論 ……………………………………………………………………………..65
致謝
參考文獻(xiàn)
參考文獻(xiàn)
[1] 朱民雄,聞新,黃健群,周露.計(jì)算機(jī)語(yǔ)音技術(shù).北京:北京航空航天大學(xué)出版社,2002年1月第一版.
[2] 張成海,張鐸.現(xiàn)代自動(dòng)識(shí)別技術(shù)與應(yīng)用.北京:清華大學(xué)出版社,2003年4月第一版.
[3] 康博創(chuàng)作室.Visual C++60 高級(jí)編程.北京:清華大學(xué)出版社,1997年7月第一版.
[4] Kate Gregory.Visual C++6 開(kāi)發(fā)使用手冊(cè). 機(jī)械工業(yè)出版社,1992年2月第一版.
[5] 余英,梁剛. Visual C++ 實(shí)踐與提高—COM和COM+篇.中國(guó)鐵道出版社,2001年2月第一版
[6] 潘愛(ài)民.COM原理與應(yīng)用.北京:清華大學(xué)出版社,1999年11月第一版.
[7] Gregory Brill. 精通COM+[M].機(jī)械工業(yè)出版社, 黃志軍,任雄偉,劉啟忠等譯.2002年9月第一版.
[8] DON BOX.COM本質(zhì)論(Essential COM).中國(guó)電力出版社,潘愛(ài)民譯,2001年8月第一版.
[9] 宋陽(yáng).利用SAPI5.0進(jìn)行語(yǔ)素分解
[10] 約翰•斯萬(wàn)科著,徐潁譯.COM編程精彩實(shí)例.中國(guó)電力出版社.2001年6月第一版.
[11] 李逸波,郭天杰,王華駒.最新語(yǔ)音識(shí)別技術(shù).北京:電子工業(yè)出版社,1998
[12] 安居院猛,中嵨正之.計(jì)算機(jī)語(yǔ)音處理(日).北京:國(guó)防工業(yè)出版社,1987
[13] 陳永彬.語(yǔ)音信號(hào)處理.上海:上海交通大學(xué)出版社,1990
[14] 岳東劍,等.應(yīng)用小波分析技術(shù)進(jìn)行漢語(yǔ)語(yǔ)音基音頻率分析的研究.模式識(shí)別與人工智能.2000.13(2):235~237
頁(yè)數(shù) 70頁(yè) 字?jǐn)?shù) 4.1萬(wàn)字
注意 本論文包含完整的畢業(yè)論文_扉頁(yè).doc
畢業(yè)設(shè)計(jì)_目錄.doc
畢業(yè)設(shè)計(jì)_摘要.doc
畢業(yè)設(shè)計(jì)_正文.doc
畢業(yè)設(shè)計(jì)_翻譯和開(kāi)題報(bào)告
畢業(yè)設(shè)計(jì)_任務(wù)書(shū)
還包括能運(yùn)行的本論文開(kāi)發(fā)實(shí)現(xiàn)的源程序
摘 要
計(jì)算機(jī)語(yǔ)音技術(shù)是語(yǔ)音領(lǐng)域的一個(gè)重要部分,包括四種技術(shù),即語(yǔ)音分析技術(shù)、語(yǔ)音存儲(chǔ)與再生技術(shù)、語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù)。語(yǔ)音合成技術(shù)是利用計(jì)算機(jī)一類機(jī)器,按人們預(yù)定的程序和指令,人為地產(chǎn)生出音素、音節(jié)、詞和句子的技術(shù)。語(yǔ)音合成技術(shù)不但可以用于人——機(jī)——人通信系統(tǒng),而且也是語(yǔ)音學(xué)研究的一種重要手段,對(duì)于揭示語(yǔ)音產(chǎn)生和語(yǔ)言感知機(jī)制具有重要意義。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)。這一技術(shù)的應(yīng)用將從根本上改變計(jì)算機(jī)的人機(jī)界面,從而對(duì)計(jì)算機(jī)的發(fā)展以及推廣應(yīng)用產(chǎn)生深遠(yuǎn)的影響。綜上所述,研究和探討計(jì)算機(jī)語(yǔ)音技術(shù)這一課題具有深遠(yuǎn)的理論意義和廣泛的應(yīng)用前景。
本文詳細(xì)介紹了計(jì)算機(jī)語(yǔ)音技術(shù)的兩大分支──語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)。通過(guò)對(duì)其發(fā)展歷史的回顧和其原理的論述,分析了語(yǔ)音合成和語(yǔ)音識(shí)別中的關(guān)鍵技術(shù),并指出語(yǔ)音技術(shù)在現(xiàn)實(shí)生活中各個(gè)領(lǐng)域的應(yīng)用,以及目前的語(yǔ)音系統(tǒng)所存在的缺陷和今后的發(fā)展方向。在論述計(jì)算機(jī)語(yǔ)音技術(shù)原理的基礎(chǔ)上,作者對(duì)微軟公司的語(yǔ)音軟件開(kāi)發(fā)包Microsoft Speech SDK5.1進(jìn)行了研究,并且總結(jié)了利用該開(kāi)發(fā)包基于VC++6.0實(shí)現(xiàn)文本¬¬──語(yǔ)音轉(zhuǎn)換系統(tǒng)(Text-to-Speech, TTS)和語(yǔ)音識(shí)別系統(tǒng)(Speech Recognition)的具體過(guò)程。通過(guò)對(duì)以上理論的研究和探索,作者設(shè)計(jì)開(kāi)發(fā)了一個(gè)功能較齊全的語(yǔ)音軟件,它具有文本¬¬¬──語(yǔ)音轉(zhuǎn)換、語(yǔ)音校對(duì)、將文本內(nèi)容保存為wav文件、語(yǔ)音錄入等功能,并有良好的人機(jī)交互界面。
關(guān)鍵詞:計(jì)算機(jī)語(yǔ)音技術(shù);語(yǔ)音合成;語(yǔ)音識(shí)別;組件對(duì)象模型(COM)
目 錄
1 緒論 …………….……………………………………………………………….. 1
1.1 語(yǔ)音技術(shù)概述 ……………………………………………………………………...1
1.2 研究語(yǔ)音技術(shù)的重要意義 ………………………………………….……………2
2 語(yǔ)音技術(shù)的基礎(chǔ)知識(shí) …………………………………………………………... 4
2.1 發(fā)音的生理機(jī)構(gòu)與過(guò)程 ………………………………………………………….4
2.1.1 發(fā)音的生理機(jī)構(gòu) ……………………………………………………………. 4
2.1.2 語(yǔ)音的產(chǎn)生過(guò)程 ……………………………………………………………..4
2.1.3 語(yǔ)音分類 ………………………………………………………………………5
2.2 語(yǔ)音的基本特性 ………………………………………………………………… 6
2.2.1 語(yǔ)音的物理屬性 ……………………………………………………………..6
2.2.2 漢語(yǔ)語(yǔ)音基礎(chǔ)及其特性 ……………………………………………………6
2.2.3 語(yǔ)音的波形特征 ……………………………………………………………..8
2.2.4 語(yǔ)音的頻譜特性 ……………………………………………………………..9
2.2.5 語(yǔ)音的音律特性 ……………………………………………………………12
3 語(yǔ)音合成技術(shù) …………………………………………………………………..13
3.1 語(yǔ)音合成技術(shù)簡(jiǎn)介 ……………………………………………………………. 13
3.1.1 語(yǔ)音合成概述 ………………………………………………………………13
3.1.2 國(guó)內(nèi)外語(yǔ)音合成技術(shù)的發(fā)展情況 ………………………………………13
3.2 語(yǔ)音合成原理 …………………………………………………………………….14
3.2.1 共振峰合成 ………………………………………………………………….15
3.2.2 LPC參數(shù) ……………………………………………………………………...17
3.2.3 PSOLA合成技術(shù) ……………………………………………………………17
3.2.4 LMA聲道模型 ………………………………………………………………18
3.3 文本──語(yǔ)音轉(zhuǎn)換系統(tǒng)(Text to Speech, TTS) ……………………………19
3.3.1 TTS的發(fā)展 …………………………………………………………………..19
3.3.2 TTS的組成部分 …………………………………………………………….21
3.3.3 TTS的典型應(yīng)用 …………………………………………………………….23
3.4 語(yǔ)音合成發(fā)展方向 ………………………………………………………………25
4 語(yǔ)音識(shí)別技術(shù) ………………………………………………………………….27
4.1 語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介 ………………………………………………………………27
4.1.1語(yǔ)音識(shí)別概述 ……………………………………………………………….27
4.1.2國(guó)內(nèi)外語(yǔ)音識(shí)別技術(shù)的發(fā)展情況 ……………………………………….29
4.2 語(yǔ)音識(shí)別的定義、原理和分類 …………………………………………………30
4.2.1 語(yǔ)音識(shí)別的定義 ……………………………………………………………30
4.2.2 語(yǔ)音識(shí)別的基本原理 ……………………………………………………...30
4.2.3 語(yǔ)音識(shí)別的分類 ……………………………………………………………31
4.3 語(yǔ)音識(shí)別的關(guān)鍵技術(shù) ………………………………………………………….32
4.3.1 語(yǔ)音識(shí)別單元的選取 ……………………………………………………...33
4.3.2 特征參數(shù)提取技術(shù) ………………………………………………………...33
4.3.3 模式匹配及模型訓(xùn)練技術(shù) ……………………………………………….34
4.4 語(yǔ)音識(shí)別的應(yīng)用及發(fā)展趨勢(shì) …………………………………………………34
4.4.1 語(yǔ)音識(shí)別的應(yīng)用 ……………………………………………………………34
4.4.2 語(yǔ)音識(shí)別的發(fā)展趨勢(shì) ……………………………………………………...35
5 語(yǔ)音軟件的設(shè)計(jì)和開(kāi)發(fā) ………………………………………………………..38
5.1 COM簡(jiǎn)介 ………………………………………………………………………..38
5.1.1 COM定義及COM接口 …………………………………………………..38
5.1.2 COM的基本概念 …………………………………………………………...39
5.1.3 COM對(duì)象的使用和處理 ………………………………………………….40
5.1.4 基本接口—─IUnknown ……………………………………..………….43
5.1.5 Unicode串處理 ……………………………………………………………...44
5.2 關(guān)于Microsoft Speech SDK5.1 ……………………………………………….46
5.2.1文本—語(yǔ)音轉(zhuǎn)換API (API for Text-to-Speech) ………………………47
5.2.2 語(yǔ)音識(shí)別API (API for Speech Recognition)………………………47
5.3 用VC++實(shí)現(xiàn)TTS和SR的過(guò)程 ……………………………………………..48
5.3.1 實(shí)現(xiàn)TTS的過(guò)程 ……………………………………………………………48
5.3.2 實(shí)現(xiàn)SR的過(guò)程 ……………………………………………………………..52
5.3.3 系統(tǒng)分析和測(cè)試 ……………………………………………………………54
6 結(jié)論 ……………………………………………………………………………..65
致謝
參考文獻(xiàn)
參考文獻(xiàn)
[1] 朱民雄,聞新,黃健群,周露.計(jì)算機(jī)語(yǔ)音技術(shù).北京:北京航空航天大學(xué)出版社,2002年1月第一版.
[2] 張成海,張鐸.現(xiàn)代自動(dòng)識(shí)別技術(shù)與應(yīng)用.北京:清華大學(xué)出版社,2003年4月第一版.
[3] 康博創(chuàng)作室.Visual C++60 高級(jí)編程.北京:清華大學(xué)出版社,1997年7月第一版.
[4] Kate Gregory.Visual C++6 開(kāi)發(fā)使用手冊(cè). 機(jī)械工業(yè)出版社,1992年2月第一版.
[5] 余英,梁剛. Visual C++ 實(shí)踐與提高—COM和COM+篇.中國(guó)鐵道出版社,2001年2月第一版
[6] 潘愛(ài)民.COM原理與應(yīng)用.北京:清華大學(xué)出版社,1999年11月第一版.
[7] Gregory Brill. 精通COM+[M].機(jī)械工業(yè)出版社, 黃志軍,任雄偉,劉啟忠等譯.2002年9月第一版.
[8] DON BOX.COM本質(zhì)論(Essential COM).中國(guó)電力出版社,潘愛(ài)民譯,2001年8月第一版.
[9] 宋陽(yáng).利用SAPI5.0進(jìn)行語(yǔ)素分解
[10] 約翰•斯萬(wàn)科著,徐潁譯.COM編程精彩實(shí)例.中國(guó)電力出版社.2001年6月第一版.
[11] 李逸波,郭天杰,王華駒.最新語(yǔ)音識(shí)別技術(shù).北京:電子工業(yè)出版社,1998
[12] 安居院猛,中嵨正之.計(jì)算機(jī)語(yǔ)音處理(日).北京:國(guó)防工業(yè)出版社,1987
[13] 陳永彬.語(yǔ)音信號(hào)處理.上海:上海交通大學(xué)出版社,1990
[14] 岳東劍,等.應(yīng)用小波分析技術(shù)進(jìn)行漢語(yǔ)語(yǔ)音基音頻率分析的研究.模式識(shí)別與人工智能.2000.13(2):235~237