分類算法中數(shù)據(jù)不平衡問題的分析研究.doc
約29頁DOC格式手機打開展開
分類算法中數(shù)據(jù)不平衡問題的分析研究,analysis of the problem of unbalanced data classification1.6萬字29頁原創(chuàng)作品,已通過查重系統(tǒng) 摘要: 不平衡數(shù)據(jù)分類問題是分類學(xué)習(xí)中的難點。不平衡數(shù)據(jù)分類問題在各個領(lǐng)域中的廣泛應(yīng)用推動著其研究發(fā)展。以集成分類與數(shù)據(jù)預(yù)處理相結(jié)...
內(nèi)容介紹
此文檔由會員 馬甲線女神 發(fā)布
分類算法中數(shù)據(jù)不平衡問題的分析研究
Analysis of the problem of unbalanced data classification
1.6萬字 29頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要: 不平衡數(shù)據(jù)分類問題是分類學(xué)習(xí)中的難點。不平衡數(shù)據(jù)分類問題在各個領(lǐng)域中的廣泛應(yīng)用推動著其研究發(fā)展。以集成分類與數(shù)據(jù)預(yù)處理相結(jié)合的分類方法是現(xiàn)今解決不平衡分類問題的主流。集成分類主要運用了不同分類器之間的差異性,通過簡單篩選后,形成各分類器間的優(yōu)勢互補,經(jīng)典的分類器集成方法有Bagging、Adaboost、random space等。針對不平衡數(shù)據(jù)的預(yù)處理方法主要有降采樣、過采樣、聚類等,同時也有SMOTE等優(yōu)化采樣方法不斷涌現(xiàn)。
實驗發(fā)現(xiàn),使用經(jīng)典Adaboost算法處理不平衡數(shù)據(jù)時,訓(xùn)練集樣本結(jié)構(gòu)始終處于較大波動狀態(tài),基分類器性能不穩(wěn)定。當數(shù)據(jù)集不平衡程度較大時,以算法中的樣本權(quán)重調(diào)整方法需要氦時間才能獲取較為平衡的訓(xùn)練集用于分類學(xué)習(xí)。權(quán)重調(diào)整過程中產(chǎn)生的具有偏向性分類器較多,嚴重影響了最終集成效果。
本文基于對Adaboost算法的分析研究,逐步從初始權(quán)重賦值、基分類器篩選、權(quán)重調(diào)整機制等方面,對Adaboost算法進行改進。樣本初始權(quán)重的設(shè)定,力求達到快速進入能夠通過加權(quán)隨機抽取,抽到較平衡的訓(xùn)練集的效果。每次訓(xùn)練后,訓(xùn)練集中樣本權(quán)重調(diào)整機制的修改,保證了后續(xù)訓(xùn)練集持續(xù)處于較平衡的狀態(tài),穩(wěn)定了分類器性能。通過不同算法間實驗結(jié)果的比較,證實了改進后的算法,在處理不平衡數(shù)據(jù)分類問題上具有更高的性能。
關(guān)鍵詞:不平衡數(shù)據(jù)集 集成分類 隨機采樣 樣本權(quán)重 平衡訓(xùn)練集
Analysis of the problem of unbalanced data classification
1.6萬字 29頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要: 不平衡數(shù)據(jù)分類問題是分類學(xué)習(xí)中的難點。不平衡數(shù)據(jù)分類問題在各個領(lǐng)域中的廣泛應(yīng)用推動著其研究發(fā)展。以集成分類與數(shù)據(jù)預(yù)處理相結(jié)合的分類方法是現(xiàn)今解決不平衡分類問題的主流。集成分類主要運用了不同分類器之間的差異性,通過簡單篩選后,形成各分類器間的優(yōu)勢互補,經(jīng)典的分類器集成方法有Bagging、Adaboost、random space等。針對不平衡數(shù)據(jù)的預(yù)處理方法主要有降采樣、過采樣、聚類等,同時也有SMOTE等優(yōu)化采樣方法不斷涌現(xiàn)。
實驗發(fā)現(xiàn),使用經(jīng)典Adaboost算法處理不平衡數(shù)據(jù)時,訓(xùn)練集樣本結(jié)構(gòu)始終處于較大波動狀態(tài),基分類器性能不穩(wěn)定。當數(shù)據(jù)集不平衡程度較大時,以算法中的樣本權(quán)重調(diào)整方法需要氦時間才能獲取較為平衡的訓(xùn)練集用于分類學(xué)習(xí)。權(quán)重調(diào)整過程中產(chǎn)生的具有偏向性分類器較多,嚴重影響了最終集成效果。
本文基于對Adaboost算法的分析研究,逐步從初始權(quán)重賦值、基分類器篩選、權(quán)重調(diào)整機制等方面,對Adaboost算法進行改進。樣本初始權(quán)重的設(shè)定,力求達到快速進入能夠通過加權(quán)隨機抽取,抽到較平衡的訓(xùn)練集的效果。每次訓(xùn)練后,訓(xùn)練集中樣本權(quán)重調(diào)整機制的修改,保證了后續(xù)訓(xùn)練集持續(xù)處于較平衡的狀態(tài),穩(wěn)定了分類器性能。通過不同算法間實驗結(jié)果的比較,證實了改進后的算法,在處理不平衡數(shù)據(jù)分類問題上具有更高的性能。
關(guān)鍵詞:不平衡數(shù)據(jù)集 集成分類 隨機采樣 樣本權(quán)重 平衡訓(xùn)練集
TA們正在看...
- 01.1四時田園雜興課堂教學(xué)教案教學(xué)設(shè)計(部編版).doc
- 01.2稚子弄冰課堂教學(xué)教案教學(xué)設(shè)計(部編版).doc
- 01.3村晚課堂教學(xué)教案教學(xué)設(shè)計(部編版).doc
- 02冬陽·童年·駱駝隊公開課優(yōu)秀教案教學(xué)設(shè)計(五年...doc
- 02冬陽·童年·駱駝隊最新教研教案教學(xué)設(shè)計(部編版...doc
- 02冬陽·童年·駱駝隊課堂教學(xué)教案教學(xué)設(shè)計(部編版).doc
- 03祖父的園子公開課優(yōu)秀教案教學(xué)設(shè)計(五年級下冊).doc
- 03祖父的園子最新教研教案教學(xué)設(shè)計(部編版五年級下...doc
- 03祖父的園子課堂教學(xué)教案教學(xué)設(shè)計(部編版).doc
- 04草船借箭公開課優(yōu)秀教案教學(xué)設(shè)計(五年級下冊).doc