基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)設計
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)設計
簡要:摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結果往往不是最優(yōu)結果。為了解決這一問題,基于大數(shù)據(jù)分析技術設計了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)
摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結果往往不是最優(yōu)結果。為了解決這一問題,基于大數(shù)據(jù)分析技術設計了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)絡端效勞器、特征索引器、查詢器、預處理器、圖像數(shù)據(jù)庫、聚類器組成。圖像搜索器利用Spider處理器完成搜索,利用API接口和嵌入式管理系統(tǒng)管理圖像數(shù)據(jù)庫,建立顏色直方圖實現(xiàn)顏色特征處理。軟件由圖像搜索、圖像特征處理、冗余特征聚類三步組成,利用IGroup算法實現(xiàn)聚類。與傳統(tǒng)聚類系統(tǒng)進行實驗比照,結果說明,新的聚類系統(tǒng)能夠在短時間內(nèi)輸出最優(yōu)的聚類結果,適合圖像處理工作。
關鍵詞: 系統(tǒng)設計; 冗余特征聚類; 混合屬性圖像; 圖像搜索; 大數(shù)據(jù)分析; 圖像處理
本文源自:?現(xiàn)代電子技術? 2022年13期
0 引 言
隨著Internet的高速開展,圖像被越來越多地使用在內(nèi)容表達和信息承載上。網(wǎng)絡具有規(guī)模大、分布范圍廣、資源增長速度快的特征,互聯(lián)網(wǎng)擁有的圖像數(shù)以億計,想要通過人工的手段將混合屬性圖像冗余特征聚類到一起十分困難,因此,必須要設計有效的圖像冗余特征聚類系統(tǒng)[1]。
圖像冗余特征聚類問題與圖像信息收集和信息檢索問題相關,圖像的冗余特征表現(xiàn)形式共有如下幾種:空間冗余、時間冗余、視覺冗余、信息熵冗余和知識冗余[2]。不同類型的圖像含有的冗余特征不同[3],由于Internet具有邊緣化的特點,所以圖像信息的格式也往往不同[4]。目前研究的圖像冗余特征聚類系統(tǒng)主要有兩種:第一種是基于圖像內(nèi)容進行聚類;第二種是基于圖像語義進行聚類。基于內(nèi)容的混合屬性圖像冗余特征聚類系統(tǒng)能夠?qū)D像的內(nèi)容本身進行分析和研究,基于語義的混合屬性圖像冗余特征聚類系統(tǒng)能夠分析相關文字信息[5]。在目前研發(fā)的混合屬性圖像冗余特征聚類系統(tǒng)中,聚類的準確率和全面率都有所缺乏,系統(tǒng)的可擴展性也存在很大的問題[6]。
大數(shù)據(jù)分析技術是一種新的網(wǎng)絡技術,能夠在短時間內(nèi)對海量數(shù)據(jù)進行分析,并且篩選出有效數(shù)據(jù),對于冗余特征聚類十分有效[7]。本文基于大數(shù)據(jù)分析技術,設計了一種新的混合屬性圖像冗余特征聚類系統(tǒng),對系統(tǒng)的硬件和軟件進行了優(yōu)化設計,分析了系統(tǒng)進行聚類的工作原理,并給出了相應的聚類算法,通過實驗對聚類系統(tǒng)有效性進行探討。
1 混合屬性圖像冗余特征聚類系統(tǒng)硬件設計
本文研究的聚類系統(tǒng)針對混合屬性圖像設計,該系統(tǒng)能夠?qū)⑺械膱D像同一特征進行動態(tài)聚類,并且配合主題關鍵詞,方便用戶查看。
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)結構如圖1所示。
觀察圖1可知,本文設計的冗余特征聚類系統(tǒng)利用互聯(lián)網(wǎng)絡將各個設備連接到一起。硬件設備主要有圖像搜索器、網(wǎng)絡端效勞器、特征索引器、查詢器、預處理器、圖像數(shù)據(jù)庫、聚類器,其中,聚類器和預處理器是系統(tǒng)結構的關鍵組成局部[8]。
1.1 圖像搜索器設計
圖像搜索器負責聚類系統(tǒng)的引擎搜索工作,能夠在眾多混合屬性圖像中搜索冗余特征,并且提供相對滿意的搜索結果。搜索引擎中選擇的效勞器為Spider效勞器,該效勞器一改傳統(tǒng)的超鏈接拓撲順序,利用初始的URL列表獲取對應的網(wǎng)頁。Spider效勞器不僅能夠獲得URL列表,而且還可以根據(jù)獲取到的結構,尋找其他類型的文件,重復進行,直到搜索到指定數(shù)目的冗余特征為止。圖像搜索器的設計過程比擬簡單,Spider處理器占據(jù)面積較小[9]。Spider處理器示意圖如圖2所示。
Spider處理器芯片是一個小型簡單的芯片,能夠在短時間內(nèi)完成圖像冗余特征的搜索工作。
1.2 圖像數(shù)據(jù)庫設計
為了更好地分析混合屬性圖像冗余特征,本文在系統(tǒng)硬件結構中參加了圖像數(shù)據(jù)庫,圖像數(shù)據(jù)庫能夠為系統(tǒng)工作提供網(wǎng)頁的原始數(shù)據(jù),并且存儲含有冗余特征的混合屬性圖像[10]。圖像數(shù)據(jù)庫使用的管理系統(tǒng)為BERKELEY DB系統(tǒng),該系統(tǒng)是一個含有開放源代碼的嵌入式數(shù)據(jù)庫管理系統(tǒng),具有極高的管理能力和極強的工作性能。圖像數(shù)據(jù)庫的提供很大程度地減輕了程序員的工作負擔。圖像數(shù)據(jù)庫不需要效勞器連接,應用程序直接就能夠完成數(shù)據(jù)的保存、查詢、修改以及刪除工作。
圖像數(shù)據(jù)庫結構如圖3所示。
觀察圖3可知,圖像數(shù)據(jù)庫中含有多個API接口能夠連接軟件程序,同時,采用C語言、C++語言、Java語言、Perl語言等編程語言進行操作,使系統(tǒng)可以在短時間內(nèi)完成多個圖像冗余特征的聚類工作。多語言操作使系統(tǒng)的多個進程可以在同一時間操控訪問數(shù)據(jù)庫。數(shù)據(jù)加鎖、事務日志和存儲管理位于數(shù)據(jù)庫的底層,與數(shù)據(jù)庫函數(shù)完美融合,配合系統(tǒng)的工作。
本文設計的圖像數(shù)據(jù)庫自身內(nèi)存僅有250 KB,能夠管理高達380 TB的數(shù)據(jù),性能強于目前市面上的其他圖像數(shù)據(jù)庫。關鍵詞(Key)是圖像數(shù)據(jù)庫的管理根底,關鍵詞(Key)和數(shù)據(jù)(Data)為對應關系,構成了數(shù)據(jù)庫結構的一個根本單元,用戶可以利用這些根本單元實現(xiàn)對數(shù)據(jù)庫的訪問,不同的關鍵詞來源于不同的數(shù)據(jù)。數(shù)據(jù)庫中關鍵詞對應的模型圖如圖4所示。
混合屬性圖像中的關鍵特征在經(jīng)過計算后得到矩陣,數(shù)據(jù)在一次計算后,會永久保存在數(shù)據(jù)庫中,隨時為用戶提供必要的效勞。需要特別指出的是,最初得到的冗余特征數(shù)據(jù)不會直接儲存在數(shù)據(jù)庫中,而是要經(jīng)過預處理器統(tǒng)一分析后,才能儲存到對應的關鍵詞模型列表中。
1.3 圖像預處理器設計
圖像預處理器主要負責處理混合屬性圖像的冗余特征,包括視覺冗余特征和語義冗余特征。顏色冗余特征是最為廣泛的冗余特征,顏色冗余特征對圖像本身的尺寸、方向和視角有著很小的依賴性,自身具有很好的穩(wěn)健性。在處理顏色冗余特征時,系統(tǒng)會自動建立直方圖,統(tǒng)計每種顏色出現(xiàn)的次數(shù),利用的統(tǒng)計工具為RGB色彩工具,建立的顏色直方圖如圖5所示。
圖5中,RGB代表不同的色彩分量,R代表紅色(Red),G代表綠色(Green),B代表藍色(Blue)。顏色直方圖中每個顏色都擁有256種色彩區(qū)間。三種顏色區(qū)間加起來共有768維,不需要做特別的降維處理。
在處理語義特征時,要從URL中提取相關的語義信息,分別分析標記信息、網(wǎng)頁標題、URL信息和meta標記信息,對不同的信息設立不同的權重值,通過分析權重值完成冗余特征聚類處理工作。
1.4 聚類器設計
聚類器在本文設計的系統(tǒng)中占據(jù)著核心地位,能夠通過動態(tài)的方式將特征分成假設干組和假設干類,并確保每一組內(nèi)的數(shù)據(jù)都有著極高的相似度,不同組的相似度很低。聚類器主要包括三個模塊:顏色特征聚類模塊、語義特征聚類模塊、顏色語義特征聚類模塊。通過K?means算法將得到的聚類結果保存在緩存區(qū)中,當緩存區(qū)的結構到達滿負荷時,替換掉緩存區(qū)的內(nèi)容。聚類器結構如圖6所示。
2 混合屬性圖像冗余特征聚類系統(tǒng)軟件設計
根據(jù)設計的混合屬性圖像冗余特征聚類系統(tǒng)硬件結構,對聚類系統(tǒng)軟件結構進行設計。軟件選用的開發(fā)環(huán)境為Micorsoft Windows 10,選用的CPU為Celeron,內(nèi)存高達500 MB,使用的開發(fā)工具為VS2022,得到的軟件流程如圖7所示。
本文設計的軟件在工作之前,會建立一個初始的URL列表,利用超鏈接的拓撲順序提取不同網(wǎng)頁圖像的冗余數(shù)據(jù),通過對這些冗余特征數(shù)據(jù)進行分析,能夠得到根系結果,再將根系結果輸入數(shù)據(jù)庫中,以構建索引庫。
軟件采用的聚類算法為IGroup聚類算法,該算法工作效率高,通用性強,能夠以列表形式將聚類結果反響給用戶。相較于其他聚類算法,IGroup聚類算法耗時更短。通過搜索圖像和文本,找到特征數(shù)據(jù),進行合并,最后通過精選將得到的結果反響給用戶。該聚類算法能夠?qū)碗s的圖片聚類轉(zhuǎn)換成文字聚類,工作過程簡單,工作效果好。
聚類算法流程如圖8所示。
3 實驗研究
3.1 實驗目的
為了檢測本文設計的基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)的實際效果,與傳統(tǒng)聚類系統(tǒng)進行了比照,并分析實驗結果。
3.2 實驗參數(shù)設置
實驗平臺及參數(shù)配置見表1。
3.3 實驗結果
根據(jù)上述實驗參數(shù),同時選取本文研究的聚類系統(tǒng)和傳統(tǒng)聚類系統(tǒng)對1 000幅混合屬性圖像冗余特征進行聚類,聚類結果比擬如圖9所示。
觀察圖9可知:傳統(tǒng)的冗余特征聚類系統(tǒng)聚類數(shù)量最高值僅能到達145左右,而本文的冗余特征聚類系統(tǒng)聚類數(shù)量能夠到達200,圖像含有的信息十分豐富,用戶查找起來極其方便,得到的聚類結果更優(yōu)。
4 結 語
本文利用大數(shù)據(jù)提出了一種新的混合圖像冗余特征聚類系統(tǒng),該聚類系統(tǒng)能夠在短時間內(nèi)分析出圖像不同的屬性,尋找到冗余特征,給出最優(yōu)結果。本文在關鍵參數(shù)上進行了動態(tài)設計,利用IGroup聚類算法優(yōu)化了聚類過程,使系統(tǒng)能夠?qū)崿F(xiàn)顏色冗余特征聚類、語義冗余特征聚類。本文研究的系統(tǒng)雖然具備上述優(yōu)點,但是提供的效勞多是針對單一領域,未來該系統(tǒng)應該隨著人工智能技術的進步不斷深入研究,努力適應各種圖像檢索技術。
參考文獻
[1] 侯莉莎.大數(shù)據(jù)集合中冗余特征排除的聚類算法設計[J].現(xiàn)代電子技術,2022,41(14):48?50.
[2] 魏霖靜,寧璐璐,郭斌,等.大數(shù)據(jù)中基于熵加權的稀疏分數(shù)特征選擇聚類算法[J].計算機應用研究,2022,35(8):2293?2294.
[3] 劉先花.基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲系統(tǒng)設計[J].現(xiàn)代電子技術,2022,40(23):130?133.
[4] 李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學生學業(yè)分類管理體系:河北農(nóng)業(yè)大學商學院新生入學成績的K?mean聚類分析[J].河北農(nóng)業(yè)大學學報(農(nóng)林教育版),2022,20(5):96?99.
[5] 文政穎,李運娣.一種基于模糊層次聚類分析的大數(shù)據(jù)挖掘算法[J].河南工程學院學報(自然科學版),2022,30(3):70?74.
[6] 徐源,程潛善,李陽,等.基于大數(shù)據(jù)聚類的電力系統(tǒng)中長期負荷預測[J].電力系統(tǒng)及其自動化學報,2022,29(8):43?48.
[7] 王欣剛.基于大數(shù)據(jù)分析的業(yè)務平安預警系統(tǒng)設計[J].播送與電視技術,2022,45(6):123?126.
[8] 梁耘,王維慶,王海云.基于分裂?合并策略改良多特征聚類算法的風電機組故障分析[J].可再生能源,2022,35(10):1537?1543.
[9] 鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡日志分析模型構建研究[J].電子設計工程,2022,25(23):97?100.
[10] 徐時芳,羅曉賓,陳陽華.基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)的設計與實現(xiàn)[J].現(xiàn)代電子技術,2022,41(20):172?174.
[11] 商娟葉.基于PSO的云計算環(huán)境中大數(shù)據(jù)優(yōu)化聚類算法[J].電子設計工程,2022,26(19):80?83.
[12] 趙睿,王慶嶺.基于大數(shù)據(jù)技術在線學習過程行為分析框架設計[J].蘭州石化職業(yè)技術學院學報,2022,17(4):15?18.
[13] 樊凌,龔偉.無線網(wǎng)絡MOOCs大數(shù)據(jù)聚類方法優(yōu)化研究[J].計算機仿真,2022,33(7):435?439.
收藏
編號:210477609
類型:共享資源
大?。?span id="w6900n2" class="font-tahoma">15.33KB
格式:DOCX
上傳時間:2023-05-17
18
積分
- 關 鍵 詞:
-
基于
數(shù)據(jù)
分析
混合
屬性
圖像
冗余
特征
系統(tǒng)
設計
- 資源描述:
-
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)設計
簡要:摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結果往往不是最優(yōu)結果。為了解決這一問題,基于大數(shù)據(jù)分析技術設計了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)
摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結果往往不是最優(yōu)結果。為了解決這一問題,基于大數(shù)據(jù)分析技術設計了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)絡端效勞器、特征索引器、查詢器、預處理器、圖像數(shù)據(jù)庫、聚類器組成。圖像搜索器利用Spider處理器完成搜索,利用API接口和嵌入式管理系統(tǒng)管理圖像數(shù)據(jù)庫,建立顏色直方圖實現(xiàn)顏色特征處理。軟件由圖像搜索、圖像特征處理、冗余特征聚類三步組成,利用IGroup算法實現(xiàn)聚類。與傳統(tǒng)聚類系統(tǒng)進行實驗比照,結果說明,新的聚類系統(tǒng)能夠在短時間內(nèi)輸出最優(yōu)的聚類結果,適合圖像處理工作。
關鍵詞: 系統(tǒng)設計; 冗余特征聚類; 混合屬性圖像; 圖像搜索; 大數(shù)據(jù)分析; 圖像處理
本文源自:?現(xiàn)代電子技術? 2022年13期
0 引 言
隨著Internet的高速開展,圖像被越來越多地使用在內(nèi)容表達和信息承載上。網(wǎng)絡具有規(guī)模大、分布范圍廣、資源增長速度快的特征,互聯(lián)網(wǎng)擁有的圖像數(shù)以億計,想要通過人工的手段將混合屬性圖像冗余特征聚類到一起十分困難,因此,必須要設計有效的圖像冗余特征聚類系統(tǒng)[1]。
圖像冗余特征聚類問題與圖像信息收集和信息檢索問題相關,圖像的冗余特征表現(xiàn)形式共有如下幾種:空間冗余、時間冗余、視覺冗余、信息熵冗余和知識冗余[2]。不同類型的圖像含有的冗余特征不同[3],由于Internet具有邊緣化的特點,所以圖像信息的格式也往往不同[4]。目前研究的圖像冗余特征聚類系統(tǒng)主要有兩種:第一種是基于圖像內(nèi)容進行聚類;第二種是基于圖像語義進行聚類?;趦?nèi)容的混合屬性圖像冗余特征聚類系統(tǒng)能夠?qū)D像的內(nèi)容本身進行分析和研究,基于語義的混合屬性圖像冗余特征聚類系統(tǒng)能夠分析相關文字信息[5]。在目前研發(fā)的混合屬性圖像冗余特征聚類系統(tǒng)中,聚類的準確率和全面率都有所缺乏,系統(tǒng)的可擴展性也存在很大的問題[6]。
大數(shù)據(jù)分析技術是一種新的網(wǎng)絡技術,能夠在短時間內(nèi)對海量數(shù)據(jù)進行分析,并且篩選出有效數(shù)據(jù),對于冗余特征聚類十分有效[7]。本文基于大數(shù)據(jù)分析技術,設計了一種新的混合屬性圖像冗余特征聚類系統(tǒng),對系統(tǒng)的硬件和軟件進行了優(yōu)化設計,分析了系統(tǒng)進行聚類的工作原理,并給出了相應的聚類算法,通過實驗對聚類系統(tǒng)有效性進行探討。
1 混合屬性圖像冗余特征聚類系統(tǒng)硬件設計
本文研究的聚類系統(tǒng)針對混合屬性圖像設計,該系統(tǒng)能夠?qū)⑺械膱D像同一特征進行動態(tài)聚類,并且配合主題關鍵詞,方便用戶查看。
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)結構如圖1所示。
觀察圖1可知,本文設計的冗余特征聚類系統(tǒng)利用互聯(lián)網(wǎng)絡將各個設備連接到一起。硬件設備主要有圖像搜索器、網(wǎng)絡端效勞器、特征索引器、查詢器、預處理器、圖像數(shù)據(jù)庫、聚類器,其中,聚類器和預處理器是系統(tǒng)結構的關鍵組成局部[8]。
1.1 圖像搜索器設計
圖像搜索器負責聚類系統(tǒng)的引擎搜索工作,能夠在眾多混合屬性圖像中搜索冗余特征,并且提供相對滿意的搜索結果。搜索引擎中選擇的效勞器為Spider效勞器,該效勞器一改傳統(tǒng)的超鏈接拓撲順序,利用初始的URL列表獲取對應的網(wǎng)頁。Spider效勞器不僅能夠獲得URL列表,而且還可以根據(jù)獲取到的結構,尋找其他類型的文件,重復進行,直到搜索到指定數(shù)目的冗余特征為止。圖像搜索器的設計過程比擬簡單,Spider處理器占據(jù)面積較小[9]。Spider處理器示意圖如圖2所示。
Spider處理器芯片是一個小型簡單的芯片,能夠在短時間內(nèi)完成圖像冗余特征的搜索工作。
1.2 圖像數(shù)據(jù)庫設計
為了更好地分析混合屬性圖像冗余特征,本文在系統(tǒng)硬件結構中參加了圖像數(shù)據(jù)庫,圖像數(shù)據(jù)庫能夠為系統(tǒng)工作提供網(wǎng)頁的原始數(shù)據(jù),并且存儲含有冗余特征的混合屬性圖像[10]。圖像數(shù)據(jù)庫使用的管理系統(tǒng)為BERKELEY DB系統(tǒng),該系統(tǒng)是一個含有開放源代碼的嵌入式數(shù)據(jù)庫管理系統(tǒng),具有極高的管理能力和極強的工作性能。圖像數(shù)據(jù)庫的提供很大程度地減輕了程序員的工作負擔。圖像數(shù)據(jù)庫不需要效勞器連接,應用程序直接就能夠完成數(shù)據(jù)的保存、查詢、修改以及刪除工作。
圖像數(shù)據(jù)庫結構如圖3所示。
觀察圖3可知,圖像數(shù)據(jù)庫中含有多個API接口能夠連接軟件程序,同時,采用C語言、C++語言、Java語言、Perl語言等編程語言進行操作,使系統(tǒng)可以在短時間內(nèi)完成多個圖像冗余特征的聚類工作。多語言操作使系統(tǒng)的多個進程可以在同一時間操控訪問數(shù)據(jù)庫。數(shù)據(jù)加鎖、事務日志和存儲管理位于數(shù)據(jù)庫的底層,與數(shù)據(jù)庫函數(shù)完美融合,配合系統(tǒng)的工作。
本文設計的圖像數(shù)據(jù)庫自身內(nèi)存僅有250 KB,能夠管理高達380 TB的數(shù)據(jù),性能強于目前市面上的其他圖像數(shù)據(jù)庫。關鍵詞(Key)是圖像數(shù)據(jù)庫的管理根底,關鍵詞(Key)和數(shù)據(jù)(Data)為對應關系,構成了數(shù)據(jù)庫結構的一個根本單元,用戶可以利用這些根本單元實現(xiàn)對數(shù)據(jù)庫的訪問,不同的關鍵詞來源于不同的數(shù)據(jù)。數(shù)據(jù)庫中關鍵詞對應的模型圖如圖4所示。
混合屬性圖像中的關鍵特征在經(jīng)過計算后得到矩陣,數(shù)據(jù)在一次計算后,會永久保存在數(shù)據(jù)庫中,隨時為用戶提供必要的效勞。需要特別指出的是,最初得到的冗余特征數(shù)據(jù)不會直接儲存在數(shù)據(jù)庫中,而是要經(jīng)過預處理器統(tǒng)一分析后,才能儲存到對應的關鍵詞模型列表中。
1.3 圖像預處理器設計
圖像預處理器主要負責處理混合屬性圖像的冗余特征,包括視覺冗余特征和語義冗余特征。顏色冗余特征是最為廣泛的冗余特征,顏色冗余特征對圖像本身的尺寸、方向和視角有著很小的依賴性,自身具有很好的穩(wěn)健性。在處理顏色冗余特征時,系統(tǒng)會自動建立直方圖,統(tǒng)計每種顏色出現(xiàn)的次數(shù),利用的統(tǒng)計工具為RGB色彩工具,建立的顏色直方圖如圖5所示。
圖5中,RGB代表不同的色彩分量,R代表紅色(Red),G代表綠色(Green),B代表藍色(Blue)。顏色直方圖中每個顏色都擁有256種色彩區(qū)間。三種顏色區(qū)間加起來共有768維,不需要做特別的降維處理。
在處理語義特征時,要從URL中提取相關的語義信息,分別分析標記信息、網(wǎng)頁標題、URL信息和meta標記信息,對不同的信息設立不同的權重值,通過分析權重值完成冗余特征聚類處理工作。
1.4 聚類器設計
聚類器在本文設計的系統(tǒng)中占據(jù)著核心地位,能夠通過動態(tài)的方式將特征分成假設干組和假設干類,并確保每一組內(nèi)的數(shù)據(jù)都有著極高的相似度,不同組的相似度很低。聚類器主要包括三個模塊:顏色特征聚類模塊、語義特征聚類模塊、顏色語義特征聚類模塊。通過K?means算法將得到的聚類結果保存在緩存區(qū)中,當緩存區(qū)的結構到達滿負荷時,替換掉緩存區(qū)的內(nèi)容。聚類器結構如圖6所示。
2 混合屬性圖像冗余特征聚類系統(tǒng)軟件設計
根據(jù)設計的混合屬性圖像冗余特征聚類系統(tǒng)硬件結構,對聚類系統(tǒng)軟件結構進行設計。軟件選用的開發(fā)環(huán)境為Micorsoft Windows 10,選用的CPU為Celeron,內(nèi)存高達500 MB,使用的開發(fā)工具為VS2022,得到的軟件流程如圖7所示。
本文設計的軟件在工作之前,會建立一個初始的URL列表,利用超鏈接的拓撲順序提取不同網(wǎng)頁圖像的冗余數(shù)據(jù),通過對這些冗余特征數(shù)據(jù)進行分析,能夠得到根系結果,再將根系結果輸入數(shù)據(jù)庫中,以構建索引庫。
軟件采用的聚類算法為IGroup聚類算法,該算法工作效率高,通用性強,能夠以列表形式將聚類結果反響給用戶。相較于其他聚類算法,IGroup聚類算法耗時更短。通過搜索圖像和文本,找到特征數(shù)據(jù),進行合并,最后通過精選將得到的結果反響給用戶。該聚類算法能夠?qū)碗s的圖片聚類轉(zhuǎn)換成文字聚類,工作過程簡單,工作效果好。
聚類算法流程如圖8所示。
3 實驗研究
3.1 實驗目的
為了檢測本文設計的基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)的實際效果,與傳統(tǒng)聚類系統(tǒng)進行了比照,并分析實驗結果。
3.2 實驗參數(shù)設置
實驗平臺及參數(shù)配置見表1。
3.3 實驗結果
根據(jù)上述實驗參數(shù),同時選取本文研究的聚類系統(tǒng)和傳統(tǒng)聚類系統(tǒng)對1 000幅混合屬性圖像冗余特征進行聚類,聚類結果比擬如圖9所示。
觀察圖9可知:傳統(tǒng)的冗余特征聚類系統(tǒng)聚類數(shù)量最高值僅能到達145左右,而本文的冗余特征聚類系統(tǒng)聚類數(shù)量能夠到達200,圖像含有的信息十分豐富,用戶查找起來極其方便,得到的聚類結果更優(yōu)。
4 結 語
本文利用大數(shù)據(jù)提出了一種新的混合圖像冗余特征聚類系統(tǒng),該聚類系統(tǒng)能夠在短時間內(nèi)分析出圖像不同的屬性,尋找到冗余特征,給出最優(yōu)結果。本文在關鍵參數(shù)上進行了動態(tài)設計,利用IGroup聚類算法優(yōu)化了聚類過程,使系統(tǒng)能夠?qū)崿F(xiàn)顏色冗余特征聚類、語義冗余特征聚類。本文研究的系統(tǒng)雖然具備上述優(yōu)點,但是提供的效勞多是針對單一領域,未來該系統(tǒng)應該隨著人工智能技術的進步不斷深入研究,努力適應各種圖像檢索技術。
參考文獻
[1] 侯莉莎.大數(shù)據(jù)集合中冗余特征排除的聚類算法設計[J].現(xiàn)代電子技術,2022,41(14):48?50.
[2] 魏霖靜,寧璐璐,郭斌,等.大數(shù)據(jù)中基于熵加權的稀疏分數(shù)特征選擇聚類算法[J].計算機應用研究,2022,35(8):2293?2294.
[3] 劉先花.基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲系統(tǒng)設計[J].現(xiàn)代電子技術,2022,40(23):130?133.
[4] 李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學生學業(yè)分類管理體系:河北農(nóng)業(yè)大學商學院新生入學成績的K?mean聚類分析[J].河北農(nóng)業(yè)大學學報(農(nóng)林教育版),2022,20(5):96?99.
[5] 文政穎,李運娣.一種基于模糊層次聚類分析的大數(shù)據(jù)挖掘算法[J].河南工程學院學報(自然科學版),2022,30(3):70?74.
[6] 徐源,程潛善,李陽,等.基于大數(shù)據(jù)聚類的電力系統(tǒng)中長期負荷預測[J].電力系統(tǒng)及其自動化學報,2022,29(8):43?48.
[7] 王欣剛.基于大數(shù)據(jù)分析的業(yè)務平安預警系統(tǒng)設計[J].播送與電視技術,2022,45(6):123?126.
[8] 梁耘,王維慶,王海云.基于分裂?合并策略改良多特征聚類算法的風電機組故障分析[J].可再生能源,2022,35(10):1537?1543.
[9] 鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡日志分析模型構建研究[J].電子設計工程,2022,25(23):97?100.
[10] 徐時芳,羅曉賓,陳陽華.基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)的設計與實現(xiàn)[J].現(xiàn)代電子技術,2022,41(20):172?174.
[11] 商娟葉.基于PSO的云計算環(huán)境中大數(shù)據(jù)優(yōu)化聚類算法[J].電子設計工程,2022,26(19):80?83.
[12] 趙睿,王慶嶺.基于大數(shù)據(jù)技術在線學習過程行為分析框架設計[J].蘭州石化職業(yè)技術學院學報,2022,17(4):15?18.
[13] 樊凌,龔偉.無線網(wǎng)絡MOOCs大數(shù)據(jù)聚類方法優(yōu)化研究[J].計算機仿真,2022,33(7):435?439.
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。