關(guān)鍵詞:文本復(fù)雜網(wǎng)絡(luò) 特征降維 pca 特征提取
摘要:【目的/意義】本文構(gòu)建一種'特征降維'文本復(fù)雜網(wǎng)絡(luò)進(jìn)行文本表示,解決傳統(tǒng)詞同現(xiàn)文本復(fù)雜網(wǎng)絡(luò)處理海量數(shù)據(jù)時(shí)的維數(shù)災(zāi)難與語義不足問題,再結(jié)合機(jī)器學(xué)習(xí)方法提升文本特征提取效果?!痉椒?過程】依據(jù)共現(xiàn)關(guān)系抽取二級(jí)詞條,再結(jié)合依存句法關(guān)系抽取三級(jí)詞條,構(gòu)建'特征降維'文本復(fù)雜網(wǎng)絡(luò),接著利用PCA算法和TOPSIS法評(píng)價(jià)網(wǎng)絡(luò)節(jié)點(diǎn)重要性提取反映文本主題的關(guān)鍵詞作為文本特征詞,實(shí)現(xiàn)文本特征提取?!窘Y(jié)果/結(jié)論】本文以網(wǎng)絡(luò)新聞數(shù)據(jù)為實(shí)驗(yàn)對(duì)象。實(shí)驗(yàn)結(jié)果表明,特征降維文本復(fù)雜網(wǎng)絡(luò)能較好地表示中文文本,并且在較好地保留了文本語義信息的同時(shí)有效減少網(wǎng)絡(luò)節(jié)點(diǎn)冗余,結(jié)合PCA算法的特征提取方法可以使文本分類性能提高。
情報(bào)科學(xué)雜志要求:
{1}摘要論文應(yīng)附有中英文摘要。摘要應(yīng)能客觀地反映論文主要內(nèi)容的信息,具有獨(dú)立性和自含性。一般不超過200字,以與正文不同的字體字號(hào)排在作者署名與關(guān)鍵詞之間。
{2}本刊提倡嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng),堅(jiān)持“百花齊放,百家爭(zhēng)鳴”的方針,堅(jiān)持相互尊重的自由討論。
{3}正文(包括圖、表)中的物理量和計(jì)量單位必須符合國(guó)家標(biāo)準(zhǔn)與國(guó)際標(biāo)準(zhǔn)。
{4}附錄內(nèi)容較少,與參考文獻(xiàn)排在同一頁;如出現(xiàn)內(nèi)容較多,則另起一頁。附錄的字體為12磅,Times New Roman字體,加粗。附錄內(nèi)容格式要求與正文一致。
{5}本刊用稿采取三審四校制。來稿應(yīng)包括題名、作者姓名、作者單位、中英文摘要與關(guān)鍵詞、主要作者簡(jiǎn)介、正文、參考文獻(xiàn)等。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社