關(guān)鍵詞:webcollector elasticsearch 敏感詞檢測(cè) 爬蟲 搜索引擎
摘要:在高校信息化建設(shè)過程中,建設(shè)了大量的網(wǎng)站,這些網(wǎng)站的信息和展示的內(nèi)容很可能含有國家法律禁止或者學(xué)校規(guī)定禁止的敏感詞匯,針對(duì)從海量的網(wǎng)站信息中定位到敏感詞匯的目的,本文采用了文獻(xiàn)研究法、個(gè)案研究法及實(shí)證研究法,通過研究相關(guān)材料文獻(xiàn)和技術(shù)文檔,研究相關(guān)系統(tǒng)設(shè)計(jì)案例,結(jié)合實(shí)際情況設(shè)計(jì)和實(shí)現(xiàn)一個(gè)能運(yùn)行的系統(tǒng),得出基于Webcollector爬蟲框架和ElasticSearch搜索引擎設(shè)計(jì)和實(shí)現(xiàn)網(wǎng)站群敏感詞檢測(cè)系統(tǒng)的可行性。
電子設(shè)計(jì)工程雜志要求:
{1}摘要直接概括論文的學(xué)術(shù)觀點(diǎn)和結(jié)論,一般不超過300字。
{2}來稿應(yīng)具有原創(chuàng)性,內(nèi)容符合本單位保密規(guī)定。論文的主要研究工作應(yīng)由作者獨(dú)立完成,引用他人成果時(shí),須按《著作權(quán)法》中的有關(guān)規(guī)定標(biāo)明其出處,由此引發(fā)的一切著作權(quán)責(zé)任由作者自負(fù)。
{3}本刊對(duì)來稿保留修改權(quán),不同意者請(qǐng)預(yù)先聲明。
{4}參考文獻(xiàn)按引文先后在文中標(biāo)出序號(hào),并與文后參考文獻(xiàn)序號(hào)一致,參考文獻(xiàn)著錄項(xiàng)目要齊全。
{5}靜態(tài)圖:圖或照片應(yīng)另附于文后,分別按其在正文中出現(xiàn)的先后次序連續(xù)編碼。圖題和圖說明應(yīng)簡潔明確,具有自明性。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社