由于互聯(lián)網(wǎng)的不斷普及,各式各樣、良莠不齊的發(fā)布內容日漸泛濫,傳統(tǒng)、純粹的“人海”戰(zhàn)術已經(jīng)無法滿足當前互聯(lián)網(wǎng)媒體信息監(jiān)控工作的實際需求。不過基于互聯(lián)網(wǎng)媒體發(fā)布內容主動獲取、分析挖掘與表達呈現(xiàn)等系列技術開展互聯(lián)網(wǎng)論壇監(jiān)測工作,首先需要保證相關監(jiān)測產品對于目標站點發(fā)布數(shù)據(jù)的提取比率,即監(jiān)測產品信息提取部分的具體性能。
根據(jù)當前網(wǎng)絡監(jiān)管部門對于互聯(lián)網(wǎng)論壇監(jiān)護工作的實際應用需求,成熟的互聯(lián)網(wǎng)論壇監(jiān)控產品必須具備針對指定信息源的深度挖掘技術。所謂深度挖掘,并不是業(yè)已成熟的追求數(shù)據(jù)引用量的大搜索引擎信息采集技術,而是利用定向搜索手段完成針對指定信息源深入、全面地發(fā)布內容提取操作。
從整體框架結構角度,目前互聯(lián)網(wǎng)媒體可以劃分成匿名可瀏覽與需登錄瀏覽兩類;從發(fā)布頁面呈現(xiàn)風格角度,仍然屬于HTML范疇的互聯(lián)網(wǎng)論壇帖文發(fā)布頁面同樣包含靜態(tài)和動態(tài)兩類,其中動態(tài)生成的論壇帖文發(fā)布頁一般使用ASP、PHP與JSP等通用腳本語言予以實現(xiàn)。雖然匿名可瀏覽同時發(fā)布頁面屬于靜態(tài)類型的目標站點占到當前萬聯(lián)網(wǎng)媒體的絕對多數(shù),但是出于功能全面性與產品實用性等多方考慮,面向結構迥異、風格多樣的數(shù)據(jù)發(fā)布源實施互聯(lián)網(wǎng)媒體信息監(jiān)控工作,相關監(jiān)控產品信息提取部分還需具備相當高的普適性與可擴展性。
關于獲取信息分析挖掘與表達呈現(xiàn)方面,針對異構的互聯(lián)網(wǎng)媒體發(fā)布內容,論壇信息監(jiān)控工作在要求獲取內容統(tǒng)一存儲的同時,對于在海量的互聯(lián)網(wǎng)媒體信息中實現(xiàn)熱點自動發(fā)現(xiàn)的需求明確。一方面,異構信息歸一化存儲是后續(xù)各類信息處理工作的根本保證。另—方面,基于海量數(shù)據(jù)實現(xiàn)論壇熱點自動發(fā)現(xiàn),更有利于互聯(lián)網(wǎng)媒體監(jiān)控人員全面把握目標論壇輿情分布情況,跟蹤目標論壇潛在熱點,及時完成熱點發(fā)現(xiàn)及應對決策生成工作。
互聯(lián)網(wǎng)論壇信息監(jiān)控系統(tǒng)充分應用網(wǎng)絡協(xié)商與人機對話模擬等先進技術,基于專項研發(fā)的“定點網(wǎng)站深入發(fā)掘”機制,實現(xiàn)針對系統(tǒng)目標站點發(fā)布內容的全面獲取。在提取發(fā)帖作者、發(fā)帖時間、URL、標題等論壇帖文關鍵信息的基礎上,監(jiān)控系統(tǒng)對于每份帖子進行主題信息分析及內容快照。
監(jiān)控系統(tǒng)針對獲取內容關鍵信息開放單一和組合選項“與或”熱點查詢操作,最終呈現(xiàn)系統(tǒng)目標站點關于社會焦點更為全面的討論分布情況與話題具體內容。另一方面,監(jiān)控系統(tǒng)借助獲取內容主題信息提取操作,開放熱點數(shù)據(jù)報告定制功能。
文章來源:隨州網(wǎng)絡公司編輯整理,更多隨州網(wǎng)站建設新聞請參考:http://leathersectionalfurniture.com/