信息內容安全管理及應用

所属分类:計算機理論、基礎知識  
出版时间:2010-7   出版时间:李翔、李生紅、劉功申、 等 機械工業出版社 (2010-07出版)   作者:李翔 等 著

  

前言

近年来发生了很多安全事件,例如美国9·11事件、伦敦公交系统连环爆炸案、巴厘岛恐怖袭击、印度孟买恐怖袭击等。灾难的发生促使大众开始重新审视社会各个方面的安全性和可靠性。在这种环境下,计算机被认为是解决此类安全问题的一个有力工具,例如,它被广泛用来收集和分析情报。美国政府在9·11事件后,建立了全球联网的指纹系统及日趋严格的出入境管理体系,以期建筑严密的恐怖袭击防控网络,尽管由于对恐怖活动的规律性还缺乏清晰的认识,这些网络暂时还未发挥出预警和防范恐怖袭击事件的作用。就计算机本身而言,无论从硬件到软件,还是从操作系统到数据管理系统,都存在严重的安全问题。网络所带来的计算机安全问题则更为严重。网络互连在方便信息传送的同时,也给连网计算机所保护的信息带来了威胁。除了基于网络和软硬件的安全问题以外,近几年来,互联网还暴露了其他的一些安全隐患,尤其是一些对于整个社会都起到负面影响的安全问题。最为引人注目的是,自2005以来爆发的多起“人肉搜索”等网络暴力事件,把互联网中内容安全问题暴露在公众眼前。事实上,网络“暴力”由来已久,互联网上公开的信息及越来越强大的搜索功能,使原本隐在角落的信息被“曝光”到大众视野内,一些本不构成隐私的信息在互联网上任意传播,并在引发网络上的语言暴力后,造成了严重的后果。还有数字信息的知识产权问题。由于数字信息复制及网络传播非常便利,造成信息自身具有的知识产权被有意或无意地侵犯。尽管在欧洲发生了几起因有意或无意的共享了具有知识产权歌曲而弓I发的多起诉讼和巨额的罚金,但法律毕竟是版权侵权的最后防范手段。目前,已经出现了在组织内部(局域网范围内)防范信息泄露的技术手段,尽管在整个互联网领域此类技术还很缺乏,但我们有理由相信计算机技术将能够起到更为重要的作用。以上是一些计算机安全中的新型问题,大多是公共或私有信息的内容所带来的风险。这些风险中,有些是商业风险,有些是个人或者组织的危机,有些是社会的安全风险。相比于传统的信息安全问题,例如通信安全、计算机安全等与计算机网络和软硬件设备关系紧密的安全问题不同,对此类风险的评估及加强安全的防护是新的一类信息安全问题,我们把它称为“信息内容安全”,或称为“内容安全”。本书是对此类问题的分析及相关技术的总结和介绍。

内容概要

  《信息內容安全管理及應用》從信息處理的基本理論開始講解,通過幾個具有代表性的信息內容安全應用實例,系統地介紹信息內容安全在目前的發展和現實水平。《信息內容安全管理及應用》共9章,主要內容包括互聯網信息內容獲取、文本特征的抽取、音頻和視頻特征抽取、信息處理模型和方法、分類算法、信息過濾、數字水印和輿情系統等。  《信息內容安全管理及應用》可作為高等院校信息安全相關專業信息內容安全課程的教材,也可作為從事信息內容安全工作的科技人員、工程技術人員以及其他相關部門人員的參考資料。

书籍目录

出版說明 前言 第1章 緒論 1 1.1 信息內容安全概述 1 1.2 信息內容安全威脅 2 1.3 信息內容安全特點及其與相關學科的聯系 2 1.4 信息內容安全研究現狀 3 1.4.1 政府部門主導的項目 3 1.4.2 科研院所或公司的項目與產品 4 1.5 信息內容安全研究的意義 4 1.6 本章小結 5 1.7 習題 5 第2章 網絡信息內容的獲取 6 2.1 互聯網信息類型 6 2.1.1 網絡媒體信息 6 2.1.2 網絡通信信息 8 2.2 網絡媒體信息獲取原理 8 2.2.1 網絡媒體信息獲取理想流程 8 2.2.2 網絡媒體信息獲取的分類 11 2.2.3 網絡媒體信息獲取的技術難點 13 2.3 網絡媒體信息獲取方法 13 2.3.1 需身份認證靜態媒體發布信息獲取 13 2.3.2 內嵌腳本語言片段的動態網頁信息獲取 17 2.3.3 基于瀏覽器模擬實現網絡媒體信息獲取 20 2.4 網絡通信信息獲取方案 24 2.5 本章小結 25 2.6 習題 25 第3章 文本信息的特征抽取和選擇 26 3.1 文本特征的抽取和選擇概述 26 3.2 語義特征的抽取 27 3.2.1 詞級別語義特征 27 3.2.2 亞詞級別語義特征 29 3.2.3 語義與語用級別語義特征 30 3.2.4 漢語的語義特征抽取 30 3.3 特征子集選擇 31 3.3.1 停用詞過濾 32 3.3.2 文檔頻率閾值法 33 3.3.3 TF-IDF 34 3.3.4 信噪比 34 3.3.5 信息增益 35 3.3.6 卡方統計 36 3.4 特征重構 36 3.4.1 詞干 36 3.4.2 知識庫 37 3.4.3 潛在語義索引 37 3.5 向量生成 40 3.5.1 局部系數 40 3.5.2 全局系數 41 3.5.3 規範化系數 41 3.5.4 幾種常見的組合方式 41 3.6 本章小結 42 3.7 習題 42 第4章 音頻信息特征抽取 43 4.1 數字音頻技術概述 43 4.2 人類的听覺感知 44 4.3 音頻信號分析和編碼 47 4.3.1 音頻信號的特征分析 47 4.3.2 音頻信號的數字編碼 48 4.3.3 數字音頻信號的解析 48 4.4 音頻信息特征抽取 49 4.4.1 基于幀的音頻特征 50 4.4.2 基于片段的音頻特征 51 4.5 本章小結 52 4.6 習題 53 第5章 圖像信息特征抽取 54 5.1 數字圖像的表示方法 54 5.2 圖像顏色特征提取 56 5.2.1 顏色直方圖特征 56 5.2.2 顏色聚合矢量特征 59 5.2.3 顏色矩特征 60 5.2.4 其他顏色特征 61 5.3 圖像紋理特征提取 61 5.3.1 灰度共生矩陣 61 5.3.2 Gabor小波特征 62 5.3.3 Tamura特征 63 5.3.4 紋理特征 64 5.4 其他圖像特征 64 5.4.1 邊緣特征 64 5.4.2 輪廓特征 65 5.5 本章小結 66 5.6 習題 66 第6章 信息處理模型和方法 67 6.1 文本模式匹配算法 67 6.1.1 經典單模式匹配算法 67 6.1.2 經典多模式DFSA匹配算法 71 6.2 分類算法 73 6.2.1 線性分類器 74 6.2.2 最近鄰分類法 75 6.2.3 支持向量機 76 6.2.4 傳統Bayes分類方法 78 6.2.5 向量空間模型法 79 6.3 本章小結 80 6.4 習題 81 第7章 信息過濾 82 7.1 信息過濾概述 82 7.1.1 信息過濾研究的歷史 83 7.1.2 信息過濾的分類體系 84 7.1.3 信息過濾的應用 86 7.1.4 信息過濾的評價 86 7.2 內容安全的信息過濾 87 7.2.1 信息過濾與其他信息處理的異同 87 7.2.2 用戶過濾和安全過濾 88 7.2.3 現有信息過濾系統及技術 90 7.3 基于匹配的文本過濾 92 7.3.1 特征字串匹配查全率估算 93 7.3.2 準確率估算試驗 94 7.4 基于鄰近類別分類的過濾 95 7.5 本章小結 96 7.6 習題 97 第8章 數字水印 98 8.1 數字水印概述 98 8.1.1 數字水印的歷史 98 8.1.2 數字水印的現狀 99 8.1.3 數字水印分類 101 8.1.4 數字水印基本要求 102 8.1.5 數字水印的應用領域 104 8.1.6 數字水印的發展趨勢 106 8.2 數字水印理論與模型 108 8.2.1 系統數學模型 108 8.2.2 數字水印的一般定義 108 8.2.3 數字水印的基本特性 109 8.2.4 數字水印與密碼學的區別 110 8.3 數字音頻水印技術 113 8.3.1 數字音頻水印算法 113 8.3.2 數字音頻水印攻擊 114 8.3.3 數字音頻水印算法評價準則 116 8.4 數字圖像水印技術 116 8.4.1 數字圖像水印算法 116 8.4.2 數字圖像水印攻擊 119 8.4.3 數字圖像水印評價準則 121 8.5 數字視頻水印技術 123 8.5.1 數字視頻水印算法 123 8.5.2 數字視頻水印攻擊 126 8.5.3 數字視頻水印技術的特殊要求 127 8.6 一種基于DCT視頻水印的改進算法 128 8.6.1 算法模型介紹 128 8.6.2 算法基本思想 129 8.6.3 嵌入算法步驟 129 8.6.4 提取算法步驟 130 8.6.5 仿真試驗分析 131 8.7 本章小結 136 8.8 習題 136 第9章 網絡輿情監測與預警系統 137 9.1 輿情系統的背景和應用範圍 137 9.1.1 現狀 137 9.1.2 輿情系統的發展趨勢 139 9.1.3 輿情系統的應用 142 9.2 輿情系統的功能分解 143 9.2.1 技術發展背景 143 9.2.2 高仿真網絡信息深度提取 148 9.2.3 高性能信息自動提取機器人技術 149 9.2.4 基于語義的海量文本特征快速提取與分類 150 9.2.5 多媒體群件理解技術 151 9.2.6 非結構信息自組織聚合表達 152 9.2.7 非結構信息數據挖掘技術 153 9.3 互聯網論壇信息分析 154 9.3.1 面向互聯網論壇的定點網站深入挖掘機制 155 9.3.2 異構數據歸一化存儲與目標站點熱點查詢 156 9.3.3 監控目標熱點自動發現功能 156 9.4 本章小結 157 9.5 習題 157 參考文獻 158

章节摘录

插圖︰多詞級別中一種思路是應用名詞短語作為特征項,這種方法也稱為Syntactic Phrase Indexing。另外一種策略則是不考慮詞性,只從統計角度根據詞之間較高的同現頻率(Co-Occur Frequency)來選取特征項。采用名詞短語或者同現高頻詞作為特征項,需要考慮特征空間的稀疏性問題,詞與詞可能的組合結果很多,下面僅以兩個詞的組合為例進行介紹,根據統計,一個網絡信息檢索原型系統包含的兩詞特征項就達10億項,而且許多詞之間的搭配是沒有語義的,絕大多數組合在實際文本中出現頻率很低,這些都是影響多詞級別索引實用性的因素。3.2.3語義與語甩級別語義特征如果我們能獲得更高語義層次的處理能力,例如實現語義級別(Semantic Level)或語用級別(Pragmatic Level)的理解,則可以提供更強的文本表示能力,進而得到更理想的文本分類效果。然而在目前階段,由于還無法通過自然語言理解技術實現對開放文本理想的語義或語用理解,因此相應的索引技術並沒有前面的幾種方法應用廣泛,往往應用在受限領域。在自然語言理解等研究領域取得突破以後,語義級別甚至更高層次的文本索引方法將會有更好的實用性。3.2.4 漢語的語義特征抽取1.漢語分詞漢語是一種孤立語,不同于印歐語系的很多具有曲折變化的語言,漢語的詞匯只有一種形式而沒有諸如復數等變化。另一方面,漢語不存在顯式(類似空格)的詞邊界標志,因此需要研究中文(漢語和中文對應的概念不完全一致,在不引起混淆的情況下,文本未進行明確區分而依照常用習慣選擇使用)文本自動切分為詞序列的中文分詞技術。中文分詞方法最早采用了最大匹配法,即與詞表中最長的詞優先匹配的方法。根據掃描語句的方向,可以分為正向最大匹配(Maximum Match,MM)、反向最大匹配(Reverse Maximum Match,RMM),以及雙向最大匹配(MM))等多種形式。

编辑推荐

《信息內容安全管理及應用》︰信息采集的原理及方法文本、圖像、視音頻的特征提取技術面向內容安全的分類原理有方法內容安全的典型應用案例

图书封面




    信息內容安全管理及應用下載



用户评论 (总计0条)

 
 

 

計算機與互聯網 PDF免费下载,計算機理論、基礎知識PDF免费下载。 计算机教程网 

计算机教程网 @ 2017