第3章 支援信息戰(zhàn)的社交媒體分析方法
在上一章中,為研究社交媒體分析應(yīng)用于信息戰(zhàn)的潛在利益,我們提出了一個(gè)基于IRC的框架。在本章中,我們進(jìn)行一些更具體的描述:采用方法學(xué)的方法去檢測公眾對(duì)極端組織宣傳的接受程度;確定文化或區(qū)域關(guān)注的熱點(diǎn)以分析消息轉(zhuǎn)發(fā)策略;解決其他信息戰(zhàn)問題。本章并不專注于特定的技術(shù)或算法,有關(guān)這些特定技術(shù)或算法的討論很快會(huì)變得過時(shí)。相反,我們探索使用一些有前景的方式,在一個(gè)熟悉的框架內(nèi)解決常見的信息戰(zhàn)挑戰(zhàn)性問題。例如,類似Clauset-Newman Moore算法的社區(qū)檢測算法,可能會(huì)被更優(yōu)秀的算法所取代,但是識(shí)別和分析一個(gè)社交網(wǎng)絡(luò)中的群體這個(gè)需求是一直會(huì)有的。
本章中研究的概念和方法對(duì)國防部可能有巨大的潛在價(jià)值,對(duì)于信息戰(zhàn)來說,社交媒體無疑是重要的數(shù)據(jù)來源。然而,對(duì)于社交媒體平臺(tái)和分析工具的使用也有一些局限:
?社交媒體普及率在世界各地是不同的,這反映在某一既定任務(wù)區(qū)域中可用于分析的數(shù)據(jù)量(以及它們的適用性)。
?社交媒體數(shù)據(jù)不具有廣泛的代表性。社交媒體的參與者都是自選擇的,因此,他們共享的數(shù)據(jù)會(huì)自然而然地朝網(wǎng)絡(luò)媒體參與者群體傾斜。
例如,對(duì)社交媒體中共享的照片集的自動(dòng)圖像分類結(jié)果數(shù)據(jù)進(jìn)行分析,可以揭示什么樣的人群想法子集是值得分享的。
下面提到的若干分析方法并不詳盡,但它們顯示了所有可能的分析方法的大致范圍,并說明了綜合使用多個(gè)分析方法所產(chǎn)生的效益。大多數(shù)的方法使用文本分析(反映了社交媒體中基于文本的數(shù)據(jù)的豐富性),我們也介紹了包括網(wǎng)絡(luò)、地理空間和圖像分析方面的實(shí)例。
本章涉及的方法論概念主要包括以下內(nèi)容:
?社交網(wǎng)絡(luò)分析。社交網(wǎng)絡(luò)分析(SNA),它包括社交結(jié)構(gòu)的識(shí)別和可視化,涉及到心理學(xué)、人類學(xué)、數(shù)學(xué)中的圖論等方面的知識(shí)。它涵蓋了在海量的社交媒體數(shù)據(jù)集中自動(dòng)檢測社區(qū)的算法。
?公眾分析。公眾分析是公眾說服分析的一部分:對(duì)有倡導(dǎo)權(quán)益的人的一種抽象,這些人使用共享的語言來解決一個(gè)常見的問題。美國步槍協(xié)會(huì)就是與倡導(dǎo)有關(guān)的組織的一個(gè)真實(shí)例子,然而使用相同語言且以私人持有武器合法化為共同目標(biāo)的公眾,則是一個(gè)更大的抽象。那些尋求限制武器私有化的反對(duì)派,同樣比任何正式的游說組織要大。這類分析專注于那些關(guān)注某些問題并使用共同的論述來影響辯論的人。
?詞法分析。文本分析方法起源于語料庫語言學(xué)研究3。詞法分析使用統(tǒng)計(jì)檢測計(jì)算單詞的頻率、單詞的距離及其它特性,以檢測文本數(shù)據(jù)結(jié)構(gòu)和模式。它最常用于通過顯而易見的文本及單詞聯(lián)系,以經(jīng)驗(yàn)推斷一個(gè)文本集是在說什么。
注釋3:語料庫語言學(xué)是語言學(xué)的一個(gè)分支學(xué)科,其特征在于基于海量文本數(shù)據(jù)集(語料庫)的實(shí)證研究。由于語料庫語言學(xué)是基于機(jī)器的,它缺乏人工分析的上下文敏感性和精度,但人工分析不能達(dá)到其可擴(kuò)展性和可靠性。
?立場分析。作為一種更復(fù)雜和更精細(xì)化的情感分析方法,立場分析重點(diǎn)檢查單詞和短語的頻率(比如憤怒、悲哀、未來、過去、確定、不確定等)。它有益于回答有關(guān)態(tài)度、情感和價(jià)值的社會(huì)文化問題。
?地理定位和地理推理。是兩種地理特定的方法,用于判定一條社交媒體消息的地理源點(diǎn)。地理定位使用GPS戳并且相當(dāng)精確,但是用戶常常關(guān)閉這項(xiàng)功能。地理推理可以基于元數(shù)據(jù)捕獲大量的數(shù)據(jù)樣本,用于推斷發(fā)帖者的地理位置,其中一些方法具有相當(dāng)高的精度水準(zhǔn)。
?深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)(DNNs)通過將復(fù)雜的抽象任務(wù)分解簡化為不同層次,使機(jī)器能夠?qū)W習(xí)分類任務(wù)。例如,盡管人可能通過觀看一張圖片從整體上識(shí)別一輛坦克,但DNN圖像分類器可以通過編程來區(qū)分不同的金屬質(zhì)感、胎面形狀、主炮形狀、低反射值,以及其它因素來描繪一輛“坦克”,并且具有一定的準(zhǔn)確度。人類分析師可能需要花費(fèi)一年的時(shí)間搜索成千上萬的圖片,以一個(gè)具有強(qiáng)大計(jì)算能力的、經(jīng)過良好訓(xùn)練的DNN模型來代替,則只需要幾天時(shí)間就能對(duì)同一組圖像進(jìn)行分類。
盡管社交媒體數(shù)據(jù)越來越多地包括圖像、聲音和視頻,文本數(shù)據(jù)仍然占主導(dǎo)地位。在下面的章節(jié)中,我們回顧各種社交媒體分析方法,尤其是文本數(shù)據(jù),這些方法在解決信息戰(zhàn)的問題時(shí)有非常實(shí)際的應(yīng)用價(jià)值。表3-1總結(jié)了本章中介紹的以及應(yīng)用范例中涉及到的幾類分析方法。
雖然本章主要側(cè)重于分析方法,我們注意到描述性工作的價(jià)值,它可以為推理提供重要的啟示。本節(jié)詳細(xì)描述了表征極端分子網(wǎng)絡(luò)的方法——具體而言,網(wǎng)絡(luò)成員中那些積極參與支持活動(dòng)的人4。該示例的目的是刻畫誰是在推特上積極支持ISIL的人,但是這種方法也可以適用于其他網(wǎng)絡(luò)組織或者其他為社交網(wǎng)絡(luò)分析(SNA)提供數(shù)據(jù)的社交媒體平臺(tái)。
注釋4:各類不同的分析方法對(duì)于檢測網(wǎng)絡(luò)群體在社交媒體平臺(tái)上的一般對(duì)話都是有用的。
表3-1一些支持信息戰(zhàn)的社交媒體數(shù)據(jù)分析方法
在該示例方法中,現(xiàn)有的ISIL支持者被用于確定其他支持者。結(jié)果是一個(gè)相當(dāng)大的數(shù)據(jù)集,在推特上有100萬至135萬的ISIL的積極支持者。識(shí)別網(wǎng)絡(luò)成員是一個(gè)三步驟的過程,結(jié)合了可擴(kuò)展的機(jī)器方法和有人監(jiān)督的隨機(jī)取樣檢查方法,以保證識(shí)別的精確性。
分析過程的第一步是手動(dòng)培育一個(gè)已知的在推持上活躍的極端分子成員的種子列表。即使對(duì)專家來說,這也是一個(gè)勞動(dòng)密集型的工作過程(一個(gè)兩人團(tuán)隊(duì),通常需要數(shù)月時(shí)間)。在對(duì)推特活躍用戶當(dāng)中對(duì)極端組織有明確的積極支持傾向的帳戶進(jìn)行手工搜索時(shí),研究人員發(fā)現(xiàn)了424個(gè)活躍的ISIL的支持者帳戶——或者稱為網(wǎng)絡(luò)模型中的0級(jí)帳戶。
第二步是從種子列表開始,使用匹配的網(wǎng)絡(luò)連接來推斷其他支持者。不像基于內(nèi)容來識(shí)別關(guān)系的其他方法(參見下一節(jié),“公眾分析:在社交媒體上映射論證空間”),在這里,聯(lián)系的方向很重要。設(shè)想一下一組推特用戶評(píng)論一個(gè)受歡迎的電視節(jié)目的情景,參與者可能包括演員、制作人員、演播室代表、記者以及粉絲。如果我們已經(jīng)分辨節(jié)目網(wǎng)絡(luò)的全部成員——明星、編劇、導(dǎo)演等——我們就有可能通過對(duì)談?wù)撛摴?jié)目的用戶進(jìn)行研究,分析他們的聯(lián)接方向,推斷其他可能的用戶:明星可能有很多很多的關(guān)注者(大部分是粉絲),這些人并不直接和節(jié)目有關(guān),但是明星所關(guān)注的人則很有可能與節(jié)目有關(guān)。
因此,以極端分子網(wǎng)絡(luò)為例,忽略那些關(guān)注0級(jí)種子成員的人,轉(zhuǎn)而重點(diǎn)識(shí)別那些0級(jí)種子成員所關(guān)注的用戶,則可能獲得相關(guān)網(wǎng)絡(luò)成員(1級(jí))的更準(zhǔn)確的圖像。在這一例子中,過濾掉嫌疑的機(jī)器人和病毒帳戶后,經(jīng)過第一步分析之后得到的網(wǎng)絡(luò)組織成員大約有43000人左右。但是,當(dāng)然不是所有的被0級(jí)成員所關(guān)注的人都是ISIL的推特支持者,需要進(jìn)一步剔除。
第三步,鑒別誰是積極支持ISIL的網(wǎng)絡(luò)用戶的第三步,是要基于他們?cè)谕铺厣瞎_的同ISIL的聯(lián)系、以及他們?cè)诰W(wǎng)絡(luò)小圈子和網(wǎng)內(nèi)焦點(diǎn)的活躍程度,對(duì)他們進(jìn)行排序。在網(wǎng)絡(luò)分析中,這幾個(gè)概念定義如下:
?圈子(Cliques)是一個(gè)網(wǎng)內(nèi)的子結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)都連接到其他節(jié)點(diǎn)。設(shè)想一個(gè)大型的“新英格蘭愛國者”的支持者網(wǎng)絡(luò),在該網(wǎng)絡(luò)結(jié)構(gòu)中,你可以發(fā)現(xiàn)很多小的“圈子”——在這種更小的組織中,每個(gè)人都會(huì)認(rèn)識(shí)另外的任何一個(gè)人。這可能是在波士頓以鄰居形成的緊密的朋友圈,或者雖然他們從沒有互相見過面,但通過在線互動(dòng)而相互非常了解對(duì)方。重要的是網(wǎng)絡(luò)中圈子的度,這能夠幫助鑒別網(wǎng)絡(luò)中的成員關(guān)系。
?網(wǎng)內(nèi)聚焦是指網(wǎng)內(nèi)的聯(lián)系多過網(wǎng)外聯(lián)系(與組織外的用戶交互)的發(fā)展趨勢。以足球?yàn)槔?,“新英格蘭愛國者”的非正式的粉絲都會(huì)有一些網(wǎng)內(nèi)的聯(lián)系,但是如果某個(gè)人的網(wǎng)絡(luò)聯(lián)接比率開始傾斜——如果一個(gè)用戶主要是指向網(wǎng)內(nèi)——這表示會(huì)員身份的增強(qiáng)。
對(duì)43000第1級(jí)別的帳戶進(jìn)行分類,在識(shí)別支持者時(shí),結(jié)合使用多種度量比使用單一度量有效得多。在分析員抽查時(shí),這種方法對(duì)數(shù)據(jù)集中前20000個(gè)帳戶的精度非常高,但是當(dāng)超過30000個(gè)帳戶時(shí),精度會(huì)快速地下降到48%。所以,在這個(gè)例子中,研究人員能夠描述一個(gè)包含20000人的活躍的ISIL支持者大型網(wǎng)絡(luò)的人口統(tǒng)計(jì)資料和活動(dòng),并能高度保證數(shù)據(jù)集是精準(zhǔn)的5。
注釋5:在這種情況下,更大規(guī)模的n-步分析是可能的——例如,在1級(jí)用戶之外采用一個(gè)附加步驟,檢查他們使用可擴(kuò)展方法(如機(jī)器學(xué)習(xí))的情況,從活躍的支持者中篩選更大的網(wǎng)絡(luò)。
除了描述像ISIL極端組織的社交網(wǎng)絡(luò),SNA(社交網(wǎng)絡(luò)分析)和詞法分析的組合使用還可以用來表征ISIL在社交媒體上的意識(shí)形態(tài)斗爭6。該方法使用社區(qū)檢測算法來識(shí)別所涉及的群體,并使用詞法分析來表征這些社區(qū)。這種方法不僅能直觀的呈現(xiàn)誰在跟誰說話,而且能知道他們?cè)谡f(關(guān)心)什么。其結(jié)果就是圍繞ISIL的討論空間的社交媒體圖。圖3-1顯示了通過研究發(fā)現(xiàn)的頂級(jí)集合群落圖,以及它們之間相互聯(lián)接的密度和方向。
注釋6:這項(xiàng)研究的規(guī)模說明了為什么計(jì)算機(jī)分析對(duì)信息戰(zhàn),以及從更廣的意義上說對(duì)社交媒體數(shù)據(jù)搜集是至關(guān)重要的:源于771371個(gè)推特用戶帳戶的2300萬條微博信息。
圖3-1經(jīng)過兩步創(chuàng)建。社區(qū)檢測揭示了網(wǎng)絡(luò)結(jié)構(gòu),基于每一社區(qū)內(nèi)容的詞法分析描述了用戶組織的特征——特別是從人口統(tǒng)計(jì)學(xué)的角度來看他們是誰,以及他們關(guān)心什么。
圖3-1 推特中支持和反對(duì)ISIL的集合群落
注:箭頭的粗細(xì)表示集合群落之間的連接強(qiáng)度相較于社區(qū)規(guī)模的高低。節(jié)點(diǎn)大小代表社區(qū)的大小。紅色節(jié)點(diǎn)表示遜尼派集合群落的成員。由于資源的限制,不是所有的社區(qū)都能用詞法分析檢測到;沒檢測到的社區(qū)沒有給出標(biāo)簽。
MC:集合群落;GCC:海灣合作委員會(huì)(Gulf Cooperation Council);Shia=Shiah:什葉(派);Mujahideen:圣戰(zhàn)(者);ISIL:伊拉克和黎凡特伊斯蘭國(Islamic State of Iraq and the Levant);ISIS:伊拉克和大敘利亞伊斯蘭國(Islamic State of Iraq and al Shams)。
這種方法的第一步是搜集關(guān)于某一個(gè)問題或某一利益團(tuán)體的社交媒體數(shù)據(jù)——在本例中,有超過2300萬的推特帖子來自于77萬多的ISIL支持者和反對(duì)者。領(lǐng)域?qū)<覍?duì)搜索ISIL可能的支持者或反對(duì)者提出了相關(guān)的搜索詞語建議:搜索短語和標(biāo)簽變體都包括阿拉伯語的“達(dá)伊沙(Daesh,伊斯蘭國)”和“伊斯蘭哈里發(fā)(Islamic Caliphate)”。
因此領(lǐng)域?qū)<业闹庇X就是通過機(jī)器閱讀實(shí)現(xiàn)機(jī)器驗(yàn)證——將詞法分析技術(shù)應(yīng)用于收集的數(shù)據(jù),然后確認(rèn)對(duì)使用“達(dá)伊沙”和使用“伊斯蘭哈里發(fā)”的不同網(wǎng)絡(luò)社區(qū)的區(qū)分是否準(zhǔn)確地分辨出反對(duì)者和支持者(下一節(jié)詳細(xì)描述)。在這種情況下,主要的測試都表明,事實(shí)上使用“達(dá)伊沙”的社區(qū)同樣會(huì)使用貶義詞稱呼ISIL(如“哈里哲派(Kharijites,出走派)”,一個(gè)對(duì)主流伊斯蘭教的古老反對(duì)派的稱謂),同時(shí)使用尊敬的詞語稱呼阿拉伯國家和西方世界(如“國際聯(lián)盟”)7。使用“哈里發(fā)”的網(wǎng)絡(luò)社區(qū)使用敬語稱呼ISIL(如“伊斯蘭國的獅子”),使用貶損的稱謂指代阿拉伯國家(如稱呼阿拉伯國家“叛教者(apostates)”,稱呼西方國家“十字軍(crusaders)”等)。這一分析過程是一類非常有效的檢驗(yàn)措施,意味著這些搜索詞可以作為非常有用的判別參數(shù):一個(gè)詞語對(duì)另一個(gè)詞語在使用方面具有壓倒優(yōu)勢,據(jù)此能夠有效地分辨一個(gè)用戶對(duì)ISIL的態(tài)度。
注釋7:關(guān)鍵測試涉及某些詞語的發(fā)現(xiàn)頻率的測試和統(tǒng)計(jì)重要性的檢測。預(yù)期的詞頻可以使用通用標(biāo)準(zhǔn)檢測(例如有代表性的單語種的語料庫,如開源阿拉伯語語料庫),或者使用特殊標(biāo)準(zhǔn)檢測(例如,針對(duì)一般社交媒體交流,每天進(jìn)行廣泛的搜集)。有關(guān)這些技術(shù)的其他背景,參見Scott(2001)。
一旦將社區(qū)檢測算法應(yīng)用于社交媒體數(shù)據(jù),這種詞法驗(yàn)證將為下一步的重要過程創(chuàng)造條件。推特?cái)?shù)據(jù)(或者其他相似平臺(tái)的數(shù)據(jù),如新浪微博)對(duì)社交媒體分析工作來說是能夠不斷修正和完善的,因?yàn)橄窕靥⒁煤娃D(zhuǎn)發(fā)等操作都標(biāo)記了網(wǎng)絡(luò)交互行為。通過描述和分析這些網(wǎng)絡(luò)交互,一種網(wǎng)絡(luò)社區(qū)檢測算法能夠快速地對(duì)用戶進(jìn)行分組,將其歸并到互聯(lián)的結(jié)構(gòu)中,但是不能對(duì)他們命名,也不能描述他們的特征。該算法只能簡單地發(fā)現(xiàn)社區(qū)1、社區(qū)2,等等。但是“達(dá)伊沙”和“哈里發(fā)”等判決詞能很快標(biāo)記出每個(gè)社區(qū)是支持還是反對(duì)ISIL的,并將支持者歸并到同一組。
雖然社交網(wǎng)絡(luò)分析用于分析網(wǎng)絡(luò)社區(qū)以及它們之間的交互關(guān)系——“達(dá)伊沙”和“哈里發(fā)”等判決詞用于顯示“支持”或“反對(duì)”的立場——從信息戰(zhàn)的角度看,網(wǎng)絡(luò)社區(qū)關(guān)系圖仍是空白,沒有標(biāo)識(shí)。不理解對(duì)于ISIL持不同立場的各方的特點(diǎn)及關(guān)心的問題,就沒有可行的途徑去影響它們彼此之間的對(duì)話協(xié)商。
一個(gè)突出的問題是,相對(duì)于人的分析能力,推特的微博數(shù)據(jù)池過于龐大。在可擴(kuò)展性之外,人類的可靠性和偏見等特征仍是分析工作的一個(gè)問題??蓴U(kuò)展的、可靠地表征這些社區(qū)需要對(duì)檢測到的社區(qū)的推特內(nèi)容進(jìn)行機(jī)器分析。一種解決方案是源于語料庫語言學(xué)的基于機(jī)器的分析方法(詞法分析)。詞法分析取決于字頻或字距的統(tǒng)計(jì)測試,該方法能顯示文本數(shù)據(jù)的結(jié)構(gòu)。在本例中,對(duì)文本數(shù)據(jù)使用了兩種方法:關(guān)鍵字測試和組合測試。關(guān)鍵字識(shí)別從統(tǒng)計(jì)角度描述了一個(gè)文本數(shù)據(jù)集中詞語,并展示出所收集的文本數(shù)據(jù)的主要內(nèi)容。因?yàn)殛P(guān)鍵字加權(quán)由它們的統(tǒng)計(jì)異常情況決定,所以關(guān)鍵詞測試在弱信號(hào)檢測時(shí)具有更高的判決能力。與關(guān)鍵詞不同,搭配詞在統(tǒng)計(jì)上非常顯眼,因?yàn)樗鼈儽硎玖斯餐霈F(xiàn)的詞語,這些組合詞往往就勾勒出了文本的大意8。
注釋8:比如,地名(“紐約”),人名(“奧巴馬總統(tǒng)”),以及抽象概念(“禁槍”)等。
對(duì)于統(tǒng)計(jì)頻率很高的關(guān)鍵詞及強(qiáng)相關(guān)的組合詞的自動(dòng)識(shí)別,使得被檢測的網(wǎng)絡(luò)社區(qū)表征為一個(gè)公眾:使用共享語言討論一個(gè)公共的問題,并持擁護(hù)立場的人們的抽象。舉一個(gè)美國大眾都熟悉的例子,設(shè)想一個(gè)禁槍的話題。一方面,美國全國步槍協(xié)會(huì)是一個(gè)持擁護(hù)立場的現(xiàn)實(shí)世界的組織實(shí)例,但是使用共享語言且致力于將私人擁有武器合法化這一共同目標(biāo)的公眾則是一個(gè)更大的抽象。尋求限制武器私有化的持反對(duì)立場的公眾也要比任何官方游說組織要大:這是一個(gè)關(guān)心某個(gè)問題并使用共同的公開信息來影響辯論的公眾組織。
回到我們最初在推特上識(shí)別ISIL支持者的例子,社交網(wǎng)絡(luò)分析顯示有4個(gè)大的集合群落,對(duì)它們使用詞法分析可以定性為元公眾。一個(gè)社區(qū)可以通過關(guān)鍵詞及其他組合詞來聯(lián)合標(biāo)注,如沙特的關(guān)注(包括沙特民族主義),對(duì)ISIL的世俗或宗教的貶義用語(恐怖主義分子,犯罪和罪孽,逐出教會(huì),混亂等),以及對(duì)宗教內(nèi)涵的褒義詞(贊美,榮譽(yù),真理,愛等)。這里的一個(gè)關(guān)鍵環(huán)節(jié)是,一個(gè)使用詞法分析軟件的分析師,能夠替代一整個(gè)閱讀數(shù)百萬推特帖子的分析師團(tuán)隊(duì),他能夠識(shí)別識(shí)別上百個(gè)統(tǒng)計(jì)上異常的詞語和短語來表征一個(gè)社區(qū)為公眾社區(qū)。以下是本例中發(fā)現(xiàn)的4個(gè)大型的網(wǎng)絡(luò)公共社區(qū):
?遜尼派ISIL對(duì)手(一些支持者)
?什葉派ISIL對(duì)手
?ISIL支持者
?敘利亞圣戰(zhàn)者組織(對(duì)ISIL懷有多種復(fù)雜態(tài)度)。
社交網(wǎng)絡(luò)分析和詞法分析一起使用能夠支持更細(xì)粒度的分析,為面向影響特定公眾群體的貌似真實(shí)的消息傳播提供經(jīng)驗(yàn)基礎(chǔ)。表3-2顯示了使用“遜尼元公眾號(hào)”識(shí)別出來的個(gè)體公眾社區(qū)(特別是以國籍身份和以所關(guān)注話題組織起來的社區(qū)),以及每個(gè)社區(qū)的關(guān)注點(diǎn)和興趣話題。
每個(gè)公共社區(qū)的話題和關(guān)注點(diǎn)為可能真實(shí)的消息傳送策略及有針對(duì)性的社區(qū)成員宣傳策略提供了經(jīng)驗(yàn)基礎(chǔ)。在這里,我們重點(diǎn)強(qiáng)調(diào)該方法的可擴(kuò)展性和誘導(dǎo)價(jià)值。這是一個(gè)分析師數(shù)天的工作量,而不是一個(gè)團(tuán)隊(duì)花費(fèi)數(shù)月去閱讀成千上萬條的推特貼子。而且由于分析工作完全依賴于用戶所產(chǎn)生的社交媒體數(shù)據(jù),反映美國文化假設(shè)和優(yōu)先的要旨難以有植入的機(jī)會(huì),因此更加客觀公正,分析工作可以在一個(gè)合適的粒度層面上來完成。
表3-2 推特中遜尼派公眾對(duì)ISIL的反對(duì)/支持分析
來源:蘭德公司針對(duì)推特2014年7月至2015年5月數(shù)據(jù)的分析。
本節(jié)詳細(xì)介紹針對(duì)一個(gè)網(wǎng)絡(luò)集團(tuán)在某一合適的地理粒度上對(duì)消息隨時(shí)間推移的傳播接受情況的跟蹤方法。這里提及的概念驗(yàn)證研究主要用于跟蹤2014年埃及ISIL和穆斯林兄弟會(huì)成員中世界觀相關(guān)的信息傳播和接受情況。該方法有巨大的潛力來衡量有效性,包括友好消息傳輸方面的工作。
該方法的基礎(chǔ)是語言和世界觀之間不可分割的關(guān)系,語言反映了世界觀,反之,世界觀也通過語言塑造。在爭議性議題的語言表達(dá)上,我們可以很清楚地看到這種關(guān)系。在論述某一特定話題過程中一直使用的詞匯不是簡單地反映意識(shí)形態(tài);它們的使用同樣有助于通過包裝世界性問題和事件來促進(jìn)意識(shí)形態(tài)的流通和傳播。因?yàn)槿绻覀兡軌驅(qū)姷挠懻撛跀?shù)量方面建模,我們就能夠跟蹤通過語言表達(dá)的世界觀的接受情況。
該方法的第一步是建立一個(gè)面向公眾談話的加權(quán)語言模型。在這個(gè)例子中,它是一個(gè)極端組織,但它可能只是一條戰(zhàn)斗命令和這條命令的區(qū)域傳播。在這個(gè)概念驗(yàn)證例子中,分析師從ISIL和穆斯林兄弟會(huì)(每個(gè)組織約30000詞匯)的公開談話中搜集數(shù)據(jù),然后使用關(guān)鍵詞和詞語組合對(duì)數(shù)據(jù)集進(jìn)行測試。這樣每一個(gè)集團(tuán)就會(huì)產(chǎn)生基于大約100個(gè)左右的統(tǒng)計(jì)關(guān)鍵詞和20個(gè)左右的雙詞組合的語言模型。為了幫助對(duì)我們所指的加權(quán)語言模型進(jìn)行概念化描述,表3-3給出了一些關(guān)鍵詞示例、對(duì)數(shù)相似度以及每個(gè)單詞的英語翻譯。
在這個(gè)特殊的測試中,對(duì)數(shù)相似度大于11表示很重要。在表3-3中,某些詞如伊拉克(Iraq)或沙姆(Sham)的兩位數(shù)的值表示它們被大量使用,并且能夠被檢測到,而數(shù)百的對(duì)數(shù)相似度(如拉菲達(dá)(Rafidhi))則是非常強(qiáng)的語義信號(hào),表示整篇文本主要描述的內(nèi)容。超過1000的分?jǐn)?shù)顯示了高度專業(yè)化的談話,是一個(gè)標(biāo)志性的信號(hào):在努力理解ISIL交流信息的時(shí)候,從定性分析的角度看,像薩法維(Safavid)這樣的詞語可能不是一個(gè)頂級(jí)話題,但是從檢測弱信號(hào)(如效果和影響)的經(jīng)驗(yàn)角度看,這樣一個(gè)出乎意料的高頻詞應(yīng)該是一個(gè)強(qiáng)有力的分析抓手。
表3-3 ISIL和穆斯林兄弟會(huì)關(guān)鍵詞示例,對(duì)數(shù)相似度排序
注:對(duì)于對(duì)數(shù)相似度,臨界值是10.83(0.01%,p<0.001)。在這個(gè)例子中,最小頻率是20。為了解釋本表中的對(duì)數(shù)似然(LL)值,我們?cè)O(shè)想LL>11表示統(tǒng)計(jì)重要,11和1000之間表示極高級(jí)別的關(guān)鍵程度(高點(diǎn)位的談話),分值大于1000表示指向極端專業(yè)化談話的關(guān)鍵詞。
有了信號(hào)模型的幫助——針對(duì)薩法維集團(tuán)(Safafist groups)談話信息的定量加權(quán)模型,下一步是檢測模型和公眾談話內(nèi)容的一致程度:這些集團(tuán)在傳播他們的信息方面是得勢還是失勢。
給定一個(gè)極端組織的談話的語言模型,有可能看到普通人群中的社交媒體用戶和談話內(nèi)容的匹配程度——定量匹配出一個(gè)網(wǎng)絡(luò)群體的話語在整個(gè)話語市場的共享程度。設(shè)想一下在私人擁有槍支這個(gè)問題上對(duì)美國東北部的社交媒體進(jìn)行監(jiān)控。
每一季度,針對(duì)以下詞語的使用都在不斷增加,例如:大規(guī)模射殺、無謂殺戮、無辜等,而以下詞語則使用較少,如:負(fù)責(zé)任的所有權(quán)、第2修正案權(quán)利、犯罪等字眼。這強(qiáng)有力的表明了有一方在公眾輿論中正得勢,至少能從中知道這個(gè)討論是關(guān)于槍支危險(xiǎn)的,而不是關(guān)于公民自由的9。一般的分析過程如下:
注釋9:我們注意到這種方法不能讓我們回答為什么會(huì)發(fā)生這種改變,只能讓我們看到發(fā)生了改變。如果要了解其中的因果關(guān)系則需要其他方法。
?從一個(gè)有意義的地理人口中搜集社交媒體數(shù)據(jù)。在我們的主要案例中,數(shù)據(jù)源主要來自2014年埃及四個(gè)區(qū)域的推特?cái)?shù)據(jù):西奈、亞歷山大及濱海地區(qū)、上埃及、開羅和尼羅河三角洲。在該例中,在對(duì)用戶所在區(qū)域進(jìn)行地理推斷時(shí)既使用了城市名稱也使用了省的名稱,這使得數(shù)據(jù)量翻了一番,但是,當(dāng)回查地理標(biāo)簽數(shù)據(jù)時(shí),得到的是80%準(zhǔn)確度的更低可信度的邊界。
?根據(jù)對(duì)語言模型的匹配的統(tǒng)計(jì)數(shù)據(jù),對(duì)推特用戶簡訊進(jìn)行打分。每一位推特用戶的簡訊都可以根據(jù)其與語言模型的匹配程度進(jìn)行打分(如ISIL和穆斯林兄弟會(huì)):
–給定了用戶推文中出現(xiàn)詞語的總數(shù),以及所有推文中的關(guān)鍵詞和搭配詞的頻率/平均值之后,還需要針對(duì)每一用戶,將其所有推文中全部關(guān)鍵詞和搭配詞出現(xiàn)的相似度進(jìn)行統(tǒng)計(jì)求和,并計(jì)算期望值。
–結(jié)果值是對(duì)匹配有多可能是隨機(jī)的匹配的判據(jù):
?高:意味著一個(gè)帳戶使用了比隨機(jī)概率期望值高出500%的模型語言(ISIL和穆斯林兄弟會(huì))。
?中:意味著一個(gè)帳戶使用了比隨機(jī)概率期望值高出300%的模型語言,但是低于500%。
?低:意味著一個(gè)帳戶使用了比隨機(jī)概率期望值高出50%的模型語言,但是低于300%。
?無:意味著一個(gè)帳戶的語言反映了隨機(jī)概率的水平。
?描繪出隨時(shí)間變化的圖形。在用戶層量化確定的高、中、低、無級(jí)別的匹配可以在地域級(jí)進(jìn)行匯總:一一種衡量一個(gè)網(wǎng)絡(luò)群體消息傳播的擴(kuò)散程度等級(jí)的方法。經(jīng)過逐個(gè)季度的比較,既能測量消息隨時(shí)間傳播的有效程度,也可以對(duì)各種傳播方式進(jìn)行優(yōu)先性排序。
這個(gè)例子中,在2014年度,ISIL和穆斯林兄弟會(huì)在亞歷山大和開羅地區(qū)保持了很低的匹配度——這對(duì)美國來說是一個(gè)好消息。但是在西奈和上埃及地區(qū),ISIL擁有高度和中度的共鳴匹配度,相比這下,穆兄會(huì)則失去了不少的人氣。本質(zhì)意義上,ISIL在這兩個(gè)地區(qū)獲得了市場份額——對(duì)美國來說是壞消息,圖3-2和圖3-3顯示了市場份額的這個(gè)變化。
圖3-2 埃及ISIL的語音共鳴,2014
為什么某些極端分子的消息傳送策略能夠成功,而其他一些極端分子會(huì)失???美國國防部能夠成功分析其成功的原因,獲取其中的關(guān)鍵技術(shù)并指導(dǎo)信息戰(zhàn)嗎?是否能夠明白為什么某些敵方的消息傳送方式具有特別的功效,并學(xué)習(xí)如何使自己的消息傳播更有效,而不管是使用什么媒體來傳播?立場分析著眼于社交媒體消息傳送,揭露消息傳播中的語言細(xì)節(jié),以便更好地理解它是如何工作的。這類似于情感分析,但它更詳細(xì)和復(fù)雜。本章中先前所討論的方法中使用詞法分析(在詞匯的數(shù)量和頻率層面進(jìn)行統(tǒng)計(jì)檢驗(yàn)),這個(gè)方法在詞語種類的層面使用數(shù)量和頻率的統(tǒng)計(jì)檢測方法。關(guān)于詞語種類,我們所指的意思可舉例說明如下:如未來和過去、情感(例如憤怒、悲哀、害怕、主動(dòng)等)、確定性、價(jià)值、社交關(guān)系等。將多種詞語整合到若干個(gè)主題中,能夠?qū)崿F(xiàn)某個(gè)目標(biāo),并能揭示某些可檢測的信號(hào)。比如,當(dāng)談及未來和希望的時(shí)候,這會(huì)是一種激勵(lì)人的策略,和談及過去和歷史錯(cuò)誤的選項(xiàng)具有顯著的區(qū)別。經(jīng)過對(duì)詞類的頻率、分布和協(xié)方差等的統(tǒng)計(jì)檢測,基于計(jì)算機(jī)的分析方法能夠在細(xì)節(jié)層面檢測到相關(guān)主題和消息傳送方式。
圖3-3 埃及穆斯林兄弟會(huì)的語音共鳴,2014
作為例證,假設(shè)一個(gè)新上任的人力主管將一份備忘錄發(fā)送給中心的每一位正式職員。該備忘錄收到了很差的效果:備忘錄的本意是激勵(lì)員工共同努力彌合分歧,但是相反,它起到了反作用,使員工對(duì)這位新的主管產(chǎn)生了極大的憤怒。當(dāng)員工被問及的時(shí)候,都會(huì)將矛頭指向那份備忘錄——它看起來疏遠(yuǎn)且傲慢。為什么顯得“傲慢”?仔細(xì)檢查文中的用詞就會(huì)發(fā)現(xiàn),備忘錄中充斥著第一人稱和第二人稱單數(shù)名詞,但通篇缺少第一人稱復(fù)數(shù)名詞:當(dāng)提及解決方案時(shí)總是說“我”,當(dāng)談到問題時(shí)總是說“你”,談任何事情從來不用“我們”。盡管人力主管沒有意識(shí)到這個(gè)問題,久而久之,這種方式的遣詞也會(huì)在讀者中產(chǎn)生較強(qiáng)的對(duì)立情緒。對(duì)于像單一記錄這樣的,由話語分析師經(jīng)手的分析會(huì)非常高效和有用。但是對(duì)于海量的社交媒體數(shù)據(jù),計(jì)算機(jī)分析還是必要的。
為了測試這種方法,我們對(duì)從四個(gè)極端組織搜集的社交媒體數(shù)據(jù)集進(jìn)行了演示分析:伊拉克和黎凡特伊斯蘭國(ISIL)、勝利陣線(al-Nusrah Front)、阿拉伯半島的基地組織(AQAP)和圣戰(zhàn)組織(Ansar al-Sharia)10。我們使用經(jīng)過翻譯了的這些組織在2014年第四季度的三個(gè)月的社交媒體數(shù)據(jù)11。然后,我們用最先進(jìn)的(截至2015年)的情感分析軟件對(duì)每個(gè)語料庫詞語種類頻率進(jìn)行處理,同時(shí)對(duì)此進(jìn)行頻率、分布和協(xié)方差的統(tǒng)計(jì)測試,以檢測不同組織之間差別,和每個(gè)組織內(nèi)部交流用語中不同結(jié)構(gòu)特征間的差別。
注釋10:我們注意到:這個(gè)分析方法是初步的,是作為一個(gè)方法的概念驗(yàn)證實(shí)施的。該數(shù)據(jù)池相對(duì)較小(極端組織三個(gè)月的社交媒體數(shù)據(jù)輸出),而且分析使用了翻譯文字。盡管有初步的證據(jù)表明在這個(gè)分析過程中使用的翻譯軟件運(yùn)作良好,我們強(qiáng)烈質(zhì)疑分析結(jié)果的準(zhǔn)確性。本節(jié)的目標(biāo)是展示方法,不是使用該方法探索產(chǎn)生的某些特定發(fā)現(xiàn)。
注釋11:這個(gè)分析方法使用的數(shù)據(jù)是從SITE情報(bào)組織商業(yè)化訂閱的,該組織是一個(gè)從事伊斯蘭圣戰(zhàn)分子監(jiān)控和分析的實(shí)體組織。
為了演示說明,我們?cè)敿?xì)描述這個(gè)分析過程中的一個(gè)發(fā)現(xiàn):當(dāng)我們使用探索性因子分析法尋找潛在的主題結(jié)構(gòu)時(shí),我們發(fā)現(xiàn)ISIL和勝利陣線有3個(gè)因子(說服性主題、個(gè)人宣誓、共同關(guān)注的社會(huì)焦點(diǎn)問題),而基地組織的社交媒體數(shù)據(jù)有一個(gè)因子(技術(shù)性問題的竅門指導(dǎo))。探索性因子分析法將一組變量間的相關(guān)性看作一個(gè)單一的潛在因子,通過數(shù)據(jù)集中的協(xié)方差,檢測其中的潛在性因子。在文本分析中,一篇普通的“當(dāng)你變老,它會(huì)更好”的演講可能看起來更像面向未來的積極談話和安慰性語言的交織。下面的例子勾勒了導(dǎo)致基地組織(AQAP)的公共社交媒體語言顯著區(qū)別于勝利陣線(al-Nusrah)和ISIL的幾個(gè)因子12。
注釋12:圣戰(zhàn)組織(Ansar Al-Sharia)沒有能探測到的因子——該組織的講話通常前后不一致,缺乏重復(fù)連貫的戰(zhàn)略。
基地組織(AQAP)顯著的判別因子是“信息性”(informational):共享技術(shù)、概念性知識(shí)和報(bào)告重要事件。這主要源于從網(wǎng)絡(luò)空間作戰(zhàn)到規(guī)避熱探測的技術(shù)指導(dǎo)。例如:
這一幕顯示了一群圣戰(zhàn)分子在一條狹窄的通道里試圖躲避航空照像機(jī)的畫面,但是熱成像記錄儀清晰地顯示了他們的身體,特別是飛機(jī)在低空的位置時(shí)。因此,看來解決方案是對(duì)航空照像機(jī)隱藏身體的熱能。美國人將這項(xiàng)技術(shù)叫做熱絕緣。熱絕緣技術(shù)在我們很多的日常工具中都有應(yīng)用,比如熱水瓶。熱水瓶在內(nèi)部維持水的溫度不變,因?yàn)樗锩娴慕^緣材料能阻止熱量向外面逃逸。而且,電冰箱,或者也稱之為冷藏柜,保溫茶壺,或者恒溫的集裝箱等,都使用了熱絕緣的技術(shù)。
同樣的模式在信息報(bào)告中也可以見到:
上周四,在南也門阿比揚(yáng)省,一名胡塞武裝分子死于南也門阿比揚(yáng)省圣戰(zhàn)組織的狙擊。上周四的上午10時(shí),阿比揚(yáng)省的圣戰(zhàn)組織新聞?dòng)浾邎?bào)道了該事件,伊斯蘭教圣戰(zhàn)者組織的一名成員狙擊了駐扎在阿比揚(yáng)省al-Mahfad地區(qū)的第39裝甲旅的一名士兵。
ISIL和勝利陣線(al-Nusrah)有3個(gè)相同的潛在因子。與基地組織共享信息的技術(shù)方法不同,ISIL和勝利陣線(al-Nusrah)在社會(huì)文化領(lǐng)域勸導(dǎo)他們的聽眾時(shí)使用目的性很強(qiáng)的信息策略。
超越:前景更美好
勝利陣線(以及ISIL)使用類似的擴(kuò)張戰(zhàn)略。也許與直覺相反,他們的主導(dǎo)宣傳策略并不包括負(fù)面的或仇恨的言論,而是專注于正面價(jià)值和宣傳的熱烈的、面向未來的談話13。例如:
注釋13:與之相反,圣戰(zhàn)組織和ISIL不使用這種策略。
誰想支持真主安拉、偉大和全能的神,就讓他宣誓效忠這個(gè)哈里發(fā)。誰若希望真主的伊斯蘭教,偉大和全能的伊斯蘭教得到普世運(yùn)用,就讓他宣誓效忠這個(gè)哈里發(fā)。真主安拉、偉大和全能的神,現(xiàn)在就能分辨誠實(shí)和謊言。
個(gè)人請(qǐng)求和宣誓
雖然ISIL的特征是不使用主語“我”講話,但是它和勝利陣線(aL-Nusrah)在表達(dá)人際間的請(qǐng)求意愿時(shí)也會(huì)使用“我”說話,例如像這樣一種有說服力的證詞14:
注釋14:這一策略從基地組織社交媒體談話中丟失了。
我對(duì)我提到的事實(shí)作證。我會(huì)強(qiáng)調(diào)我的眼睛所看到的,我的耳朵聽到的,我的心感知到的,我會(huì)告訴你我所學(xué)到的。第十:我問你,以真主安拉的名義,沒有上帝,只有他,把這個(gè)談話轉(zhuǎn)達(dá)給族長和沙姆(敘利亞)及其他地區(qū)的領(lǐng)導(dǎo)人。
一條統(tǒng)一陣線
在這兩個(gè)組織的交流談話中另一個(gè)重要的潛在因子是社會(huì)承諾和包容性的“我們/我們的”談話的組合。這些演講經(jīng)常是重復(fù)性的(在阿拉伯語境中是真誠的標(biāo)志),而且是非常依賴于宣誓效忠或忠誠的理念:
以真主安拉的名義,最光榮的、最仁慈的伊斯蘭國,祈福真主阿布·貝克爾·巴格達(dá)迪,我們都誓言效忠于他,我們國家的埃米爾是勝利!伊斯蘭國家,祈福真主阿布·巴克爾·巴格達(dá)迪,我們都誓言效忠于他,國家的埃米爾,我們的國家,是勝利!他們正在爭取勝利!他們使用迫擊炮和機(jī)關(guān)槍來迫使他們所有人都下跪。我們的國家是勝利!伊斯蘭國家,祈福真主阿布·巴克爾·巴格達(dá)迪,我們都發(fā)誓效忠于他,國家的埃米爾,我們的國家是勝利!穆斯林,你準(zhǔn)備好了嗎?在經(jīng)歷了數(shù)百年的苦難之后你將獲得自由。我們的國家是勝利!
我們從這一概念驗(yàn)證分析中得到的啟示是:基于計(jì)算機(jī)來分析海量社交媒體數(shù)據(jù)能夠?yàn)樾畔?zhàn)諜報(bào)提供關(guān)于敵方信息交流方面的信息。在這種情況下,分辨出敵方采用的擴(kuò)張或主題性策略是有力的一個(gè)步驟,它能夠?yàn)橄魉偷姆粗铺峁┲С帧?/p>
該方法結(jié)合使用數(shù)據(jù)源地理信息和軟件來進(jìn)行圖像分類和地圖繪制,從而自動(dòng)化的對(duì)海量社交媒體數(shù)據(jù)集中的圖片分類和映射。最后,這有助于信息戰(zhàn)指揮員搞清楚當(dāng)?shù)孛癖娛裁聪敕ㄗ钪档梅窒恚ū热?,卡車照片、軍服、模因、卡通等),以及他們?cè)谑裁吹赜蚍窒硇畔ⅲ喝藗兿M谔囟ǖ牡攸c(diǎn)基于社交媒體分享什么樣的直觀的信息?而本章介紹的其他方法是試圖解決文本流問題——海量的文本數(shù)據(jù)超過了人的閱讀和分析能力——該方法為圖像數(shù)據(jù)提供同樣的解決方案,我們期望的這一數(shù)據(jù)類型只有隨著全球范圍移動(dòng)設(shè)備的普及和網(wǎng)絡(luò)容量的增長才能在數(shù)量上持續(xù)增加。我們認(rèn)為該方法具有巨大潛力,主要基于以下理由:
?它主要面向遠(yuǎn)程數(shù)據(jù)采集,成本低,不會(huì)給其他資產(chǎn)帶來風(fēng)險(xiǎn)。
?它開發(fā)了一條額外的數(shù)據(jù)流,該數(shù)據(jù)流隨著社交媒體普及的增長而增長。
?它解放了專家進(jìn)行人工分析的時(shí)間和精力。
?影像能夠包涵豐富的文化信息,并且可能在識(shí)字率很低的區(qū)域具有特別寶貴的價(jià)值。
?這是一種眾包的方式,對(duì)信息環(huán)境非常重要:它將影像置于那些當(dāng)?shù)孛癖娬J(rèn)為值得分享的地方。
我們注意到,這是個(gè)區(qū)分信息戰(zhàn)和情報(bào)工作的很好的例子。該方法能作為宣傳作戰(zhàn)的一部分來使用(當(dāng)?shù)孛癖娮铌P(guān)心的文化和政治問題是什么?),但它能非常簡單的用于搜集戰(zhàn)場情報(bào)(我們?cè)谀睦锬芸吹礁嗟挠糜诜窒淼奶箍恕⒖ㄜ?、武器和軍服的照片?)。將其區(qū)分為信息戰(zhàn)行動(dòng)的并不是方法,而是被問的問題和意圖。
該方法的第一步是通過地理標(biāo)記或地理推理15搜集本地的社交媒體數(shù)據(jù)。兩種選擇各有優(yōu)點(diǎn):
注釋15:我們注意到移動(dòng)終端在各個(gè)國家有很大的不同,地理標(biāo)記和地理推理所用的數(shù)據(jù)量也會(huì)不同。因此,該方法的可用性在世界不同的地方也會(huì)有所不同。
?僅使用地理標(biāo)記的數(shù)據(jù)能得到地理位置的較高準(zhǔn)確度和細(xì)粒度。我們可以確切地知道社交媒體數(shù)據(jù)從哪里來,并在地圖上將該位置標(biāo)記為可能的分析部分(例如,城市或社區(qū))。然而,由于大多數(shù)社交媒體數(shù)據(jù)都沒有地理標(biāo)記,這可能限制了用于分析的社交媒體數(shù)據(jù)的數(shù)量。而且由于游客往往會(huì)在移動(dòng)設(shè)備上打開地理定位功能,這也可能會(huì)導(dǎo)致他們的圖片使樣本產(chǎn)生偏差。
?地理推理(例如,在用戶的位置字段使用城市和省名)可以以較高水準(zhǔn)的地理精度來捕獲更多的數(shù)據(jù)。然而,它具有有限的粒度。在前面所述的在埃及社交媒體數(shù)據(jù)上跟蹤信息擴(kuò)散的例子中,80%的準(zhǔn)確率只是在國家區(qū)域的水平上。
基于這樣一組社交媒體數(shù)據(jù),圖像的URL可以剝離出來,附帶有位置元數(shù)據(jù)的圖像數(shù)據(jù)可以搜集下來,留下一堆海量的未分類的當(dāng)?shù)孛癖娬J(rèn)為值得分享的圖像數(shù)據(jù)。下一步是使用計(jì)算工具對(duì)這些圖像進(jìn)行排序和分類。
下一步是使用圖像分類軟件對(duì)圖像數(shù)據(jù)集進(jìn)行分類。在寫這篇文章的時(shí)候,深度神經(jīng)網(wǎng)絡(luò)(DNNs)是一種很有前途的方法,它將圖像分成若干個(gè)抽象的層次,附帶兩個(gè)說明:
?處理能力。不像前面討論的文本分析方法,圖像分類是一類需要大量計(jì)算的任務(wù),如果要使圖像分類計(jì)算可行,就需要并行計(jì)算陣列(相對(duì)于單個(gè)桌面系統(tǒng))的支持。在我們的例子中,搜集2周2015年推特和臉書中非洲范圍的帶有地理標(biāo)簽的共享圖像,會(huì)得到283000幅圖像。這需要大約三天時(shí)間的并行計(jì)算來處理。
?分類準(zhǔn)確性。在圖像分類的精確度和粒度之間存在一個(gè)平衡問題。在低層次的粒度上(例如“車輛”),目前的技術(shù)是非常準(zhǔn)確的。但是在更精細(xì)的粒度級(jí)別(例如,“坦克”和“卡車”),準(zhǔn)確性會(huì)降低。
在這個(gè)過程的最后一步是使用繪圖軟件繪制這些圖像,可視化展示哪些組織在分享信息。而且由于這些數(shù)據(jù)有時(shí)間戳,我們也可以看到一段時(shí)間內(nèi)的變化。為了演示這種方法如何支持信息戰(zhàn),可以考慮圖像數(shù)據(jù)怎樣指向關(guān)聯(lián)的社會(huì)文化和政治問題及其內(nèi)涵。在本節(jié)討論的分析方法中,分類器發(fā)現(xiàn)了許多“漫畫書”,最后發(fā)現(xiàn)是政治漫畫16。這類圖像和其他類別的圖像可能會(huì)在幫助了解本地信息環(huán)境、當(dāng)?shù)孛癖娺x擇共享什么內(nèi)容、以及從哪里共享這些圖像等方面有重要價(jià)值。
注釋16:這突出顯示了圖像分類軟件當(dāng)前的一些局限。雖然漫畫書和政治卡通書對(duì)人來說是兩類不同的體裁,但它們卻有相似的視覺特征。機(jī)器在進(jìn)行圖像分類時(shí),使用不同的特征參數(shù)會(huì)有不同的開銷和限制。
圖3-4是使用深度神經(jīng)網(wǎng)絡(luò)(DNN)工具顯示自動(dòng)檢測圖像的屏幕截圖,根據(jù)目標(biāo)類別(政治漫畫、建筑和車輛)和地理定位形成的圖像共享地圖。
能夠直觀地看到在什么地方、以及多大密度上人群關(guān)注的某個(gè)社會(huì)問題正在被“討論”,是一種高效的方法來理解和發(fā)現(xiàn)信息環(huán)境中的動(dòng)態(tài)變化。
圖3-4 基于類型和地理位置的圖像共享
原文鏈接: https://www.rand.org/pubs/research_reports/RR1742.html 翻譯人員:劉江寧 郭長國 王曉斌
(部分文字、圖片來自網(wǎng)絡(luò),如涉及侵權(quán),請(qǐng)及時(shí)與我們聯(lián)系,我們會(huì)在第一時(shí)間刪除或處理侵權(quán)內(nèi)容。電話:4006770986 負(fù)責(zé)人:張明)