海量资料研究之智识结构.docx

下载文档 降价啦

3
0
约 15页
2017-02-28 发布于天津
举报
版权申诉
保障服务

海量资料研究之智识结构.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

海量资料研究之智识结构.docx

　海量資料研究之智識結構導論由於近年來的快速時代變遷，資訊科技的進展好比火箭升空的速度般不斷淘汰舊產品與發展新科技，伴隨的是資訊不斷擴增而產生資訊爆炸時代的來臨，於是「海量資料」的概念由此而生。本研究有鑒於未來的資訊爆炸現象所伴隨著海量資料處理研究需求量大增，進而有潛力成為未來幾十年間的熱門議題，所以本研究欲透過智識建構系統分析「海量資料」的相關議題，主要是透過相關的因素分析方法中找出相關議題，並且根據智識建構圖所產出的議題分佈狀況描繪出各個相關議題之間的分佈關聯性，最終本研究會根據以上分析呈現出目前「海量資料」議題主要關聯性為何，提供未來學者「海量資料」研究發展的具體參考方向與指標。文獻探討海量資料海量資料又稱海量數據、巨量資料(維基百科, 2013)，為IBM於2010年所提出的新名詞(IBM, 2010)，指的是其所涉及的資料量規模巨大到無法透過人工去統整分析，並在合理的時間內完成資料的輸入、儲存、處理和輸出等等程序。網路的搜尋、交易、輸入都是海量資料的基本元素，透過電腦運用海量資料的運算技術作篩選、整理、分析，所得出的結果不僅克服了過去對於大量複雜運算的障礙並且獲得簡單且客觀的結論。線上科技網站ZDNET資深記者Dan提到海量資料已逐漸成為世界企業內部IT處理大量資料的關鍵技術，不僅提供企業管理者關鍵資訊以利其經營決策，蒐集的相關資料還可以被規劃，創造更多意想不到的附加價值(Dan, 2010)，海量資料的主要特點可分為:(1)資料量大 (Volume)、(2)輸入處理速度快 (Velocity)、(3)資料多樣性 (Variety)、(4)價值密度低 (Veracity) (IBM, 2010)。資料量的大小決定了海量資料的應用價值，由下圖1可以明顯發現當資料量超過Terabytes時是普通資料處理技術無法負荷的，必須透過海量資料技術來完成，圖中列舉了各項海量資料所需要的關鍵要素與應用實例，清楚呈現海量資料所支援的相關應用與輔助學者對於未來海量資料延伸領域的發掘與開發。圖1 : BigData 發展流程示意圖(資料來源:Contents of above graphic created in partnership with Teradata, Inc)　Hadoop為實現海量資料運算技術的實際應用，其創辦人Doug Cutting提到其根據Google搜尋引擎的相關研究為藍圖，企圖以分散式運算技術為基礎，建立一套如何透過儲存、處理、分析TB(Tera Bytes)甚至PB(Peta Bytes)資料量大小的處理方法。 Hadoop是透過數台伺服器連接進行同步平行分散式計算而達到處理海量資料運算的技術應用，另外其可隨著企業的不同需求動態調整任一伺服器設備以達到不同的運算規模需求(Shvachko et al., 2010)。Hadoop最大的特色為其本身是由100% Java程式語言所撰寫而成的開放原始碼資源，執行Hadoop平台時無需透過昂貴的軟體平台，只需使用一般的伺服器群合併達到平行資料處理與分析的目的。目前台灣國網中心提供免費的公用實驗叢集Hadoop雲端運算平台，使用者不需自行架設伺服器即可透過Hadoop雲端服務實現海量資料分散式運算技術。處理海量資料最知名的技術為LDA(Latent Dirchlet Allocation)，為Blei等人於2003年提出的新技術(Blei et al., 2003)，其為機率理論與圖形理論所產生的模型，主要對於海量資料分群與模組化提供一個可靠的架構，其可透過機率與統計理論的運算規則針對欲分析的海量資料進行機率分佈之相關計算並利用其作相關資料剖析與分群應用。其可應用於資訊檢索(L. Azzopardi et al, 2004)、語言模型的調整(G. Salton M. J. McGill., 1983)與機器學習(Blei et al., 2003)等領域。其藉由擺脫了傳統習慣採用向量空間表示法而採用以訓練模式為主的資訊擷取技術(Linstead et al., 2007)，LDA最大優點在於欲對新文獻群集進行分析時可透過先前的模型參數直接推估出新群集分佈的機率模型。引文分析　引文分析是以網路中的鏈結為基礎並呈現，將要分析的單位視作一個節點，並且於每個節點間建立雙邊的鏈結關係，以代表雙邊關係的強度。該領域中的文章彼此之間引用與被引用的關係所結合成的網路圖則稱為主要研究議題的引文網路。如圖2所示為直接引用與文獻耦合及共引的相關概念。舉例而言，一篇完整的學術文獻必須具有正文以及相關引用的參考書目列表，正文本身稱之為引用文獻，參考書目則稱之為被引用文獻，針對兩者關係進行相關研究可以獲取學術文獻間的發展關係與相關學術傳播過程，最終了解該主要議題之目前熱門議題以及未