技术报告-陶幼慧.docVIP

  • 1
  • 0
  • 约5.62千字
  • 约 8页
  • 2017-02-02 发布于天津
  • 举报
技术报告-陶幼慧

網路瀏覽行為擷取之實現 陶幼慧、莊順斌、林益新、高宏文、莊明達、楊昆原 義守大學 資訊管理系 Email:ytao@.tw 摘 要   網路行為探勘是一種資料探勘技術的應用,目的是要從擷取的網路資料找出有用的瀏覽行為模式,其成效取決於技術與網路資料。基於目前探勘的網路資料,主要來自Web Log Files,缺乏線上瀏覽所有可能的人機互動的單元操作,因此本研究針對如何擷取網路瀏覽者的動作,作了一些探討以及解決方案的提出。本研究提出一線上擷取機制,以一通用管理介面幫助網站管理者輕易地設定,執行與查詢網路瀏覽行為,最後以一瀏覽行為還原畫面做為驗証工具。 關鍵字:網路探勘,網路行為探勘,資料探勘,瀏覽行為,日誌檔 壹、緒論   現今網路科技的成長與進步,網路使用頻率愈加頻繁且應用領域範圍也發展快速。所以網路探勘(Web mining)成為一門顯學,而網路探勘是將資料探勘(data mining)或資訊處理程式應用於網際網路上的一種技術,藉由這種技術找出有用的模式(pattern)。通常網路探勘(Web mining)可以被分成三個範疇,分別為:網路內容探勘(Web content mining),網路行為探勘(Web usage mining),網路結構探勘(Web structure mining)。網路行為探勘乃是試圖找出使用者瀏覽網頁的行為導向,主要是找尋使用者與網站的互動行為。   目前大多數收集瀏覽者行為的方法,都是把日誌檔(Log Files)當成資料來源,而Log Files的內容不外乎是瀏覽網頁時間、瀏覽網頁路徑及交易紀錄等;這些資訊或許有用,但每個瀏覽網頁的使用者方式或動作並不僅侷限於此;使用者可能會從事一些行為,例如選取網頁內容範圍、拉動捲軸或檢視原始碼等等,而這些行為對網站管理者或探勘資料分析者雖然沒有明確的動機或目的,但是隱含著許多有用的網路探勘支瀏覽者意圖之訊息。   本研究範圍提供網路行為探勘較完整的資料來源,即針對網路瀏覽者在瀏覽器上所有的動作作記錄,提供統計分析完成行為的探討。提出並實作一個機制,以完成網路行為探勘中,記錄使用者互動內容的自動化。 貳、系統分析與設計   為了具體實現本研究的研究目標,我們提出一個適用於所有不同類型網站的動作記錄模組,而這個模組主要要達成下列二個功能:單一動作記錄、使用者session界定。單一動作記錄也就是把使用者在這個網頁內瀏覽時的單一動作記錄下來,如click, keydown等。而 session界定,就是能分辨之前所有的單一動作哪些是由某特定session發送出來的。   系統運作機制為網站管理人員將在server端網頁中自動加入前端程式。而前端程式碼可攔截表單元件的內容、靜態文字、靜態圖片以及其他純HTML標籤的事件,再將以上攔截到的事件內容經由ASP程式送到一個text-based資料庫中。送到資料庫後,網頁管理人員就可以以網頁式管理介面,看到每一Session元件、事件的動作記錄資料、還原畫面及行為驗証如圖1。   本系統架構如圖二所標號之四個部分,使用者介面、網頁資料擷取、資料庫以及測試網頁等四部分,並將分節介紹如下: 管理者使用介面   網站管理人員可依其所需,選擇想要加入JavaScript的網頁,藉此以獲得想要擷取的事件動作。當網路管理者想要更新網頁所能擷取的內容時,此時可利用本管理程式來搜尋網頁,並更動事件擷取器設定,而目前為止本研究所針對的網頁格式HTML及ASP為主。 網頁資料擷取   此部分是本系統的核心,經由本子系統可以擷取大部分瀏覽網頁使用者的事件動作,為了擷取瀏覽者的各種動作,所以本研究使用了JavaScript語言的技術,並以C++發展一個管理程式,方便管理者依需求插入JavaScript程式碼以擷取所要擷取的資料,由於JavaScript不管位於網頁哪裡都能有其作用,不過為了方便處理嵌入的JavaScript程式碼,嵌入的程式碼全部置於底端如圖3所示: 資料庫   本系統的資料庫,最主要的功能在於將JavaScript與瀏覽器外掛所擷取到的事件動作正確的寫入資料庫中。最後到達可以判斷Session與IP。 資料庫欄位類別   本研究使用text-based為資料庫的基礎架構,分成底下九個欄位,。如下表: 表1 資料庫欄位 欄位名稱 功能涵義 事件名稱 瀏覽者瀏覽網頁所發生的事件,如: on_key_press、on_mouse_up、on_click…等。 元件ID 為了要辨別在同一個網頁不同的元件,如果網頁沒有指定ID就用元件在網頁上相對的位址和屬性做為依據。 所在網頁 使用者在事件發生時,所在網頁位址。 發生時間 觸發事件的發生的時間。 內容 依事件與元件的不同,所產生不同的內容。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档