第九组Twitter使用者特性分析器.pdf

IR 期末專題書面報告 第九組、Twitter 使用者特性分析器 何鎮濠、 許宏瑋 一、 動機與發想 原初構想 我們在尋找合適的IR 應用題目時,其實一開始是注意到twitter 使用情境上的特性: twitter 它的使用者行為、tweet 之內容都是相當程度地公開的!這有利於我們取得與應用其 上的資料來做IR 分析。 其實twitter 的這個特性 ,源自於其服務的核心構想 :創建一個大家都可以公開發聲的平 台(且所發的內容必須極簡短易讀);這點我們也可以在其中主要活動的動詞是"tweet 啼叫 "、和其服務的 icon 是一隻啼叫的小鳥上 ,稍微能窺知一二 。 也因如此,twitter 其實並沒有明確的朋友、社團、子團體的概念在裡面(顯然是故意 的),使用者依序接收到的各個所追蹤之twitter 發的短文,它們都是平起平坐、先來後到 , 它們都按照短訊發出的時間被排列、被擠下去 。 使用者在瀏覽的時候,如果它追蹤的人到達一個量、它就會發現twitter 的訊息版面頗為 繁複、更新迅速,配合上各種可能的使用者頭像,整個版面視覺上就有點凌亂、難以一目瞭 然。 所以我們想要對於快速 、較為密集而且多樣化的twitter 簡訊,進行一個恰當的分類、輔 助閱讀 ;而且設計上不希望破壞到twitter 原本的使用者經驗 。 可能的方法、我們初步構想是在twitter 的簡訊格子的最前端、或周圍加上一個顏色的示 意標記、像是最近一些 email 集成之 client 端 app 一樣,有一個代表不同分類的長條狀色 塊,協助使用者更容易一看就抓住視覺上的重點。 這樣我們把我的題目命名為:社群網路服務之信息分類與排序 (排序是也許我們能夠做 的延伸,故收錄在題目裡,主要我們是想要藉由分類來協助使用者的閱讀體驗。)題目之 餘,我們也在 proposal 當中設想了這個實做的一些商業亦或是社會科學研究上延伸應用的 可能性。 潛在難題 、抉擇與評估 在後續的評估當中,我們發現我們的構想在實做上會有一些問題,其中最大的問題就 是:其實我們的構想,是想要做一個短信息的分類器;但當我們要分類的信息很短的時候、 分類器的效能未必很好。 我們的實作時間有限,可是我們仍希望能有明確的成果 !我們不太願意投入一個不確定 成效為何的項目 。這是一個課程的實做練習,雖然也可以看成是一個做實驗的機會,但這仍 不是我們正規的實驗題目 。相較於進行一個實驗,我們更把它看成是一個雛型元件的實踐, 它必須要有更篤定的功能面。 所以我們做了調整:一個tweet 的篇幅可能太短,我們就把相同人的數十篇、甚至數百 篇tweets 集合在一起,這樣就可以做不同使用者之發文風格的分類 !如果我們的分類項目選 定得當 ,這個做法結果應該會很有趣! 並且 ,我們想盡可能地專注在重要的核心功能上 ,我們就把使用者的風格先分成三類, 以求實做上的明確 ,並且我們目前只想要處理英文的部分、這會讓我們在方法的構築上更加 精確 。三個分類分別為:情緒化發文者、商業化娛樂發文者、政治時事言論的發文者。 有了twitter 使用者的發文風格的資料,也許能夠有許多其它延伸的商業應用,比如說針 對使用者的發文風格去回溯這個使用者的喜好,進行精準行銷等等。 但比起行銷上的應用,我們認為如果我們的分析器做得好、並且延續我們原初在使用者 閱讀上的構想,我們新的設計仍然能夠協助改善使用者的閱讀體驗。並且當使用者對自己的 發文進行風格分析的時候,其實也能讓使用者有個多了解自己過去發文習慣的機會,別有一 番趣味。 二、 方法構築 方法設計 決定了三個特色明確的使用者風格分類後,我們想要用分類的方法為使用者的發文風格 做分析。把一個使用者近期的tweets 接在一起、看成是一個文件,計算該文件被分入三個分 類個別的適合值 ,適合值最高的那一類即為這個使用者最突出的發文風格;並且我們仍然提 供其它兩個分類的數值,讓使用者能參考自己在其它屬性上的表現為何 。 好消息是,我們有一個相近的程式碼、作業三!我們如果能確保在Training Data 上蒐 集的文章風格確實能代表我們理想中所要分出的那三類使用者發文風格,我們就已經成功一 大半了!考慮到twitter 使用者的多元化 ,我們需要有多元的Oracle 文章來

文档评论(0)

1亿VIP精品文档

相关文档