学生习性探知系统DesignandImplementationof-资料库系统试验室.DOC

学生习性探知系统DesignandImplementationof-资料库系统试验室.DOC

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学生习性探知系统DesignandImplementationof-资料库系统试验室

大學部94級專題題目一(DB Lab.) - PAGE 1 名稱 學生習性探知系統(Design and Implementation of Applying Data Mining Techniques to Student’s Habits) 系統簡介 隨著時代的進步,在資料收集方面的技術有非常快速的進展,因而產生了大量的資料。資料探勘是經由自動或半自動的方法探勘及分析大量的資料,以建立有效的模型及規格。專題的目的是假設讓老師們透過資料探勘來更瞭解他們的學生,進而改進他們的教學方式、課程內容…等等。 專題製作的過程中,我們將陸續學習到資料探勘技術的各項細節:分類(classification)、群集化(clustering)、關聯規則(association rule)與序列模組(sequential pattern)。 資料分類(data classification)就是基於資料的屬性,將一組資料予以分類。汽車業者應該依據顧客對車子的偏好將客戶分類,如此,銷售員就能知道應將哪一款的汽車目錄寄給哪一些顧客,以擴大化商業機會。 保險公司利用資料分類的技術發現:30歲以下未婚的男性為高風險客戶,而超過30歲且已婚的男性為低風險客戶,因此保險公司可利用策略訂定策略與保費。我們也可以利用資料分類來推測,資工系的男生其課業成績與交女朋友與否是否有直接的關係。 資料分群(data clustering)是根據分群的原則將資料分群,這個原則即:讓群組裡的資料相似度達最大,群組間的相似度達最小。舉一個簡單的例子來說明資料分群的意思,假設現在有一個資料庫的資料如下表所示: 表格 SEQ 表格 \* ARABIC 1 姓名 身高 體重 性別 Peter 170 60 M John 70 25 M Mary 150 58 F … … … … 假設資料庫中的記錄有N筆,現在需要把這些資料分成兒童、年青人和老人三個不同的群組。根據資料分群的方法,首先要選出至少三個樣本(John,Peter,Mary),作為兒童、年青人和老人的代表樣本(seed),之後再根據這三個樣本來分類,透過分類演算法,資料庫中每一筆記錄都會跟三個樣本(seed)作比對處理,最後被分成三個有意義的群組,如下圖所示: 兒童 兒童 老人 年青人 這裏要注要的,就是一開始系統已經認定樣本John為兒童,Mary為老人,Peter為年青人,之後根據這些資料來作分類的處理,一旦這些樣本是錯誤的,如Mary原來是年青人,這樣不管是那一種分類的演算法得出來的結果,可能都變得毫無意義。 關聯規則(association rule)是最重要的資料挖掘問題之一。舉一個例子,一個銷售的交易資料庫,我們有興趣的是所有項目(item)的關連,在同樣一個交易之中,一個Item的出現同時會引發另一個item的出現。例如:一關聯規則為:若顧客購買牛奶,則他同時也會購買麵包,即牛奶?麵包。 關聯規則的另一個應用如下:資工系的有許多同學熱中棒球,也有相當多的同學加入棒球隊。假設我們調查出資工系有六成的學生喜歡打棒球,有百分之七十五的學生以麥片當早餐,喜歡打棒球又以麥片當早餐的學生佔有四成。則根據關聯規則裡頭的計算公式,即40%/60%=66%,我們可以得出一個結論,那就是「大部分打棒球的學生都會吃麥片當早餐」。 序列模組(sequential pattern)是將時間性加入關聯規則後所衍生的另一門學問。比如說,顧客通常在購買某類商品後,經過一段時間,會再購買另一類商品。例如: 租過黃飛鴻第一集,經過一段時間,通常會再租黃飛鴻第二集,之後再租黃飛鴻第三集;或者買過“綿被、枕頭、床單”之後,經過一段時間 ,通常會再購買“紙尿褲、奶粉”。 我們也可以藉由這個技術,推論出系上的學生如果微積分修的很好,那他有可能會選修工程數學。 路徑模組(traversal pattern)是將順序性加入關連規則後所衍生的另一門學問。比如說,一位學生參觀某網站,發現他每次都是從A網頁連結到B網頁,然後從B網頁連結到C網頁,最後逗留在C網頁的時間相當久。由此可知,其實該生被迫於網站的架構,不得不藉由B網頁才能連結到C網頁。所以可以考慮重新組織網站的組織方式,在A網頁中加入C網頁的連結,使得該生或大部分的使用者能立刻找尋到自己想要的資料。 功能需求 專題所需要的功能,就是設計一套功能完善的系統。此系統基本上是要能提供使用者一個圖形化使用者介面!藉由此介面,依使用者所輸入的參數,能夠將儲存在資料庫中data,快速的分析,最後將分析後的結果以視覺化的方式呈現出來。 學生基本要求 吃苦耐勞。 願意看原文書和英文論文。 具有高度的求知慾望。 能接受軟體工程開發方式所帶來的短期不便與長期效益。 對JAVA程式語言有基礎的認識;或是對學習此程式語

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档