网站大量收购闲置独家精品文档,联系QQ:2885784924

资料库管理 HOMEWORK #5.pptVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料库管理 HOMEWORK #5.ppt

1-* 資料庫管理 HOMEWORK #5 楊立偉教授 台灣大學工管系 2014 Fall Homework #5 基於前次作業E-R model進行修改與應用 應用社群大數據進行探索性分析,找出有商應價值之應用 題目分派 每組二大題,含自己的E-R model及下列分派 1: Food 5: Gossiping 2: movie 6: 1999 3: MobileComm 7: Food 4: BuyTogether 8: movie 繳交紙本報告 期末每組上台簡報 作業要求 (1) 指派題目 修正自己的 E-R model,並修正測試資料 設計五個以內具商業價值的問題,並以SQL回答 將修正內容,問題設計(含SQL及答案)作成報告 作業要求 (2) 指派領域 針對該領域所收到的資料,進行分析 設計十個以內具商業價值的問題,並以SQL回答 將問題設計(含SQL及答案)作成報告 評分標準 分成10個等級 指派題目 E-R model及測試資料 正確合理 商業問題設計 正確合理 指派領域 商業問題設計 正確合理 發掘不為人知的資訊 依詳盡用心程度加分 Deadline 於 2014.1.8 前繳至 ceiba,並於當天簡報 由組長繳交即可 繳交 Word檔,做文字說明報告 取名為「組別_題號_學號(小寫)_hw4.doc」 繳交簡報檔(10分鐘內) 取名為「組別_題號_學號(小寫)_hw5.ppt」 兩者一同壓縮為「組別_學號(小寫)_hw5.zip」 資料庫管理 HOMEWORK #5 社群資料分析範例 楊立偉教授 台灣大學工管系 2014 Fall 社群資料分析 結合結構性與非結構性資料 結構性資料 以一或多句SQL查詢分析 非結構性資料 (文字) 以標記技巧轉為結構化資料 輔以字串處理函數 再以一或多句SQL查詢分析 社群資料分析 – 以Food為例 (1) 列出推噓最熱門的主文 列出正面情緒最高的主文 SELECT title, comment_count, post_time, author FROM ts_page_content WHERE content_type=main ORDER BY comment_count DESC; SELECT title, comment_count, positive_score, post_time, author FROM ts_page_content WHERE content_type=main ORDER BY positive_score DESC; 社群資料分析 – 以Food為例 (2) 配合字串處理,統計文章標題類別 left(string, len) 自左邊取len個字 right(string, len) 自右邊取len個字 mid(string, start, len) 自start起取len個字 可搜尋Access說明字串 → 字串函數及其使用方法 SELECT mid(title,2,2), count(*) FROM ts_page_content WHERE content_type=main and left(title,1)=[ GROUP BY mid(title,2,2) ORDER BY count(*) DESC; 社群資料分析 – 以Food為例 (3) 依餐廳名稱之討論熱門度進行統計 Step 1 以字串處理取出餐廳名稱,暫存為tmp SELECT id, title, author, instr(1,content,餐廳名稱:) AS pos1, instr(pos1,content, ) AS pos2, mid(content,pos1+5,pos2-pos1-5) AS shopname INTO tmp FROM ts_page_content WHERE content_type=main; 社群資料分析 – 以Food為例 (3) Step 2 與原表JOIN統計最熱門的餐廳 若要加速,可為 JOIN 及WHERE條件欄位建立索引 過濾雜訊資料 SELECT t.shopname, count(*) FROM ts_page_content AS c, tmp AS t WHERE c.content_type=main AND c.id=t.id AND t.shopname GROUP BY t.shopname ORDER BY count(*) DESC; 社群資料分析 – 以Food為例 (4) 依內容關鍵字詞或特殊人事物做標記 分次逐步進行標記,例如分為「貴」與「便宜」 之後可單用該表,或與原表JOIN做查詢分析 首次 SELECT id, tit

您可能关注的文档

文档评论(0)

you-you + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档