- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料库管理 HOMEWORK #5.ppt
1-* 資料庫管理 HOMEWORK #5 楊立偉教授 台灣大學工管系 2014 Fall Homework #5 基於前次作業E-R model進行修改與應用 應用社群大數據進行探索性分析,找出有商應價值之應用 題目分派 每組二大題,含自己的E-R model及下列分派 1: Food 5: Gossiping 2: movie 6: 1999 3: MobileComm 7: Food 4: BuyTogether 8: movie 繳交紙本報告 期末每組上台簡報 作業要求 (1) 指派題目 修正自己的 E-R model,並修正測試資料 設計五個以內具商業價值的問題,並以SQL回答 將修正內容,問題設計(含SQL及答案)作成報告 作業要求 (2) 指派領域 針對該領域所收到的資料,進行分析 設計十個以內具商業價值的問題,並以SQL回答 將問題設計(含SQL及答案)作成報告 評分標準 分成10個等級 指派題目 E-R model及測試資料 正確合理 商業問題設計 正確合理 指派領域 商業問題設計 正確合理 發掘不為人知的資訊 依詳盡用心程度加分 Deadline 於 2014.1.8 前繳至 ceiba,並於當天簡報 由組長繳交即可 繳交 Word檔,做文字說明報告 取名為「組別_題號_學號(小寫)_hw4.doc」 繳交簡報檔(10分鐘內) 取名為「組別_題號_學號(小寫)_hw5.ppt」 兩者一同壓縮為「組別_學號(小寫)_hw5.zip」 資料庫管理 HOMEWORK #5社群資料分析範例 楊立偉教授 台灣大學工管系 2014 Fall 社群資料分析 結合結構性與非結構性資料 結構性資料 以一或多句SQL查詢分析 非結構性資料 (文字) 以標記技巧轉為結構化資料 輔以字串處理函數 再以一或多句SQL查詢分析 社群資料分析 – 以Food為例 (1) 列出推噓最熱門的主文 列出正面情緒最高的主文 SELECT title, comment_count, post_time, author FROM ts_page_content WHERE content_type=main ORDER BY comment_count DESC; SELECT title, comment_count, positive_score, post_time, author FROM ts_page_content WHERE content_type=main ORDER BY positive_score DESC; 社群資料分析 – 以Food為例 (2) 配合字串處理,統計文章標題類別 left(string, len) 自左邊取len個字 right(string, len) 自右邊取len個字 mid(string, start, len) 自start起取len個字 可搜尋Access說明字串 → 字串函數及其使用方法 SELECT mid(title,2,2), count(*) FROM ts_page_content WHERE content_type=main and left(title,1)=[ GROUP BY mid(title,2,2) ORDER BY count(*) DESC; 社群資料分析 – 以Food為例 (3) 依餐廳名稱之討論熱門度進行統計 Step 1 以字串處理取出餐廳名稱,暫存為tmp SELECT id, title, author, instr(1,content,餐廳名稱:) AS pos1, instr(pos1,content, ) AS pos2, mid(content,pos1+5,pos2-pos1-5) AS shopname INTO tmp FROM ts_page_content WHERE content_type=main; 社群資料分析 – 以Food為例 (3) Step 2 與原表JOIN統計最熱門的餐廳 若要加速,可為 JOIN 及WHERE條件欄位建立索引 過濾雜訊資料 SELECT t.shopname, count(*) FROM ts_page_content AS c, tmp AS t WHERE c.content_type=main AND c.id=t.id AND t.shopname GROUP BY t.shopname ORDER BY count(*) DESC; 社群資料分析 – 以Food為例 (4) 依內容關鍵字詞或特殊人事物做標記 分次逐步進行標記,例如分為「貴」與「便宜」 之後可單用該表,或與原表JOIN做查詢分析 首次 SELECT id, tit
您可能关注的文档
- 湖滨初级中学讲解人:吴桂霞.ppt
- 澳大利亚 加拿大 中国.ppt
- 珠海高新区2014年幼儿园教师全员网络培训幼儿2班学习简报.ppt
- 班级:多乐三乙组员:49736012吴宛真 497k0078庄雅真 497.ppt
- 第10课时 文学常识与名著阅读.ppt
- 第2课时 同角三角函数的基本关系与诱导公式.ppt
- 第6章 分配理论.ppt
- 第一章 学习要点.ppt
- 第三章 气硬性胶凝材料.ppt
- 第二章 系统管理的详细设计.ppt
- 2024年学校党总支巡察整改专题民主生活会个人对照检查材料3.docx
- 2025年民主生活会个人对照检查发言材料(四个带头).docx
- 县委常委班子2025年专题生活会带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”对照检查材料四个带头:.docx
- 巡察整改专题民主生活会个人对照检查材料5.docx
- 2024年度围绕带头增强党性、严守纪律、砥砺作风方面等“四个方面”自我对照(问题、措施)7.docx
- 2025年度民主生活会领导班子对照检查材料(“四个带头”).docx
- 国企党委书记2025年度民主生活会个人对照检查材料(五个带头).docx
- 带头严守政治纪律和政治规矩,维护党的团结统一等(四个方面)存在的问题整改发言提纲.docx
- 党委书记党组书记2025年带头增强党性、严守纪律、砥砺作风方面等“四个带头”个人对照检查发言材料.docx
- 2025年巡视巡察专题民主生活会对照检查材料.docx
文档评论(0)