第五章错误资料处理.pdfVIP

下载本文档

0
0
约7.15千字
约 6页
2018-04-29 发布于河南
举报
版权申诉

第五章错误资料处理.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五章错误资料处理

第五章．錯誤資料處理在這一章中，我們將考慮錯誤資料(noise)的問題，即演算法對錯誤資料的處理。演算法主要是由每一個流程例中，找出每一個活動緊臨的下一個活動，來代表這個活動可能的下個活動(演算法中認為兩活動間可能有執行順序，寫為 none_pair) ，收集了所有流程例的資料後，便可以找出這個活動所有可能的下個活動。再利用兩活動時間有交集(演算法中寫為 overlap_pair或 contain_pair)，則不可能有執行順序關係的特性，自所有可能的下個活動中刪去，以找出最後的有向圖。這樣的演算法是利用多個流程例資料而來，但大量的資料中可能會有錯誤資料(noise) ，演算法也必須考慮這個問題。因此，可以考慮對所記錄下來的活動執行關係(包括 none_pair、 overlap_pair或 contain_pair) ，計算其次數，然後在次數上加上一個門檻值 (threshold) 。如果記錄下來的活動執行關係次數太少，低於門檻值，則認為這個關係可能是由錯誤資料而來，而將這些關係刪去，避免影響最後的結果。但是門檻值應如何設定呢？讓我們考慮一下，如果門檻值設得太低，自然無法過濾掉錯誤資料，但如果設得太高，則又可能將正確的活動執行關係去掉。因此必須設定一適合的門檻值，才能過濾不正確的錯誤資料而不影響正確的活動執行關係。那麼，適合的門檻值如何設定呢? 在考慮門檻值設定的高低前，讓我們先參考圖3-7 。圖 3-7 是兩活動間所有可能記錄的關係。演算法執行時，兩活動依其執行時間先後、長短，可記錄兩者之間有如圖 3-7(a)-(f)的關係(只有這六種關係) 。另外，對於門檻值的設定，我們有一些基本假設： (1)錯誤資料少於正確資料：門檻值的設定，目的在過濾錯誤資料，而剩下正確的資料。所以錯誤資料數應比門檻值小，而門檻值應比正確資料數小，才能藉由門檻值的設定達到過濾錯誤資料剩下正確資料的目的。如果錯誤資料數多於正確資料，則不可能設定一個門檻值，可以過濾次數多的錯誤資料卻可以留下次數少的正確資料。所以，考慮門檻值的設定，首要假設是錯誤資料數少於正確資料數。 (2)假設錯誤資料隨機(random)發生：錯誤資料的來源，可能是多記錄了活動、少記錄了活動或是記錄下來的活動時間不正確，而產生異樣的活動 53 執行關係。因為門檻值的設定，目的在處理記錄下來、不正確的資料，所以少記錄活動的錯誤，不可能由門檻值的設定來解決。因此，門檻值的設定目的在解決多記錄、錯誤記錄的活動執行。這些記錄下來的錯誤資料，假設其隨機發生，也就是圖3-7(a)-(f)皆有可能發生，且發生機率相等。 (3)若兩活動之間獨立，假設活動執行關係隨機(random)發生：如果有兩個活動(設為活動 A 、活動 B) ，它們是平行、獨立的，則前述圖 3-7(a)-(f) 的執行關係都有可能發生。當然，如果有某些語意(semantic)資訊提供，如活動 A 執行時間很久，則活動A 、B 執行時間之間的關係，可能像圖 3-7(b)-(e)的機會較大，而像圖3-7(a)、(f)的機會較小。但在沒有這些語意資訊的提供下，我們假設如果兩活動獨立，則這兩個活動執行時間關係隨機發生，也就是出現如圖3-7 的六種關係的機率均相等(皆為 1/6) 。當然，如果使用者可以有某些語意資訊，也可以用更準確的機率值來代替。在這三個假設之下，考慮本研究的演算法1 、2 。在演算法 2 的 step1中，為每一種記錄下來的關係，加一個記數變數(counter) ，以記錄這種執行關係的次數。另外，因為兩個活動被記錄下來的執行時間，如果有交集的關係(包括 contain_pair和 overlap_pair) ，也就是如圖3-7(b)-(e)的四種關係，則會認為這兩個活動彼此平行、獨立，而刪去順序關係(如圖 3-7(a)、(f)的關係)