基于次大值标杆秘书问题研究.docVIP

下载本文档

6
0
约3.66千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于次大值标杆秘书问题研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于次大值标杆秘书问题研究

基于次大值标杆秘书问题研究　　摘要：秘书问题的实质是决定何时停止观察选项、而不是哪一个选项被选择，已有解决秘书问题的策略，其主要特征是以取样选项中的一个最大值作为标杆。该策略的优点是能保证命中概率最大，然而其不足是很少考虑决策者的有限理性与启发式偏见，因此本文提出了次大值标杆的设想，然后从理论上计算出该策略的最优截止阀值与命中概率，并通过计算机仿真实验验证与比较了该策略的特征与规律。研究结果发现在最大化命中概率的条件下，标杆降低导致取样观察选项的数量不断增加，但命中概率却逐渐降低。　　关键词：决策科学；次大值标杆；计算与仿真；秘书问题　　中图分类号：0211 　　文章标识码：A 　　文章编号：1007-3221(2007)04-0001-05 　　　　0　引言　　　　信息搜索是决策过程中的一个重要环节。一般来说，许多决策任务的信息并不是同时完全呈现出来、而是随时间变化依次出现的。因此，人们在等待获取决策信息的同时，也可能正失去最佳选择的机会。例如下面一个决策情境：何时出售股票? 　　假设你持有一支股票，在一段时间内欲以最高价格一次性全部卖出。股市行情变幻莫测、难以捉摸，假定该段时间内依次出现30个随机分布的价格，而且没有重复。每次出现一个价格，你就决定是否卖出。若接受就表示同意卖掉股票，完成股票交易；若拒绝则继续观察下一次价格。如果你拒绝了前29次价格，则只能被迫接受最后一次价格。你的目标当然是希望以最高价格卖出。　　与此类似的决策情境还有：秘书问题、约会问题、嫁资问题、工作搜索问题、卖(租)房子问题、采纳新技术问题、灾难救治问题，等等。习惯上，人们都把这种关于何时停止观察与选择，以及与此情境相关的某些序贯决策问题，统称为秘书问题(Secretary Problem，SP)，它是概率统计领域的一个经典问题。　　文献运用概率论与动态规划的方法，论证了解决SP的一个最优解策略(optimal policy)。具体来说，决策者拒绝前面的r* -1个选项(r*是迄今为止已经观察过的选项数量)，并且记住其中的一个最大值选项A；然后选择从此以后、第一个大于A的选项，而且如此选择能保证命中概率(即选中最选项的概率)最大。通过推导与计算得出，当n→∞时，r*＝1/e×n；而且命中概率也接近1/e≈37％。可以看出，最优解策略意味着阀值前、取样观察选项中最大值选项A的确定非常重要。也就是说，这个最大值选项是一个标杆(benchmark)，决策者一旦发现阀值后大于该标杆的选项就停止观察，进而选择这个选项。很明显，最优解策略假设决策者是完全理性的；即在取样观察确定标杆的过程中，不受其它噪音信息的干扰，完全执行这个最大值标杆原则。国内有研究基于理论计算的最优解策略，探讨了两个标准下(命中最优选项的概率最大；被选择者绝对名次的平均值最小)如何搜索与选择的问题。　　不过在现实生活中，人们经常会发现由于标杆设置的太高，导致决策者很难尽快做出选择的现象。尤其是，在一些情境下高标杆的设置，使得决策者永远也不能做出选择，因为这个设置的标杆可能就是整个选项集中最优的选项。相反，如果决策者设置了一个次优的标杆(比如说是r* -1个选项中第二大、第三大选项，我们称之为次大值标杆，以对应于前面的最大值标杆)；由于SP情境中选项质量的分布是随机的，那么阀值后第一个大于次大值标杆的那个被选择项，也有可能是整个选项集中最优的选项。也就是说，次大值标杆的设置也有一定命中概率。更为关键的是，次大值标杆的设置可以降低决策者的脱靶概率(脱靶即标杆太高，导致最后无法选择一个选项)。而且有研究也指出，在许多时候人们做出选择总比无法做出选择要好。　　综上所述，人们无论是出于尽快做出选择、或者避免后来无法做出选择的主观考虑，还是出于次大值策略也有一定命中概率的客观分析，在一些情境下都有可能执行次大值标杆策略。这种设想与有限理性假设、以及启发式判断偏见的理论是一致的。因为完全理性的决策者，虽然清楚最大值标杆命中概率最大；但是在现实决策中的人们往往不是完全理性的，决策准则也不一定是命中概率最大、而是满意原则。同时，有限理性的决策者很容易执行启发式捷径决策策略。因此，本文研究目的就是基于有限理性假设，在最大值标杆策略的基础上，探索次大值标杆策略的规律与特征，以期从中发现标杆与停止阀值之间变化的一些规律。　　　　1　基于最大值标杆的最优解策略模型　　　　秘书问题情境下决策过程每一时段的状态，可用两个整数(r，s)来表示。其中，r是迄今为止已经观察过的选项数量，s是刚刚观察过的第r个选项的相对排序值。如果s不等于1，就不可能接受第r个选项，因为它不可能是所有选项n中的最大值选项；如果s等于1，那么这第r个选项就是一个可能被接受的选项。实