4G优化案例:利用MRS基于可解释性机器学习的带有直放站扇区识别.docxVIP

4G优化案例:利用MRS基于可解释性机器学习的带有直放站扇区识别.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用MRS基于可解释性机器学习的带有直放站扇区识别 XX 一、【案例主体】: 部分LTE网络覆盖场景存在直放站,作为干扰优化、覆盖优化、切换优化、时延优化的重要前提,准确识别带直放站小区是相关工作的重要一步。江苏网优中心利用可解释性高的机器学习方法,实现带有直放站扇区识别,主要工作包括: 利用MRS_TADVRSRP二维表,根据时延和覆盖质量信息判断是否存在直放站; 应用高可解释性机器学习模型,高效高精度确定最优判定门限; 准确性高,效果明显。 二、【问题表述】: 1)选择何数据作为分析对象 2)正负样本如何获取,如何处理 3)如何进行数据预处理和特征工程 4)可解释性机器学习模型选择 5)模型质量评估 三、【解决思路】: 问题1:选择何数据作为对象分析 (1)选择MRS_TADVRSRP,包含时延(11个分段)和RSRP覆盖质量信息(12个分段)二维表用作判断 问题2:正负样本如何获取,如何处理 (1)获取现有确定带有直放站的扇区(如自建直放站扇区)作为正样本,其它扇区作为负样本。可见正样本准确度较高,但比例较低仅占全部样本的0.69%;负样本准确度稍低(包含少部分未识别的带直放站小区); (2)该数据为严重不平衡数据,在建立模型时必须注意正负样本均衡性。 问题3:如何进行数据预处理和特征工程 (1)为建立可解释性模型,新增特征集MR_TADViRSRPj_ratio,定义为: M 即MR_TADViRSRPj_ratio为TADV大于等于i,RSRP低于等于j的采样点在全部样本点的占比。在生成新的特征同时,解决了不同扇区采样点数量不一致的数据标准化问题。 问题4:可解释性机器学习模型选择 (1)模型采用深度为1的决策树模型,即利用决策树算法(本文采用CART树算法)对于MR_TADViRSRPj_ratio特征字段进行一次划分,寻找最佳的MR_TADViRSRPj_ratio特征字段及其最佳分割门限。 (2)利用决策树参数解决数据不平衡问题。 问题5:模型质量评估 (1)采用二分类问题常规评估方法,但由于数据集对于正样本准确性高(手工标注),负样本准确性低(包含少量未实际带直放站但未标注扇区),因此更加关注召回率指标recall = TP/(TP+FN); (2)最终结果中原始数据标记为负样本,但预测为正样本的数据(即FP)是未标记但疑似带直放站的模型输出判断结果。模型需要在保证召回率指标recall一定的情况下(90%),尽可能增加FP数量。 四、【具体步骤】: 1、数据选择MRS_TADVRSRP二维表分析 选择MRS_TADVRSRP,包含时延TADV(11个分段)和RSRP覆盖质量信息(12个分段)二维表用于直放站识别,即判定门限应为时延和信号质量因素的组合。下图为确定带直放站的小区(正样本)MRS_TADVRSRP数据平均分布图,左侧为TADVRSRP标称值,右图为标称值对应的TADV和RSRP实际值。可见显著的双峰,其中直放站施主扇区呼叫集中在48Ts以内,RSRP均值在-93dBm;直放站呼叫集中在384~768Ts以内,RSRP均值在-90~-93dBm之间。MRS_TADVRSRP二维表数据适合作为直放站判断数据源。 2、数据预处理和特征工程 为建立可解释性模型,新增特征集MR_TADViRSRPj_ratio,定义为: M 即MR_TADViRSRPj_ratio为TADV大于等于i,RSRP低于等于j的采样点在全部样本点的占比。如下图所示: RSRP RSRP TADV 0 11 10 该部分样本占比 RSRP=7 TADV=6 如本案例最终决策树分裂门限选择为MR_TADV06RSRP07_ratio 0.8%时,判断为带直放站。特征字段选择MR_TADV06RSRP07_ratio,及门限决定为0.8%是机器学习算法获得的最优结果。 通过建立上述特征,实际是将原二维表转为一个一维表;在生成新的特征同时,解决了不同扇区采样点数量不一致的数据标准化问题。 3、决策树模型建立 模型采用深度为1的决策树模型,即利用决策树算法(本文采用CART树算法,sklearn包)对于MR_TADViRSRPj_ratio特征字段进行一次划分,寻找最佳的MR_TADViRSRPj_ratio特征字段及其最佳分割门限。 利用sklearn.DecisionTreeClassifier的class_weight参数实现正负样本平衡,取class_weight={1:1,0:0.05},即相当于负样本5%欠采样,即原始正样本占比0.69%调整为12.2%,正样本特征得到强化。 sklearn输出的决策树报告为: digraph Tree { node [shape=box] ; 0 [label=MR_TADV06RS

您可能关注的文档

文档评论(0)

5GNPO + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档