4G优化案例：利用MRS基于可解释性机器学习的带有直放站扇区识别.docxVIP

下载本文档

26
0
约3.53千字
约 6页
2021-05-11 发布于安徽
举报
版权申诉

4G优化案例：利用MRS基于可解释性机器学习的带有直放站扇区识别.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

利用MRS基于可解释性机器学习的带有直放站扇区识别 XX 一、【案例主体】：部分LTE网络覆盖场景存在直放站，作为干扰优化、覆盖优化、切换优化、时延优化的重要前提，准确识别带直放站小区是相关工作的重要一步。江苏网优中心利用可解释性高的机器学习方法，实现带有直放站扇区识别，主要工作包括：利用MRS_TADVRSRP二维表，根据时延和覆盖质量信息判断是否存在直放站；应用高可解释性机器学习模型，高效高精度确定最优判定门限；准确性高，效果明显。二、【问题表述】： 1）选择何数据作为分析对象 2）正负样本如何获取，如何处理 3）如何进行数据预处理和特征工程 4）可解释性机器学习模型选择 5）模型质量评估三、【解决思路】：问题1：选择何数据作为对象分析（1）选择MRS_TADVRSRP，包含时延（11个分段）和RSRP覆盖质量信息（12个分段）二维表用作判断问题2：正负样本如何获取，如何处理（1）获取现有确定带有直放站的扇区（如自建直放站扇区）作为正样本，其它扇区作为负样本。可见正样本准确度较高，但比例较低仅占全部样本的0.69%；负样本准确度稍低（包含少部分未识别的带直放站小区）；（2）该数据为严重不平衡数据，在建立模型时必须注意正负样本均衡性。问题3：如何进行数据预处理和特征工程（1）为建立可解释性模型，新增特征集MR_TADViRSRPj_ratio，定义为： M 即MR_TADViRSRPj_ratio为TADV大于等于i，RSRP低于等于j的采样点在全部样本点的占比。在生成新的特征同时，解决了不同扇区采样点数量不一致的数据标准化问题。问题4：可解释性机器学习模型选择（1）模型采用深度为1的决策树模型，即利用决策树算法（本文采用CART树算法）对于MR_TADViRSRPj_ratio特征字段进行一次划分，寻找最佳的MR_TADViRSRPj_ratio特征字段及其最佳分割门限。（2）利用决策树参数解决数据不平衡问题。问题5：模型质量评估（1）采用二分类问题常规评估方法，但由于数据集对于正样本准确性高（手工标注），负样本准确性低（包含少量未实际带直放站但未标注扇区），因此更加关注召回率指标recall = TP/(TP+FN)；（2）最终结果中原始数据标记为负样本，但预测为正样本的数据（即FP）是未标记但疑似带直放站的模型输出判断结果。模型需要在保证召回率指标recall一定的情况下（90%），尽可能增加FP数量。四、【具体步骤】： 1、数据选择MRS_TADVRSRP二维表分析选择MRS_TADVRSRP，包含时延TADV（11个分段）和RSRP覆盖质量信息（12个分段）二维表用于直放站识别，即判定门限应为时延和信号质量因素的组合。下图为确定带直放站的小区（正样本）MRS_TADVRSRP数据平均分布图，左侧为TADVRSRP标称值，右图为标称值对应的TADV和RSRP实际值。可见显著的双峰，其中直放站施主扇区呼叫集中在48Ts以内，RSRP均值在-93dBm；直放站呼叫集中在384~768Ts以内，RSRP均值在-90~-93dBm之间。MRS_TADVRSRP二维表数据适合作为直放站判断数据源。 2、数据预处理和特征工程为建立可解释性模型，新增特征集MR_TADViRSRPj_ratio，定义为： M 即MR_TADViRSRPj_ratio为TADV大于等于i，RSRP低于等于j的采样点在全部样本点的占比。如下图所示： RSRP RSRP TADV 0 11 10 该部分样本占比 RSRP=7 TADV=6 如本案例最终决策树分裂门限选择为MR_TADV06RSRP07_ratio 0.8%时，判断为带直放站。特征字段选择MR_TADV06RSRP07_ratio，及门限决定为0.8%是机器学习算法获得的最优结果。通过建立上述特征，实际是将原二维表转为一个一维表；在生成新的特征同时，解决了不同扇区采样点数量不一致的数据标准化问题。 3、决策树模型建立模型采用深度为1的决策树模型，即利用决策树算法（本文采用CART树算法，sklearn包）对于MR_TADViRSRPj_ratio特征字段进行一次划分，寻找最佳的MR_TADViRSRPj_ratio特征字段及其最佳分割门限。利用sklearn.DecisionTreeClassifier的class_weight参数实现正负样本平衡，取class_weight={1:1,0:0.05}，即相当于负样本5%欠采样，即原始正样本占比0.69%调整为12.2%，正样本特征得到强化。 sklearn输出的决策树报告为： digraph Tree { node [shape=box] ; 0 [label=MR_TADV06RS