关注留言点赞,带你认识最流行的软件研发知识与最新科技行业趋势。
最新技术怎样帮忙蜂窝供给商改进她们的服务。
人工智能和设备学习已然为零售、银行或运输等行业供给了有些令人印象深刻的用例。虽然这项技术远非完美,但 ML 的进步亦让其他行业受益。在本文中,咱们将审视咱们自己关于怎样使 Internet 供给商的运营更有效的科研。
经过反常检测改进 4G 网络流量分配
前几代蜂窝网络在网络资源分配方面效率不高,始终为所有地区供给均匀覆盖。例如,您能够设想一个持有大城市、小镇或绵延数英里的森林的广阔区域。所有这些地区都得到了相同数量的覆盖——尽管城镇需要更加多的互联网流量,而森林需要的很少。
思虑到现代 4G 网络的流量更高,蜂窝供给商能够经过优化频率资源的利用来实现可观的节能效果并改善客户体验。
基于设备学习的反常检测能够预测网络各个部分的流量需要,帮忙运营商更恰当地分配流量。本文基于咱们对来自公共行业的信息的分析,并实施了 ML 算法,以一种可能的办法有效地处理了这个问题。
这个特定问题有多种处理方法。最有趣的包含:
运用自动标记技术在蜂窝网络中进行反常检测和归类,以应用适用于 2G/3G/4G/5G 网络的监督学习。
CellPAD 是一个统一的性能反常检测框架,用于经过回归分析检测蜂窝网络中的性能反常。
数据概览
该科研是运用从实质 LTE 网络中提取的信息完成的。该数据集总共包括 14 个特征,其中 12 个是数值特征,2 个是归类特征。咱们有将近 40,000 行无缺失值(空行)的数据记录。数据分析团队将信息分为两个标记类别:
正常或 0:数据不需要任何重新配置或重新分配
反常或 1:因为反常活动需要重新配置
标签是按照网络特定部分的流量手动执行的。然则,能够选取利用神经网络进行自动数据标记。查询此功能的 Amazon SageMaker Ground Truth,或来自 Google AI 平台的数据标签服务。
数据分析结果
对标记数据的分析向咱们显示,全部数据集是不平衡的。咱们有 26,271 个正常值(0 级)和 10,183 个(1 级)反常值:
按照数据集,创立皮尔逊关联矩阵:
4G 网络利用率特征关联图 (Pearson)
如您所见,海量特征高度关联。这种关联性使咱们能够认识数据集中的区别属性是怎样相互连接的。它做为区别建模技术的基本量,有时能够帮忙咱们发掘因果关系并按照一个属性预测另一个属性。
这次咱们有完全正面和消极的属性,这可能会引起多重共线性问题,从而以欠好的方式影响模型的性能。当能够从任何其他变量高度准确地线性预测多元回归模型中的一个预测变量时,就会出现这种状况。
对咱们来讲幸运的是,决策树和提高树能够经过在分裂时选取一个完全关联的特征来处理这个问题。当运用规律回归或线性回归等其他模型时,请记住它们可能会遇到此问题并且需要在训练前进行额外调节。处理多重共线性的其他办法包含主成分分析 (PCA) 和删除完全关联的特征。对咱们来讲最好的选取是运用基于树的算法,由于它们不需要任何调节来处理这个问题。
基本准确率是衡量归类的关键指标之一,它是正确预测与数据集中样本总数的比率。如前所述,咱们的案例中有不平衡的类别,这寓意着基本准确度可能会为咱们供给不正确的结果,由于高指标无表示少数类别的预测能力。
咱们的准确率能够接近 100%,但在特定类别中的预测能力仍然很低,由于反常是数据集中最罕见的。咱们决定不运用准确性,而是运用 F1 指标,即精度和召回率的调和平均值,这针对不平衡的归类状况非常有用。F1 指标涵盖从 0 到 1 的范围,其中 0 是完全失败,1 是完美归类。
样本能够按四种方式排序: True Positive, TP——正标签和正归类True Negative, TN——一个负标签和一个负归类False Positive, FP——负标签和正归类False Negative, FN——一个正标签和一个负归类
以下是不平衡类别的指标:
真阳性率、召回率或灵敏度
误报率或失败
精确
真阴性率或特异性
F1-score指标 的公式为:
咱们选取的算法
DecisionTreeClassifier 对咱们来讲是一个很好的起点,由于咱们在测试选取上得到了 94% 的准确率,而无需任何额外的调节。为了使咱们的结果更好,咱们转向了 BaggingClassifier,它亦是一种树算法,按照 F1 分数指标,它为咱们供给了 96% 的准确率。咱们还尝试了 RandomForestClassifier 和 GradientBoostingClassifier 算法,它们的准确率分别为 91% 和 93%。
特征工程过程
因为基于树的算法,咱们取得了很好的结果,但仍有有些增长空间,因此呢咱们决定进一步加强准确性。在处理数据时,咱们添加了时间特征(分钟和小时),增多了从“时间”参数中提取一天中部分时间的可能性,并尝试了时滞特征——这些措施并无太大帮忙。然而,有助于改进模型结果的是运用准许特征转换和数据平衡的上采样技术。
参数调节过程
所有开箱即用的算法都表示出超过 90% 的结果,这非常好,然则运用 GridSearch 技术,能够进一步改进它们。在四种算法中,GridSearch 对 GradientBoostingClassifier 最有效,并帮忙实现了惊人的 99% 的准确率,从而完成为了咱们最初的目的。
结论
咱们在本文中强调的问题在所有供给 3G 或 4G 覆盖的移动互联网供给商中非常广泛,能够加以处理以改善用户体验。在这种状况下,“反常”被视为互联网流量的浪费。设备学习模型能够按照输入数据决定资源分配的有效性。所描述的运用 GridSearch 调优的 GradientBoostingClassifier 的用法能够帮忙机构评定流量分配的效率,并意见她们需要更改那些参数以供给最佳的用户体验。
无效的流量利用并不是数据科学在电信行业能够处理的独一问题。合适的研发团队亦能够供给欺诈检测、预测分析、客户细分、客户流失预防和生命周期价值预测等处理方法。
|