微波交通数据咋检测异常值？这方法绝了，效率飙升

于城市交通管理工作里面，凭借微波设备所采集到的数量众多的数据当中，常常会夹杂融合着错误的信息，传统型的依靠人工去进行筛选的方式，其所能达到的效率较为低下，并且很难去应对具备多维特性的数据，如此状况直接对交通方面的分析以及随之作出的决策的质量产生影响。

微波交通数据的特点

微波交通检测器常常安放在城市主干道或者快速路的龙门架之上，像北京的三环路上就大量布置了这种装置。它借助发射微波并且剖析反射波的方式来收集数据，主要的维度涵盖每分钟的车流量、全部车辆的平均速度以及道路被车辆占用的时间占比。这些数据以分钟或者小时作为间隔持续生成，每天能够形成庞大的数据集，给分析城市交通流状态奠定了基础。可是，设备长时间处于户外环境，有可能由于遭受雷击、部件出现老化或者受到瞬时干扰而出现故障状况，因而能够致使采集所得到的车速达到300公里每小时情况或者车流量呈现为负值等显著错误现象发生。这些统计方面的异常数值会对真实的交通状况描述造成扭曲。

传统异常值检测的局限

现如今，好多交通管理部门依旧依靠技术人员的经验去识别数据异常，比如说，技术人员会依据经验觉得工作日上午某路段的车速不应该低于5公里，进而手动标记可疑数据，这般做法极为依赖个人经验，不同人员的判断标准有可能不一样，致使处理结果主观性突出，在面对涵盖车流、速度、占有率三个维度的数据之际，人工很难直观判定一个数据点在多维空间里的位置是否恰当，常常只能逐个维度去检查，效率十分低下，没办法处理全市数千个检测点所产生的实时大数据。

多维度数据融合的价值

单维度的单纯分析有着清楚明晰的明显缺陷，如某时段车流量处于正常状态，然而平均车速却呈现出异常高的情况，此情形或许是由于设备错误地把大型车辆的反射识别成高速行驶的小车所致。倘若是只注重车速这一维度，那么极有可能被误判成异常；但要是结合极低的车流占有率（道路相当空旷）来看，这组数据在业务层面或许是具备合理性的。所以，把车流量、速度、占有率等多个维度相互结合起来开展整体分析，能够从更为全面的视角去判断数据的合理性，进而区分出由设备故障引发的“真异常”以及因特殊交通状况产生的“伪异常”。

聚类算法的检测原理

K-means聚类算法，其核心想法是把相似的数据点归为同一类。先得对所有维度的数据做标准化处理，常用min – max方法把不同量纲的数据缩放到0至1之间，以防数值大的维度主导计算结果。随后算法随机挑K个点当作初始中心，算出每个数据点到这些中心的欧式距离，再把它分配给离其最近的中心点所在的类。接着重新计算每个类的中心点，持续迭代，直至中心点位置稳定。最终，多数正常数据会聚集在几个大类之中，每个大类有其中心，中心位置稳定，且大部分正常数据聚集于此，聚集于此的数据点具有相似性，这种相似性是算法基于欧式距离等计算后所确定的，而整个过程是先标准化处理数据，再随机选初始中心，计算距离进行分配，重新计算中心迭代，直至稳定，最终达成大部分正常数据聚集。

异常类别的识别与判定

历经聚类之后，那些涵盖数据点数目极少的类别，往往便是潜在的异常值集合。举例来说，在针对一个路口一周数据的聚类成果里，有可能生成5个类别，其中4个类各自对应着工作日高峰、工作日平峰、周末高峰、周末平峰的常态模式，每个类均含有大量数据点。然而第5个类仅拥有零星的几个数据点，并且其特征呈现为车速极高与此同时车流量为零，这显著不符合物理规律，因而能够判定为异常数据。此种方法系从数据分布的整体样态出发，自动寻觅出“少数派”以及“异类” 。

方法的应用优势与前景

这种手段使得异常检测从依据人工经验作出判断，转变成为借助自动化算法的流程，格外适宜于去处理全市乃至全省联网的微波检测设备所产生的数据。在实践这方面，深圳等城市已然尝试把类似算法整合于交通数据质量管理平台里，达成了对海量数据的批量自动清洗，把数据质检的时间从数天缩减到仅仅几小时。它不但提高了效率，还为后续的交通状态研判、拥堵溯源分析以及道路规划供应了有着更高质量的数据作基础，是智慧交通系统建设当中关键的数据预处理环节。

您觉得于智慧交通系统构建里头，除掉数据质量之外，当下最为急切所要处理的技术或者管理方面的瓶颈是啥呢，欢迎于评论区当中-share您的观点，要是认为此篇文章对您有帮助的话，请点赞予以支持。

发表评论 取消回复

发表评论取消回复