根据百度旅游预测的结果,我们提前预知了人气爆棚的十大景区。泰山、井冈山这些闻名遐迩的景区自不用说。有趣的是,还有很多知名度没那么高的景区,其实人气非常旺。百里杜鹃,在人们心目中还是一个比较生僻的景点。其实,它有着“世界上最大的天然花园”的美誉,去年、今年清明小长假前夕,百里杜鹃的每日游客量都已突破20万,远远超过了景区的承载能力,非常拥堵。其他传统的热门景区,比如九寨沟、五台山,今年清明小长假期间依然热度不减。还有宁夏的沙湖,被CNN评为“中国最美的40个景区之一”和“中国观鸟首选之地”,也是人气极旺的国家5A级景区。今年清明期间,沙湖正举办第3届国际观鸟节,也将会热闹非凡。
那么,这些以往只能靠刘半仙、王半仙们掐指一算才能得到的发现,是怎样被百度预测挖出来的呢?其实,旅游预测的核心,是基于百度大数据的预测模型。一方面,百度通过其LBS产品记录了全国所有景区的历史人流数据;另一方面,从百度的搜索日志中,得知用户想去的任何景点旅游的需求数据,以及该地在近期将举办的大型活动、民俗集会等相关信息,还可以获取对应时间下的天气、空气质量等数据。这些数据通常是按照时间排列的一系列数值,被称为“时间序列”,简称“时序”。百度大数据部联合百度深度学习研究院(简称IDL)在旅游预测产品中构建了名为“状态空间模型”的时序预测模型,其中所谓的“状态”就是影响时序的各种因素,这些因素对时序影响的效果也在模型中被量化、系统化,进而可以预测将来。这个模型可以轻松的引入新的因素作为新增的状态加入到模型中,以得到更好的预测结果。
百度大数据预测,除了预知景点,还会推出针对旅游城市热度、重大疾病发病率、高考录取、世界杯胜负、电影票房、房地产价格等的预测。预测是大数据的核心价值,百度期望能够通过大数据的挖掘、分析和预测,寻求大数据在民生领域的应用,帮助民众信息获取、生活决策。