国匠学社12：城市影像研究，从“大数据”走向“学习时代”

国匠学社12：城市影像研究，从“大数据”走向“学习时代”

中规院上海分院刘浏

1、困境与对策

随着城市数据的采集朝着越来越多样化的渠道进行发展，城市的认知也在不断更新。自数字图像普及以来，图像作为信息存储空间占比最大的数据类型其包含的海量信息一直处于尚未开采的状态。

而随着数据存储设备不断降低的成本与云服务的通行，小到个人相机、大到遥感卫星，其所拍摄的大大小小的影像资料纷繁多样。

此外，依托图像来记录信息的这一意愿既符合如今人们高节奏的生活规律，也因为大容量移动存储设备的不断更新而得以实现。

这些数据包含着城市海量信息的方方面面，从这些凝固的记忆中提取信息必然将解锁对于城市方方面面全新的认知。

如火如荼的“大数据”为城市研究提供了大量全新的探究领域，从手机信令、TalkingData、腾讯LBS等企业端数据库，再到公交AFC、出租车轨迹、龙信的企业大数据等等政府平台端数据库。

在越来越多的数据库层出不穷的同时，数据的使用接口却在不断地被收窄。研究者的大量研究精力也逐步从数据挖掘转移到了数据合作获取上。

由于数据占有方对于数据共享和使用的限制导致了大量数据研究人员得不到数据、买不起数据，从而也在客观程度上限制了这些数据对于城市研究的价值发挥。

单就研究、实践领域而言，目前学界主要有两大发展瓶颈：数据源的获取以及算法的深度。

就数据来源而言，随着各界对于城市数据价值的挖掘，越来越多的数据占有方对于自身掌握数据的估价有增无减，不少数据价格惊人。同时很多过去的“开放数据”的提供端口也出现了大量的数据挖掘限制。

不少城市数据的供应商通过采用APIrequest限制、IP限制等手段同样大大提高了数据的获取成本。

就算法深度而言，大量的城市研究数据在研究领域停留在评估现状，而相对更少涉足的规划实践领域的相关研究则主要停留在由此衍生的城市空间结构识别等方面。

考虑到城市规划的实际工作，城市大数据研究所能提供的支持整体上还处于非常初步的阶段。

对于数据源收窄这一问题，我认为今后的发展趋势还可能较为乐观。其发展历程可能可以参照唱片业、软件行业的发展路径。

以研究机构与数据占有方的合作共赢的方式所使用的数据为代表的“正版数据”，以及以网页爬虫为基础的数据挖掘方案为代表的“盗版数据”将极有可能在较长时间内共同存在。

两者各有一定的需求，但从长远发展的角度而言，绝大多数的“盗版”内容将会随着获取成本的增加以及“正版”的收费“平民化”而逐步淡出历史舞台。

在过去的一年多时间内，无论是商业开发合作，比如TalkingData与城市数据团，或者研究课题合作，比如中规院与腾讯云等等，均能在更大范围、更安全环境中开发数据价值，也能将城市研究工作者的大量精力从数据获取拉回至数据分析与思考。

可对于另一个瓶颈，即如何进一步提高数据价值，并且将更多的应用推行至实操层面，目前尚存在理论上的鸿沟。

本质上，大数据本身并不具备规律的解释力，很多现象与规律可以通过大量数据的研究而获得，但往往其成因可能需要经过经验丰富的城市专家审慎的解读。

统计学方面的专家往往希望通过对于既有现象的“训练学习”从而提取规律加以预估未来的方式进行城市研究，但这一方法在面对城市而言，则一度显示出捉襟见肘的一面。因为城市作为一个复杂系统，是否存在足够多外部环境相似的样本以供“学习”？并且足以学习到这些现象背后深刻的发展逻辑与复杂规律？

这一基本问题在很大程度上也限制了数据指引规划的前景。如果在规律性解读不够得当的情况下贸然利用已有数据对将来的发展进行预测，即使忽略政策改变所带来的偏差，这种预测本身也非常危险，难以信服。

就目前来看，“人工智能”或许可能可以成为一个突破口，尤其在最近几年随着深度学习这一概念的火热炒作，在很大程度上给了基于较少样本量的城市数据研究并预测提供了信心。

作为机器学习的一个目前最为成功的分支，深度学习被认为是目前最接近“人工智能”的人类成果。尽管要实现“人工智能”这一终极目标，尚且仍有非常漫长的道路要走，但就目前来看，尤其当看到AlphaGo在挑战围棋的时候，深度学习确实在很多程度上突破了人类固有的对于“机器”自身能力范畴的理解。而基于算法本身的强化与突破，将有可能实现大量的城市新数据的产生。

2、深度学习的异军突起

随着各类社交媒体的铺天盖地的宣传，机器学习、深度学习、神经网络、人工智能等一系列专业词汇不断见诸各地，不少地方甚至出现了一定程度上的滥用、乱用的情况。

因此，在展开研究之前，笔者着重对于这些概念，尤其是下文需要用到的统计学习中的深度学习（DeepLearning）以及支持向量机（SupportVectorMachine）作一定的简单介绍。

学术界的“人工智能”研究最早来自于1956年夏天在达特茅斯学院举办的人工智能研究会议。

当时参会的很多专家，包括约翰·麦卡锡（JohnMcCarthy）、马文·闵斯基（MarvinMinsky）、艾伦·纽厄尔（AllenNewell）、阿瑟·塞缪尔（ArthurSamuel）、赫伯特·西蒙（HerbertSimon）都成为了其后多年的人工智能的专家。

在其后的50-70年代中，研究方向主要以强调通过逻辑推理实现机器类似于人的思考。期间较为典型的代表为1955-1956年间由纽厄尔、西蒙、以及肖恩（CliffShaw）共同研发的“逻辑理论家”（LogicTheorist）程序，作为公认的第一个人工智能的程序，它最终解决了罗素与怀特共著的《数学原理》中52个定理中的38个。

但很快意识到，人工智能的实现并不能仅仅依靠简单的逻辑推理，在度过了由于资金支持短缺而造成的人工智能研究停滞的70年代之后，80年代早期又随着“专家系统”的商业成功而再度兴起。[4]

研究者们认为通过让机器模拟一位或多位专家的知识与分析技巧来实现人工智能的目标，他们认为只要给机器足够多的知识，就可以让其自主完成大量的学习任务，但这一阶段又随着LispMachine在1987年的市场崩塌而再度进入寒冬。

而自上世纪90年代中期至今天的21世纪期间，随着机器学习的兴盛，1997年的深蓝、2016年的AlphaGo都通过成功的市场运作，使得人工智能再一次重新成为了全球瞩目的焦点。

在“人工智能”这一终极宏达蓝图的背后，机器学习作为近20多年来重要的研究方向，是一门涉及了大量统计学理论知识背景的高度综合性学科。

而机器学习算法也是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

事实上，直到90年代中后期，统计学习才开始逐步占据主导优势，而统计学习的两大重要的研究分支即为支持向量机（SVM）与深度学习（DeepLearning）。

前者可以通过核函数将低维非线性问题映射至高位线性问题，通过这种训练模式，通常在样本量较小的时候依然可以取得较为准确的预测结果。但其在大规模样本训练以及多分类问题方面却有很大的限制。

而深度学习这一方法则是在近几年来才随着几次重大的学术、商业事件而逐步火热起来。

在深度学习三巨头于2015年所撰写的回顾中，将这种方法解释为：“深度学习就是一种特征学习方法，把原始数据通过一些简单的但是非线性的模型转变成为更高层次的，更加抽象的表达。通过足够多的转换的组合，非常复杂的函数也可以被学习。”

这一局面直到2006年来自CIFAR（加拿大高级研究员）所提出的利用非监督学习实现“预训练”的方法来创建一些网络层来监测特征而不适用带标签的数据。

通过这一过程，深度网络的权值可以被初始化为更具价值的值，然后再通过BP算法对整个模型的权重分配进行微调。

事实证明，尤其以带标签的数据非常少的情况下，该方法对于手写体数字的识别以及行人预测任务产生了显著的效果。在其后通过GPU加速，这一算法被大规模应用于语音识别技术之上，至2009年到2012年底，较大规模的语音团队开发了这种深度网络的多个版本，并大量运用于商业领域。

另一方面，一种通过卷积神经网络的方法得以实现的深度学习技术在图像信息提取方面取得了更为惊人的突破。

利用卷积算法叠加大量的图像处理层，使得计算机识别图像的能力得到了极大的提升，这一技术在2012年世界计算机视觉大赛ImageNet中大放异彩，如今已经成为了全球最为火热与流行的图像处理技术。

并且这一技术在商业领域的运用价值也在逐步扩展，从过去的人脸识别、监视器识别等较为简单的识别任务上升到比如在Google的Allo中所采用的利用RNN叠加之后所实现的到照片自动点评系统等等。

城市影像研究是一项需要长期投入并持续研究的计划。

所谓长期研究，既考虑到因图像处理技术革新而可能提升的视觉辨识能力，也为今后针对城市变迁进行历史对比而打下基础。

城市影像研究主要有两大类别：一类是以个人为记录主体的主观记录的城市影像，另一类为以机器作为记录主体而留下的城市影像。

前者所代表的是个人主观意象所记录的城市空间，比如来自Panoramio，Flickr等大量的城市照片分享平台的数据，而后者则代表着城市物质空间的客观记录，比如GoogleStreetView等各类街景地图。

3、探索与发展

建立城市影像数据库，并开展的两大研究计划分别为：城视意象计划与街眼计划。

研究 A：城视意象计划

早在2013年我提出过利用panoramio的照片并结合CNNplaces深度学习技术讲城市中的各类照片加以分析的研究方法。

在研究的初步阶段，仅仅依靠图像的地理坐标信心，已经可以将其在城市空间中所呈现的分类特征与60多年前凯文林奇所完成的城市意象调研所得到的结果进行一定程度的对比研究。

通过对比表明，大量的由个人上传的城市照片与传统城市意象研究得出的城市空间结构在很多方面呈现出高度的相关性。

比如在林奇所提出的五大基本要素方面，“节点”、“路径”、“边界”、“地标”等要素方面均可以通过城市照片点的分布疏密加以判断，仅在“地区”这一要素的识别上存在偏差。

这也间接体现了采用主观照片针对城市空间的研究具有很强的实用性以及普及性。

更进一步的是，通过采用深度学习的方法，将城市照片的数据进行提取分析之后所得到的城市意象信息更为丰富，学术研究价值的浓度也大大提升。

通过该方法，我将城市的空间中照片识别出的102类特征加以分类、总结归并，并最终归纳总结为七大类城市意象：绿色意象、水意象、交通意象、楼宇意象、古建意象、活动意象、以及运动意象等。

这些城市意象对于城市空间与人的主观感知具有高度的相关性，比如在照片视觉意象中的“楼宇意象”，其本质上是在检验照片中是否出现了垂直高层的对象。而对应到城市空间中，这一对象既有可能出现在现代都市的CBD中高楼林立的金融区，也同样有可能出现在欧洲老城窄小的巷子内。

从这一点而言，照片分析从某种程度上更接近于人眼的主观感受，而会将诸如具体客观的指标忽略掉，比如建筑高度。实际上，这一点与传统意义上街道的美学中所强调的街道高宽比是一致的。

研究B：街眼计划

另一方面，为增强地图服务而展开的国内外一系列城市街道空间的捕获计划也给了城市街道空间大量的研究机会与探索价值。

这些以各类城市街景地图为主的，并且客观记录的城市影像数据对于城市建成区空间环境的整体评价，以及城市风貌的对比提供了良好的客观记录。

事实上，如何将深度学习处理图像的技术运用于街景照片是一个需要长期大量研究的课题。这里尝试利用城市街道风貌对比的方式来部分展示深度学习在城市风貌把握上的解析能力。

考虑到城市街道占据了体验城市风貌最主要的空间体验场所，而基于人的视点而拍摄的街景照片从本质上而言也将成为城市整体建设风貌最直接的体现。

因此，借由深度学习来分析城市街景照片的一个最为直接能实现的功能即为城市整体风貌分析。

另一方面，在城市建设的过程中，“千城一面”的这一问题也似乎已然困扰我们多年。大量城市的风貌由于较为粗野的城市开发建设而导致的单一、无序，也给城市规划行业带来了很多负面的压力。

通过深度学习，图像识别功能将可以实现定量化的城市之间的风貌比对。这里先挑选40个城市中心地区的街景风貌进行相似度比对，给大家略作展示。

部分城市街景风貌：

经过支持向量机得出的街道风貌，很明显计算机通过图像的自动识别竟把我们传统意义上“南方”与“北方”的城市风貌给区分了开来！

当然此外还有很多其他的街景识别的工具和处理方案，如有兴趣，我会进一步在project专题页面中po出。

写的累了，大致就这些吧~~~

最后啰嗦一句，欢迎转发，但请标明出处！这里是城室，一个城市数据研究兴趣小组，当然目前就我一个人在瞎搞，也欢迎有兴趣有能力的小伙伴一起来玩。联系方式：lyons66@qq.com

本文来自作者网站 Citory.net，感谢作者授权发布。

– 国匠城 –

城市规划理想

获取

中规院上海分院 刘浏

Related Posts

【荐读】《十步让你工作事半功倍》

[PDF电子书下载] 网络监测

《地基基础工程学习指导》pdf格式电子书下载

发表回复

中规院上海分院刘浏