一起英国谋杀案,成为中国数据开放的起点 | 数据科学50人·高丰
文/陈琪
如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家、从业者们又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的顶尖数据科学从业者,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。数据应在社会中扮演什么样的角色?
这个问题,不同的人可能会有不同的答案。在常见的理解中,数据是一种工具,或者是一种资产,但对于高丰来说,数据还是一种公共基础设施。
DT君依稀记得初见高丰时的画面,一个憨厚的胖子,开口就是和你聊专业的“开放数据”话题,聊得不亦乐乎。高丰的身上有很多标签:SODA理事会理事、苏打数据CEO、英国开放知识基金会中国大使……但这些身份都指向了同一个关注点:开放数据。
(图片说明:DT君在上海专访高丰博士)从2012年起,他尝试通过各种方式推广开放数据。
开放数据指的并不仅仅是公开数据,而是具有可重用格式和开放协议,鼓励更多人去使用,创造不同附加值的数据。
(图片说明:高丰在公开演讲中阐述的“开放数据”定义)作为国内推动开放数据的先锋,高丰的名字已经和“开放数据”这四个字紧密相关。但说起,他与开放数据理念最初的结缘,竟然还是因为一起谋杀案。
▍因为一起谋杀案,感受到open data的魔力
2009年第一次听到Open Data(开放数据)这个概念的时候,高丰正在英国的南安普顿大学计算机系读博士。系里的两位教授被英国政府邀请做开放数据的顾问,带动身边的不少同事也开始研究。那个时候对于高丰来说,“开放数据”只是邮件组里出现的众多新词儿之一。但一张地图,和一起谋杀案,引起了他的兴趣。
系里的同事利用开放数据,做了不少尝试性的应用模型(demo),其中的一个是利用南安普顿市犯罪统计数据制作的一张犯罪地图。
(图片说明:南安普顿犯罪地图2018年版)项目团队将关于犯罪类型、数量、时间、位置的数据与南安普顿市地图结合,就生产了一张实时更新的“犯罪地图”。这张犯罪地图,颠覆了大家对于熟悉街区的认知。高丰说:“我们发现,在学校办公楼对面的一个小区里头,前两天刚刚发生了一起谋杀案,但大家要不是看了犯罪地图,根本不知道这回事儿。”
通过这个demo,高丰意识到,当类似于一些看似与个人生活距离遥远的政府数据得到开放,民间的智慧会使其迸发出新的火花,产生意想不到的价值。
▍开放的数据中国大使
南安普顿市的犯罪地图,在高丰的心里种下了数据开放的火苗。这点星星之火,在三年后成长为了一个火炬。
2012年,高丰的博士论文基本完成,等待答辩和其他毕业事项的他,难得地有了较为悠闲的时光。“开放数据”这四个字,从他脑海里冒了出来。既然英国的开放数据能做出犯罪地图这样的应用,国内的情况又是如何?
但令他没想到的是,在谷歌搜索 “开放数据”,竟然没有一条简体中文的资料。难道在国内,关于数据开放的讨论还是一片空白?高丰不禁惊诧。
在英国,有一个名为英国开放知识基金会(Open Knowledge Foundation,简称OKF),开放数据作为开放知识的一部分,也是他们关注的领域之一。于是高丰联系到OKF,想知道他们对于中国的开放数据是否有研究,在中国有没有相关的合作伙伴。但结果令他失望,答案依旧是一片空白。
当时,恰好英国开放知识基金会正在招募全球大使,有志于推广开放数据的高丰就此成为了OFK的中国大使,以志愿者的身份举起了传递开放理念的火炬。
▍从一个微博,到一场比赛
可国内当时关于开放知识、开放数据基本还是一片空白,倡导工作要从何开始?
在英国开放知识基金会中,高丰结识了许多在欧美宣传开放理念的朋友,他们就知识开放的话题做过不少研究,也写了一些科普性的博客,这些博客内容在国外起到了很好的传播。
于是高丰决定借鉴这种模式,以微博作为第一个起点。
他为英国开放知识基金会开办了微博账号,持续翻译、更新外国的开放知识相关资料、案例。很快,通过这个微博账号,高丰结识了很多有相同理念的朋友。他们中,既有致力于实现文章、图书资源开放的老师,也有上海同济大学致力于开放设计的FabLab。
通过线上的交流,高丰逐渐对国内开放知识领域的情况有了更直观和深入的了解。他发现,虽然在各行各业中,都有许多对于开放、分享理念有共识的人,但因为他们所处的行业、面对的问题不同,对于开放的理解和关注点,难以避免地会变得垂直、具体。因此在实际的讨论交流中,大家的关注点和兴趣,很难最终聚焦在一起。于是,高丰在2014年联合发起了Open Data China,将关注的领域从开放知识,聚焦回他最关心的开放数据上。
2014年底,Open Data China和世界银行、复旦数字与移动治理实验室一起举办了一场关于开放数据的论坛。这场论坛不仅吸引了国内外的数据从业者前来交流,还邀请了来自美国《OPEN DATA NOW》作者Joel Gurin、来自宝岛的公益组织Open for Tomorrow、来自休斯顿的前开放数据主管Bruce Haupt,分享中国台湾地区社群、美国休斯顿政府建立开放数据门户和社群的经验。
作为国内首场关于开放数据的论坛,这次活动还获得了国家统计局、上海经济和信息化委员会(简称上海经信委)的参与,而这也为后续的SODA大赛的合作埋下了种子。实际上,上海经信委自2011年开始就在推动城市的政府数据开放。他们意识到,数据研究需要政府数据,却不知如何获取,而经信委等政府部门虽然认识到了开放的重要性,却苦于没有好的切入点,如果能实现双方的合作,就需实现一定程度上的“供需匹配”。
于是,2015年初,原就职于上海经信委,刚履新于中国工业设计研究院的张柏军就召集了此前透过2014年开放数据论坛认识的小伙伴们,在多方的集体努力下,策划了符合上海数据环境的创新大赛,而这就是由上海经信委牵头举办的第一届上海开放数据创新应用大赛(简称SODA)。
“SODA是Shanghai Open Data Apps的缩写,音译过来是苏打。苏打有一个深刻的寓意,打开苏打水的瓶盖后,‘砰’一下会冒出许多气泡,这就像数据一样,一旦流通起来,会看到‘砰’一下这样的爆炸式效果。”高丰介绍到。
SODA的筹备者们希望通过比赛的形式,能让更多政府部门、相关机构看到开放数据的好处,从而推动他们加入到数据开放中来;其次也能通过竞争的机制,激发更多好的开发数据应用创意,并使他们与数据源、应用场景得到有效的结合。
▍一场“两端吆喝”的比赛
举办SODA大赛的灵感,部分来源于英国开放数据研究院举办的Open Data Challenge比赛。但英国开放数据发展较早,举办比赛的主要目的是鼓励开放数据的应用。而在中国,开放数据才刚刚起步,无论是数据源,还是对开放数据的应用,两边都存在空白。所以在筹备SODA的过程中,遇到了两端都需要“吆喝”的情况。
首先是参赛团队的问题。因为国内关于开放数据的论坛、社群还非常匮乏,“一开始的宣传很多都是靠我们的朋友圈。”高丰说,正是靠着从做微博起积累的数据圈朋友们,SODA比赛的消息一传十,十传百,最后竟有八百多支团队报名。
参赛者的问题解决了,其次就是数据源的问题。SODA的筹办团队,希望能借这个比赛,鼓励更多政府部门积极开放数据。但因为对数据安全的担忧,以及对回报的不确定性,使得相关部门缺乏动力。
为了解决数据安全的问题,消除数据集提供单位的顾虑,SODA采取了这样的形式:数据提供方只需给出一段脱敏后的历史数据片段,使用这些数据的选手都必须签署协议,承诺不泄露数据,不对数据进行二次分发。由此,比赛对于数据提供方来说,就成了一个较为安全、试错成本较低的“实验室”,可以在确保数据安全的情况下,直接地感受开放数据的带来的创新价值。
除了在赛制上消除数据提供方的安全顾虑,2015年第一届SODA比赛的主题,也选择了安全性较高、国外成功先例较多的交通领域作为首次尝试。交通数据涉及的个人隐私问题较少,而且在国外,交通数据的开放非常普遍,伦敦交通局开放数据之后,迅速涌现了五百多个App,其中包括公交到站实时提醒这样实用价值非常高的应用,有一家名为City Mapper的数据公司,就依靠世界各地的交通开放数据,推出了覆盖全球几十个城市的公交App。
在这一届SODA比赛中,由上海交通委牵头,开放了上海交通一卡通、强生出租车和浦东公交车的部分历史数据。利用强生出租车的数据样本,一个叫保橙科技的参赛团队,设计出了基于用户行为的保险定价模型。他们使用了强生出租车数据中关于驾驶员行驶轨迹和驾驶速率的部分,用这些数据计算出上海市每条道路的平均驾驶速度,并将其作为参考线,再通过手机传感器计算出驾驶员的习惯驾驶速度,和参考线比对后就可以得出驾驶风险的高低。保险公司利用这些风险指数,就可以针对不同驾驶风险的投保司机实现UBI车险的智能定价。高丰说,这个项目让不少人对开放数据的商业潜力有了更多期待。
除了商业价值以外,开放数据带来的社会价值,也在比赛中得以体现。
2017年SODA大赛的冠军团队图灵空间,将食药监和仪电提供的食品溯源数据、厨余油脂回收数据和工商消费者投诉举报数据以及舆情数据结合,为食药监提供了一套监控食品企业食品安全的面板。通过这个面板,可以清晰地看见上海各家餐馆的回收油脂都去了哪里,有没有被做成“地沟油”二次上餐桌。高丰认为,虽然这个项目或多或少还有需要更多考量和打磨的地方,但已能够通过公开数据为社会提供价值。“政府很难有资源和精力去实现这样的创新,但在数据开放的框架下,政府数据就能和实用场景结合,为食品安全、社会秩序提供更多的保障。”
(图片说明:SODA比赛2017年冠军图灵空间的食品溯源项目产品界面)对于不少有数据研究能力,但苦于缺乏数据的团队来说,SODA大赛为“无米下锅”的“巧妇们”提供了一个实践创意的机会。
2017年参加SODA比赛的周宁奕,就是一个这样的“巧妇”。作为保险行业研究数据科学的前端工程师,他对共享单车的投放产生了巨大的兴趣,从2017年初开始,爬取了27万辆共享单车的数据,结合地铁流量数据和房屋地产数据,希望能从用户角度为共享单车的投放问题开一份“药方”。但爬取的数据毕竟质量不完美,于是他在看到摩拜单车是SODA大赛合作伙伴之后,立即报名了比赛,实现了和摩拜团队的直接接触,也给摩拜提供了很多投放运营的新思路。
(图片说明:众安科技数据科学家周宁奕绘制了一副上海凌晨所有摩拜单车星光闪耀的分布图)“我们让数据到真正需要它的人的手上,使数据产生价值,数据提供单位也可以看到数据到底可以做什么,可以看到数据的价值。”高丰希望,SODA比赛不仅推动政府数据的开放,未来也能有更多的企业主动参与其中。
▍开放数据的道路,还很长
SODA比赛迄今为止已经举办了三届,期间涌现了非常多有创意的项目。令高丰颇感遗憾的是,比赛能给创意展现的舞台,却还未能实现完整的创意落地孵化。毕竟比赛只是开始,开放数据实际应用的道路还需要更多人的参与。
在高丰看来,开放数据需要的并不仅仅是数据源和应用方两端,而是一整个生态体系。在这个体系中,还应有桥梁连接数据和业务场景。流通的数据找不到业务场景,业务场景缺乏数据,这是目前广泛存在的问题。
高丰希望数据能够更有效的围绕场景高效流通。 “比如说医疗领域,如果大家都有共识缺乏某些数据,如果能够用某种形式开放式地实现数据流通,就很有可能通过人工智能等方式找到解决方案,产出效益。这种场景垂直化的开放式数据流通平台/机制,是我觉得这3到5年中最希望看到的东西了。”
高丰说,不论是大数据还是人工智能,一开始就要考虑生态搭建。不同的参与者,数据提供方、使用方、数据服务方、媒体等,大家都处在一个生态体系当中。更多的数据流通可以帮助问题的供需双方更好地去解读社会问题或者城市问题,并利用创新成果,再反过来引导数据有目的的流通,实现正向循环。
关于未来,高丰在他的一篇关于中国、英国开放数据的研究论文中有所表述:根据国际第三方评估开放数据晴雨表(Open Data Barometer)2014年版的结论,中国的开放数据实践在总计86个统计涉及国家中排名46位;开放数据中国和复旦大学数字与移动治理实验室共同开展的“开放数据探显镜”也反映出中国开放数据总量低,可机读性比例不高,数据多静态,且更新不及时的问题,同时,监管、法律、数据权属等问题都影响到中国的开放数据的发展。
所以,在畅想中国开放数据更长远的发展时,高丰除了对爆发式的创新充满期待,也对其未来的生态秩序颇有些“未雨绸缪”的思考:“当未来有大量的数据开始流通,如何快速地获取想要的数据?当一条数据有十几个人都在流通,你如何确定哪个数据是真的?哪个是假的?这就需要有机构来管理,需要平台发挥作用,而政府扮演什么角色是至关重要的问题。”在高丰看来,这样的角色虽然暂时缺失,但数据行业也和互联网行业一样在快速演化,开放数据界的“门户网站”、“搜索引擎”,甚至更智能的数据传递模式很快就会出现。
▍关于数据科学50人
数据科学50人项目是DT财经旗下数据侠计划重点内容产品,旨在与数据科学领域KOL共同挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。
▍数据侠门派
高丰博士,苏打数据CEO,中国开放数据先锋,独立开放数据咨询顾问,英国南安普敦大学计算机科学博士。高丰自2013年起担任英国开放知识基金会(Open Knowledge)中国大使,于2014年发起开放数据中国(http://opendatachina.com),一直致力于开放数据领域的倡导、研究和创新。他已先后与英国开放知识基金会、世界银行、瑞士Lift、中国工业设计研究院、复旦大学等国内外机构开展合作。他也是开放数据指数和开放数据晴雨表的贡献者。
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com