如何获取数据与处理数据——数据新闻生产实例研究
丁虞
(重庆日报大数据研究院,重庆 401120)
摘要:新闻是经济社会发展的参与者、记录者、推动者。数据已成为经济发展的关键生产要素,新闻内容生产也应加大数据驱动力度。数据新闻生产流程复杂,其中作为先决条件,获取数据、处理数据,对媒体而言,极为陌生,挑战难度大。很多媒体甚至对于何为数据、数据应如何处理、数据与大数据等基本观念存在严重误解。本文首先厘清这些误解,并基于3个实例探讨媒体在数据新闻生产中获取数据、处理数据的几种现实路径。
关键词:数据新闻;数据获取;数据处理
中图分类号:G210.7
文献标志码:A
文章编号:1674-8883(2020)16-0157-02
一、数据已成为新闻生产的关键要素数字生活时代,经济组织、社会运行、个人的生活越来越依赖基于数据的分析与规划。数据已经成为我国经济发展,尤其是数字经济发展的关键生产要素。
新闻是服务于社会需求的,当社会的需求已出现重大的数据化转变时,数据也已成为新闻生产中新的关键要素。但数据新闻的制作有着比传统新闻生产远为复杂的流程。其中,获取数据与分析数据,是能否制作数据新闻的先决条件。这两项又是媒体尤其是传统媒体最为陌生、最难以解决的问题。
二、数据新闻的特征目前,很多媒体对于何为数据、如何处理数据、数据新闻与大数据的关系等基本概念仍然存在认识偏差。在运用实例,探讨媒体如何获取数据与分析数据前,厘清几种常见的认识误区有利于明确讨论的边界。
(一)数字只是数据形态的一种
现在很多媒体报道中,所宣称的数据新闻实际上只是数字新闻。不可否认,数字新闻简洁清晰、重点突出,发展百余年仍具有强大的生命力,为受众所欢迎。但必须厘清的是,“数字”和“数据”是两种完全不同的信息形态。
数字(figure)是对特定内容数量的表征,传递的信息单一且清晰,属于经计算、分析后的结论性信息。数据(data),根据牛津词典的解释,是事实(facts)或信息(information)的集合,属于原始、模糊的信息,需经过验证和分析后,才能产生用途,如发现规律、支持决策等。在中文里,data对应的翻译还包括“资料、材料”等。
可见,数字只是数据的一种。从形态上来说,数据可以包含人类生活中的所有信息形式,包括数字、文字、符号、声音、图片、视频、三维信息等。
(二)二次组装不是数据处理
数据新闻生产中,何谓对数据的分析与处理,目前没有清楚的界定。2010年,第一届“国际数据新闻圆桌会议”上提到,数据新闻的生产流程包括反复抓取、筛选和重组来深度挖掘数据。其中内涵并不清楚。其他一些研究者的论述也极为笼统,如“通过对数据的整合,实现对新闻的挖掘”
[1]“挖掘和展示数据背后的关联和模式”
[2]。
新浪、网易等互联网媒体都已形成颇具影响的数据新闻专栏。但仔细分析可见,这些数据新闻产品中,重要数据描述、分析结论下的数据来源标注并不是来自某类数据库或数据源,而是来自“某某某报告”。事实上,这一类所谓的数据新闻,实则是在某一新闻主题的统领下收集与之相关的各类数据分析报告,提取各份报告关键信息,或打散进行内容重组融入整篇新闻,或将之用于可视化制作进行重新包装。
不可否认,对成熟报告内容的二次组装,同样能发现重要新闻线索和新闻价值。但这样的新闻能不能称为数据新闻,是值得讨论的。因为在其过程中,更多是编辑对多种数据结论的主观理解、研判、分类,并不包含利用数据分析工具对元数据的清洗、重组,更遑论建模得出分析结果。
(三)数据新闻与大数据新闻
这是言必称大数据的时代。一提到数据,仿佛就注定要走进浩瀚无边的数据海洋。数据新闻与大数据有着怎样的关系,值得讨论。
目前,何为大数据,并没有普遍认可的概念界定。关于其特征,目前较为广泛接受的仍是《大数据时代》一书中所提的3点:所有数据、模糊性、相关关系。在我国的日常话语中,大数据更多是指代TB、PB以上规模的巨量数据集。因此,关于数据新闻与大数据新闻的讨论,主要是基于数据量级和全面性来划分,或认为大数据新闻是数据新闻的更高一级形态
[3],或认为大数据新闻是数据新闻的一种
[4]。
在本文看来,至少在现阶段,对于媒体而言,区分大数据新闻与数据新闻既没有必要,也价值不大。首先,数据新闻最重要的是其新闻价值,数据量越大并不代表能提取的新闻价值越大;其次,目前,媒体最重要的是建设技术团队和数据两大基础,具备基本的数据处理能力,同时扩展多种渠道获取数据。
三、获取数据与分析数据的3个实例获取数据与分析数据离不开网络、程序、算法等技术人员,以及行业专家的共同参与。这样跨领域团队的建设不作为本文讨论的重点,但媒体如何获得这些专业能力,在实例分析中会作简要介绍。
(一)从专题数据库取料,由行业专家建模分析
2018年,《重庆日报》整版报道了《重庆创新百强企业区域与行业分布报告》数据分析内容,通过对专利数据的分析发现,汽车制造业领域企业发明专利授权量占总比近四成,符合汽车在重庆的工业支撑地位,但同时也发现,作为重庆工业的另一大支柱,本地电子信息业企业创新活跃度不高、创新力不强,值得引起重视。
《重庆日报》本身既不掌握专利数据库,也没有数据技术人员、科创研究人员。数据新闻前期的数据获取与数据分析都是旗下的重报大数据研究院进行。而重报大数据研究院正是基于能够获取原始专利数据的资源优势,进行了此次策划。
对专利数据的处理并不是简单的统计分析,而是基于专利规模、创新力和影响力3个维度8项指标,进行建模分析。这一过程,除了研究院数据人员外,还有科技情报研究人员与专利代理师的共同参与。数据分析结果还交由中科院成都文献情报中心专业人员进行独立评估,确保数据、模型、流程的适用与规范。
(二)独立建模,由数据企业作处理
《四川日报》依托旗下的四川在线全媒体集群MORE大数据工作室,近年来制作发布不少数据新闻。因《四川日报》与阿里巴巴本地生活形成紧密合作,很多数据新闻的数据都来自阿里巴巴本地生活各门类产生的数据,如口碑、饿了么、支付宝等。
2020年,川报全媒体集群MORE大数据工作室联合饿了么,联合制作《D47数字生活·新消费分析报告》,以数据“发现城市新价值”,从“数字生活覆盖度”“数字生活活跃度”“数字生活消费潜力”“数字生活消费友好性”“数字生活新潮流”5个维度,对四川省47个市辖区的数字消费活力进行综合排名,计算与分析各区的外卖供需指数,从供求的相对关系中窥探每个市辖区的消费活力与消费增长潜力。
合作的方式,简单而言,首先,MORE大数据工作室设置好议题和指标体系、权重等;之后,饿了么数据团队从其数据池中对应提取、清洗,进行模型化计算,得出数量化结果;最终,由MORE大数据工作室的技术团队进行数据结果审核,由记者团队分析结果形成数据报告,提炼新闻点,制作数据新闻产品。
(三)通过问卷与爬虫获取多源数据,对单一主题进行比对分析
对单一主题的数据分析,并不要求数据的海量,更看重的是利用多种不同来源数据的处理结果,进行比对验证。对于媒体而言,多源数据的获取可通过向政府部门申请、从互联网爬取、问卷等方式统计等渠道和方式进行。
自2016年起,广州日报数据和数字化研究院每年均会发布《广报大学一流学科排行榜》。该排行榜通过科学研究指数、人才培养指数、学科声誉指数和二次评估指数4个维度,对国内327所大学的40个学科进行评价。
报告最后的评价结果是对指标体系分别赋权后综合计算得出。在对学科声誉指数进行分析时,因团队对此的界定是主观认知评价,遇到了没有现成数据可用的问题。团队首先采用了问卷调查的方式,制作学科评价问卷,通过电子邮件发送给全国各地总共4000位高校学者,有效回收1000余份。团队通过问卷中学者对高校学科的不同打分和排名进行统计分析,初步得出分学科的排名结果。
考虑到抽样调查代表性、受访者认知偏差等问题,团队又从互联网新闻、论坛等渠道尽可能爬取对所涉及高校及学科的评价,经数据处理后,与问卷调查结果进行比对,对整体排名进行调整。
四、结语《重庆日报》的操作经验并不具有广泛复制性,因为媒体或其下属机构能够接触并利用的元数据数据库机会是极少的。要自建媒体内容以外的数据库,时间长、投入大,没有必要。《四川日报》的操作模式推广性强,但需注意:一是双方要签署权责明确的数据合作协议;二是新闻单位要对数据企业的数据内容有深入了解,否则费力建模,对方却没有对应数据;三是新闻单位也应配有数据分析师,检查数据企业反馈的结果是否符合要求。在《广州日报》这个实例中,广州日报数据和数字化研究院并未与外合作,承担了主题设置、指标建模、数据收集、数据分析等所有工作,所涉工种包括熟知社会科学调查方法的媒体人员、技术人员、数据分析师等。这样的团队配置应该成为想要从事数据新闻生产的媒体的标配。
参考文献:[1]祝建华.从大数据到数据新闻[J].
新媒体研究,2014(04):11-13.
[2]郎劲松,杨海.数据新闻:大数据时代新闻可视化传播的创新路径[J].现代传播,2014(03):32-36.
[3]喻国明.从精确新闻到大数据新闻——关于大数据新闻的前世今生[J].青年记者,2014(12):43-44.
[4]莫凡.数据新闻的生产现状、影响与反思[J].新媒体研究,2018(08):35-37.
作者简介:丁虞(1985—),男,重庆江津人,研究生,硕士,编辑,研究方向:媒体智库发展与数据新闻制作。