天气预报多少字?
首先,很遗憾目前没有较为准确的方法来判断“多少字”这个概念的边界。因为对“字”的定义本身就难以确定(见《现代汉语词典》对“字”的解释)。但我们可以通过方法估计出媒体新闻标题的平均长度,以此来观察气象新闻标题的长短。 基于此,本文利用语义分析工具(词频统计+文本分类)和媒体大数据平台(约3.8亿篇文档),以2015年国内主要商业网站的本地天气预报频道的新闻标题为研究对象,进行以下实验:
①从文本内容层面,统计不同字数区间新闻标题出现的频率;
②从信息表达层面,将文章切分标注后,按照词性标注结果中名词、动词等实词出现频次TOP200的词表对文本进行泛指性处理,认为词频高且位置相对稳定的实词是描述概念的核心元素,以此构建“词汇短语串”;
③通过对“词汇短语串”的处理,得到主题类别(天气现象/天气气候术语→温度/湿度/气压/风向风速等气象要素→气象观测站点→地理位置)、概念类别(时间/空间→天气现象/天气气候术语→温标→计量单位→地理名称)以及文本段落等信息,进而得出每个标题属于何种主题及概念类别,从而判断其信息含量。 最后,我们将对实验数据做简单描述,并给出一些讨论意见。
一、文本分析 基于以上实验目的,我们设计了语义分析的算法流程,如图1所示。在具体实现时,我们从互联网抓取了2015年国内主要商业网站本地天气预报频道的新闻标题(约260万条),利用自然语言处理中的词频统计工具(Word Frequency Statistics)得到词频排列前200位的结果,并据此生成词汇短语串。然后,我们利用文本分类的功能将其分为六类(天气现象/天气气候术语→温度/湿度/气压/风向风速等气象要素→气象观测站名→地理位置),并且计算每类文章的长度分布情况。
二、数据分析 我们以2015年新浪网、中国天气网、搜狐网和网易四大门户及当地重点财经网站的本地天气预报栏目中标题为例,对其进行语义分析和长度分布统计。
2.1 主题分析 在对标题进行语义分析时,需要先判定其主题类别。为此,我们构建了包含79大类和297小类的主题词库,并建立了相应的文本分类器。经过训练,该文本分类器的准确率为94%,误报率约为0.1%,召回率约为90%。
2.2 概念分析 在确定了标题的主题类别后,下一步就是根据概念类别的规则化特征向量,将文本划分为不同的概念类别。为此,我们构建了一个包括142项特征的向量空间,用于表示主题词的各种属性,如词性、词频、句法等。在测试集上进行的验证显示,该分类器的准确率可达90%左右。
2.3 文本长度统计 对于各主题类别的文本长度分布情况,如图2所示。由图可知,平均来看,4个门户及地方网站的标题长度约为7个字,而新浪网的标题则稍长,平均长度约为8个字。另外,从图中还可以看出,70%的标题长度集中在5个字左右,而20%的标题长度不到5个字,说明目前在线天气新闻资讯的文本呈现比较碎片化,简短型标题占绝大部分。
三、总结 基于语义分析和大数据的技术路线,我们能够较好地解决以往人工判别标题长度的主观性和不确定性的问题,并在实验过程中体现出了快速、便捷的特点。对于未来的工作,我们希望能进一步挖掘大数据的价值,更好地服务于民生,同时希望我们的工作能够带来一些理念上的创新,引领行业发展的潮流。