“计算传播学导论”系列文章是我在学习张伦、王成军、许小可三位老师的著作《计算传播学导论》所写的一些读书笔记和摘要内容,以此作为计算传播学的学习起源。本节内容将介绍:文本分析技术的概要。
大数据时代的降临,使得来源于网站、社交媒体、传感器的数据以量级产生。伴随着大规模文本数据而来的是,内容分析工作中的的人工操作难度越来越大。计算机作为工具,能够通过算法代码高效、精准的进行文本分析,而这项技术也逐渐受到了传播学者的关注。
在正式探讨“文本分析”之前,让我们来解析几个概念。
多源:三元世界理论把世界分为物理世界、人类世界和信息空间。我们在《媒介融合》的系列文章中也将会提到这样的论述,“我们总是以虚拟的形式彼此相伴。当前媒介研究的核心任务在于重新思考具身化传播和技术中介化传播之间的相互关系。”在这样的背景下,就有了这样的概念,现阶段我们看到的存在的“信息”来源不一,同一数据的信息源也并非一致。随着5G的应用,传感器的数据更加丰富。所谓“多源”,即“多来源”,同一信息是来自于传感器、网站、社交媒体等众多来源的数据,从而构成了多源数据集。
异构:随着自动化、智能化进程的不断深入,在生产过程中会产生大量的数据,这些数据的结构不一,构成现有数据的“异构”特征。异构数据具体包括:结构化数据、半结构化数据、非结构化数据。结构化数据指的是关系模型数据,具体则是我们可以用关系数据库进行管理的规则化数据;半结构化数据指的是非关系模型的,却有固定结构模式的数据,比如我们的日志的文件、XML文档等等;非结构化数据,就是完全没有定式,我们日常的图片、视频这些数据,就都是非结构化数据。
跨模态:亦为多模态,我们的感觉器官,听、说、读、写接收的数据,是自然界数据的不同形态,即声音、文本、图片、视频,甚至混合以上几种的混合数据。同一信息通过不同模态的数据得以表达,即为跨模态。
搞清楚概念之后,可以为我们以后的研究打下扎实的基础。这一节的内容,我们以“文本”为例。
文本数据的存在有两种形态,非结构化和半结构化。于是通过数据挖掘的方法在非结构化或半结构化的文本集合中,寻找我们不知道的信息,发现知识,即形成了现在的“文本分析”,亦称为“文本挖掘”(Text Mining)。具体涉及到的知识和方法则包括:机器学习、自然语言处理(NLP),统计学等等。
既然是非结构化或者半结构化数据,我们怎么能处理这些数据,进而可以拆解它,分析它,了解它呢?第一步的操作当然是,首先转化为“结构化数据”,即让一切杂乱无章变得具有规则。
用一个不太严谨的比喻,你可以理解为:非结构化和半结构化就是你房间的东西,杂乱无章的堆放;预处理信息的目的就是你收拾房间,把一切杂乱无章的东西用收纳盒、贴标签、记录在册。化一切无形于有形,有规则的摆放之后,你就可以发现信息了,这就是开始了你分析的旅程。
文本分析预处理的具体内容则包括:分词(中文),特征表示和特征提取等一系列操作。文本经过预处理之后,挖掘分析,具体包括几类:
(1)文本分类:按照预先定义好的类别,为“文档集”中的每个文档确定一个或者几个类别。
(2)文本聚类:区别于文本分类,文本聚类没有预先定义好的类别,其文本处理的自动化程度更高,目标是将文档集合分成若干“簇”(Cluster),使得同一簇内文档内容的相似度尽可能大,而不同簇之间的相似度尽可能小,并为每个簇给出一个主题摘要。
(3)关联分析:寻找同一事物中不同变量同时出现的规律性。分为简单关联、时序关联以及因果关联。
(4)趋势预测:通过已有文档的分析,推测出特定数据在将来某个时刻的取值情况,可用来预测下一时间段文本主题的发展变化趋势。
以上,我们对“文本分析”有了一个大概的了解,即文本分析的概念,以及分析可以用来做什么。那么接下来,我们将利用几节的文章来解析,为什么文本分析受到传播者的关注,并且,在以往的研究中,学者用文本分析做了哪些贡献。
注:文中针对社科背景的读者,为了便于理解,笔者会使用一些并不严谨的比喻来通俗的表达一些自然科学概念。这样通俗的表达,并非对概念严谨性的不尊重,而是希望可以用更日常的方式进行解读。读者在理解相关概念的时候,经过一些通俗理解后,要进行进一步的学习,进行严谨性阅读和研究,切不可浅尝辄止,浮于表面。
参考文献:
[1].张伦,王成军,许小可.《计算传播学导论》[M].北京师范大学出版社:北京,2018:1-13
欢迎关注“重回思考”,更多精彩与你一起探索。