1、第第 4 4 章章 数据处理与应用数据处理与应用 1. 数据处理的核心是数据,数据的质量直接影响数据分析的结果。 2. 在数据分析和数据 挖掘前, 通常先对数据进行整理。 3. 数据整理的目的是检测和修正错漏的数据、 整合数据资源、 规整数据格式、 提高数据质量。 4. 数据计算是数据处理的常用方法之一 5. 日常简单的数据处理可以使用 Excel 软件完成, 专业的数据处理和统计分析工具有 SPSS、SAS、MATLAB 等,也可以通过 R、Python、 Java 等计算机语言编程进行数据处理。 6. 在 Excel 软件中,可以应用公式进行数据的计算。公式是以“=”开头,由常数、函数、
2、单元格引用和运算符组成的式子。 7. 单元格引用是指对工作表中的单元格或单元格区域的引用。默认情况下,单元格引用 是相对的,如 Al;单元格绝对引用,如$A$1;连续的单元格区域引用,如 A2:D5;不连续的单元格区域引用,如 A2:A5,D2:D5。 8. 算术运算符有、十、,用于进行基本的数学运算。比较运算符有、 、,用于比较两个值,结果为逻辑值 TRUE 或 FALSE。文本连接运算符&, 可以连接一个或多个文本字符串,生成一段文本。 9. Excel 内置函数 函数名 使用 说明 SUM SUM(A1:A10) 求和 AVERAGE AVERAGE(A1:A10) 求平均值 M
3、AX MAX(A1:A10) 求最大值 MIN MIN(A1:A10) 求最小值 COUNT COUNT(A1:A10) 求数量 RANK RANK(A1:A10,A1) 求排名 表 1.1 10. 相对引用与绝对引用:Excel 中对单元格的引用可以是相对的,也可以是绝对的,相对的例如 A1:A10,绝对引用一般用$符号标识,例如$A1 就是锁定列,在填充的时候 A 不会随着,单元格位置的变换的变换而变换,同理 A$1 就是锁定行,$A$1 就是锁定行列。 11. 图表是用视觉形式向人们展示数据的一种方法。 常见的图表类型有柱形图、 折线图、 饼图、 雷达图、 散点图、 气泡图 12. 大数
4、据具有数据量大、数据来源与类型多样、处理速度快等特点 13. 处理大数据时,一般采用分治思想 14. 处理大数据的基本方法有批处理计算、流计算、图计算三种 15. 分布式计算 (Distributed Computing) 是把一个需要非常巨大的计算能力才能解决的问题 分成许多小部分, 然后把这些部分分配给许多计算机进行处理, 最后把这些计算结果综合起来得到最终的结果 16. 并行处理 (Parallel Processing) 是计算机系统中能同时执行两个或更多处理的一种计算方法 17. 大数据处理按照类型可划分为对静态数据的批处理、 对流数据的实时计算和对图结构数据的图计算 18. Win
5、dows 的文件系统采用 FAT32 或 NTFS, Linux 的文件系统为 Ext2/Ext3/Ext4 19. HBase 是一个高可靠、高性能、 可伸缩、分布式的列式数据库 20. Map Reduce 是一种分布式并行编程模型, 能够处理大规模数据集的并行运算 21. 使用计算机语言编程,可以更加灵活、深入地进行数据分析和挖掘 22. numpy 模块是 Python 中做科学计算的基础库,主要提供科学计算中常用的随机数、数组运算等基础函数。 23. scipy 模块是基千 numpy 构建的一个模块,增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。 24. pandas
6、 模块基于 numpy 实现,主要用于数据的处理和分析。它提供了大量处理数据的函数和方法,能方便地操作大型数据集。 25. pandas 提供了 Series 和 DataFrame 两种数据结构。使用这两种数据结构,可完成数据 的整理、计算、统计、分析及简单可视化。 26. 在 Python 中引入 pandas 模块的方法:import pandas as pd 27. Series 是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引 (index),索引值默认是从 0 起递增的整数。列表、字典等可以用来创建 Series 数据结构, 与列表不同的是,Series 的索引可以指
7、定,类型可以为字符串型。 28. Series 样例使用如下图 29.29. 通过索引可以选取通过索引可以选取 SerSeriesies 对象中的值,对象中的值, 通过赋值语句可以修改通过赋值语句可以修改 SeriesSeries 对象中的值。对象中的值。 如:如:s10=168 s10=168 、s2s01 =168, s2s01 =168, 可将可将 slsl、s2s2 对象中的“对象中的“ 166166改为“改为“ 168 168 ” 。” 。 30.30. DataFrameDataFrame 是一种二维的数据结构由是一种二维的数据结构由 1 1 个索引列个索引列(index)(ind
8、ex)和若干个数据列组成,每个数据和若干个数据列组成,每个数据列可以是不同的类型。列可以是不同的类型。 DataFrameDataFrame 可以看作是共享同一个可以看作是共享同一个 index index 的的 Series Series 的集合。的集合。 创建创建DataFrameDataFrame 对象的方法很多,对象的方法很多, 通常用一个相等长度的列表或字典来创建。通常用一个相等长度的列表或字典来创建。如下图如下图 31. Pandas 也可以读取 Excel,代码如下图 32.32. DataFrameDataFrame 常见函数表常见函数表 33.33. matplotlibma
9、tplotlib 是一个绘图库是一个绘图库 ,使用其中的,使用其中的 pyplotpyplot 子库所提供的函数可以快速绘图和设置子库所提供的函数可以快速绘图和设置图图 表的坐标轴、表的坐标轴、 坐标轴刻度、图例等。常用绘图函数如坐标轴刻度、图例等。常用绘图函数如下下表表 34.34. 样例代码:绘制正弦函数图样例代码:绘制正弦函数图 左左 1 1 代码图,左代码图,左 2 2 结果图结果图 35. 文本数据处理是大数据处理的重要分支之一, 目的是从大规模的文本数据中提取出符合需要的、 感兴趣的和隐藏的信息。 目前, 文本数据处理主要应用在搜索引擎、 情报分析、 自动摘要、 自动校对、 论文查
10、重、 文本分类、 垃圾邮件过滤、 机器翻译、 自动应答等方面。 36. 文本处理的一般步骤: 文本内容是非结构化的数据, 要从大量的文本中提取出有用的信息, 需要将文本从无结构的原始状态转化为结构化的、 便于计算机处理的数据。 典型的文本处理过程主要包括:分词、 特征提取、 数据分析、 结果呈现 37. 中文分词是中文文本信息处理的基础, 机器翻译、 全文检索等涉及中文的相关应用中 都离不开中文分词。 分词是将连续的字序列按照一定的规范重新组合成词序列的过程 38. 分词的三种方法 基于词典的分词方法、基于统计的分词方法、基于规则的分词方法 39. 标签云用词频表现文本特征, 将关键词按照一定
11、的顺序和规律排列 , 如频度递减、 字母顺序等, 并以文字大小的形式代表词语的重要性 40. 文本情感分析是指通过计算机技术对文本的主观性、 观点、 情绪、 极性进行挖掘和分析, 对文本的情感倾向做出分类判断 41. 数据可视化的作用:快捷观察与追踪数据、实时分析数据、增强数据的解释力与吸引力 42. 数据可视化的基本方法: 有关时间趋势的可视化、 有关比例的可视化、 有关关系的可视化、有关差异的可视化、有关空间关系的可视化 43. 数据可视化的工具:用于数据可视化的工具有大数据糜镜、Gephi、Tableau 等,也可以使用Python、R 等 计算机语言编写程序实现数据的可视化 44. 分词与标签云的样例代码(下图 1、2) 图 1 图 2 45. 随着大数据在各行业的应用, 数据成为核心资产, 数据规模以及运用数据的能力成为各行业发展的推动力 46. 智慧交通包括:交通信息服务系统、交通管理系统、电子收费系统 47. 大数据在电子商务的使用:精准营销、供应链管理、智能网站