统计学和数据挖掘区别

统计学和数据挖掘区别（精选8篇）

1.统计学和数据挖掘区别篇一

单式统计表和复式统计表的区别

把生产和工作中所遇到的相互关联的数量，按照一定标准加以分类整理，并按照一定的顺序排列起来，制成表格，叫做统计表。统计表中分单式统计表和复式统计表两种，单式统计表统计的项目单一，复式统计表统计的项目则较为复杂。

单式统计表是只对某一项目的数量进行统计的表格。例如：

××小学各年级人数统计表

单位：人 1991年9月

复式统计表是统计项目在两个或两个以上的统计表格。复式统计表也叫复合统计表，如果统计表中又含有百分数项目的，也叫做复式的百分数统计表。下例为一般的复式统计表：

××小学各年级男、女生人数统计表

单位：人 1991年9月

某县农科站培育水稻良种田统计表

1990年

2.统计学和数据挖掘区别篇二

中国是一个农业大国。据报道1949年和1978年其城镇化率分别是11%和18%。排除定义差异 (Qiu, 2012) , 据估计美国的城镇化率在1980年为74% (美国人口统计局, 1990) 。1978年也是中国具有中国特色社会主义改革的开启之年, 随之中国引进市场机制, 放开国外投资, 并在80年代进行私有化改革和放松国家管控。

在过去的36年, 中国实现了飞跃式发展, 国内生产总值排名从世界第九一跃成为第二大经济体, 与美国的差距日渐缩小。 (维基百科 , “List of countries by GDP (nominal) ”) .中国的贫困率也由1981年的85%下降到2008年的13%。 (World Bank, “Poverty headcount ratio at $1.25 a day”) .

随着人口增长和土地兼并, 中国城镇化率显著提升, 支持了经济发展。表1是中国国务院关于中国城市增长的报告。数据显示, 1978年中国城市数目为193个, 2010年增长到658个。2011年武汉成为中国第7个人口超过1000万的巨大型城市。

2012年以前, 美国都还没有这样规模的巨大型城市。中国城镇化率从1978年的18% 提高到2013年的54% (National Bureau of Statistics of China, 2014) 。

为满足城市劳动力需求, 大量农民到城市打工, 农民工成为中国城市人口增长的主要推动力。然而在中国特有的户口登记制度下 (户籍制度) , 即便是在城市里工作, 由于是农民户籍身份, 农民工也没有办法享有城市福利, 例如医保, 住房公积金, 儿童教育, 职业培训以及失业保险等。实际上, 从农村户口到城市户口的转换是行不通的。

这一不公平现象已经引起了社会不满, 成为一个近14亿人口的国家最为关注的问题。

数据显示, 2012年中国52.6%的人口居住在城市, 但仅有35.3%的人具有城市户口, 这17.3%的差距通常被称为“流动人口”, 约有2.34亿, 这一数字远超过整个美国的1.56亿劳动人口。

图1显示自1978年以来, 这个差距一直在扩大。

除了户籍制度带来的社会不公, 不断扩大的地理位置差异也是存在的隐忧。发达的东部沿海地区和全国其他地区之间收入和经济发展的鸿沟越来越深和明显。

图2显示中国东部人口比其他地区更加密集 (北京市实验室, 2014) 。

2010年, 中国六个巨大型城市中有五个分布在东部沿海, 这些巨大型城市群 (中国东部地区京津冀、长三角、珠三角三大城市群) , 以2.8%的国土面积集聚18%的人口, 创造了36%的国内生产总值。东部沿海城市面临人口和资源问题, 中西部地区的经济发展和工资水平却逐渐落后。

在改革开放进程中, 当地财政收入过度依赖城市用地, 导致房地产价格居高不下, 并出现关于历史文化遗址保护的争议。土地非农用途的转换也引起社会对未来粮食供给不足的担忧。

与此同时, “大城市病”逐渐显露成为中国城市的普遍问题, 包括环境质量下降、住房紧张、交通拥堵、污水和垃圾处理、食品安全、不断增长的能源需求, 以及对水和其他资源的需求等等, 很多问题都在国内外讨论过。 (例如哈德森, 2009;Zhang, 2010a and 2010b;联合国发展计划署)

那么中国的经济发展和城镇化会走向哪里?答案很清楚。在中国“十二五” (2011年到2015年) 规划显示, 中国希望到2015年城镇化率提高到51.5%, 现在这一目标已经被超越。 (2011年中国两会)

2014年李克强在政府工作报告 (类似美国年度国情咨文) 中指出“经济增长是解决中国所有问题的关键”, 城镇化是“是现代化的必由之路, 是破除城乡二元结构的重要依托”。

2014年3月16日, 国务院发布《国家新型城镇化规划 (2014~2020年) 》, 这也是所知有史以来第一个有关新型城镇化的六年规划。整个规划包括了8个部分, 31章, 27, 000个字, 提供了指导原则, 发展的优先顺序以及定性定量的目标。按照规划, 到2020年常住人口城镇化率达到60%左右。

换句话说, 中国在追求实现小康社会和和谐发展的道路上, 经济增长和城镇化将会继续是未来政策核心。不过, 这一目标的实现需要其在经济增长, 提升人民生活质量, 和解决大城市病的平衡上做出更多努力。

二、方法和目标

中国改革开放初期阶段, 由于基础设施不完善, 借鉴经验有限, 常常采取“摸着石头过河”的反复试验法。随着时间的推移, 原来简单的经济指标开始面临挑战, 例如文化和社会价值出现冲突, 这时需要更科学的评估方法, 减少因直觉决策导致的昂贵错误。

中国国家主席习近平曾表示“中国改革经过30多年, 已进入深水区, 可以说, 容易的、皆大欢喜的改革已经完成了, 好吃的肉都吃掉了, 剩下的都是难啃的硬骨头”。换句话说, 在改革进程中, 中国需要开始做出一些艰难的抉择。

中国国务院总理李克强在2014年工作报告中指出, 推进以人为核心的新型城镇化。今后一个时期, 着重解决好现有“三个1亿人”问题。

1、促进约 1 亿农业转移人口落户城镇;

2、改造约 1 亿人居住的城镇棚户区和城中村 (图 3 显示的是中国最大的城市上海建筑的对比图像) ;

3、引导约 1 亿人在中西部地区就近城镇化。

表2是指在国家城镇化规划中2012年的基准上需要在2020年实现的18个主要的数据目标。

考虑到城镇居民数量, 根据《国家新型城镇化规划》, 2020年要实现常住人口城镇化率达到60%左右, 户籍人口城镇化率达到45%左右, 那么流动人口就会在六年内从17.3%减少到15%。

另外的关键目标是促进农民工融入城市生活, 改善城市公共服务和生活质量, 保护土地使用和环境。

在国家城镇化计划中还有不少的定性目标, 比如, 第17章指明了每个城市的“三区四线”, 其中三区是指禁建区, 限建区, 和适建区, 四线则由不同的颜色来标明, 其中绿线表示是生态区域管理;蓝线表示水资源和湿地保护区域;紫线表示历史文物古迹和遗址保护区域;黄线表示城市规划和发展区域。

但如何创建和维持这些区域没有详细说明。

中国正在为农业化、工业化、信息科技化和城镇化四个现代化奋力前进。在城镇化计划中, 中央政府承担长远规划和指导责任, 通过政治改革将权力下放到省级和市级政府, 鼓励当地的领导创新, 合作, 试点, 制定行动计划, 根据当地实际情况有秩序的实施现代城镇化。

现在城乡户口改革得到了官方认可和鼓励, 这个过程可以由各个城市自己来确定。一般情况下, 户口转移会随着城市人口数量而受不同程度机动限制。

城镇化规划的实施将会复杂且具挑战性。若作为一个独立方法来使用, “摸着石头过河”已经不够了。不得不承认, 今天的城镇化发展一定需要有前瞻性的、数据驱动的策略, 它们可以智能地应用信息科技, 更具效率和创新性。

三、统计和科技的新作用

国家城镇化发展规划的出台为统计学和科技提供了一个史无前例的机会, 用于支持和监督中国政策的实施。在第31章中特别指出:

加强城镇化统计工作, 顺应城镇化发展态势, 建立健全统计监测指标体系和统计综合评价指标体系, 规范统计口径、统计标准和统计制度方法。加快制定城镇化发展监测评估体系, 实施动态监测与跟踪分析, 开展规划中期评估和专项监测, 推动规划顺利实施。

对比于当前的静态、定时的报告, 动态监测和纵向分析的详述显示出前瞻性的思想。虽然眼下该统计监测系统如何实施还不明确。

有很多方式可以“过河”。“摸着石头”是1978年中国实行经济改革以来为寻找发展道路比较流行的委婉表达。它是科学发现很重要的一部分, 但完全依赖于反复试验法不仅低效且代价很大, 甚至对国家和城市管理会很危险。

更可取的方式是在不同的时间测量河的深度, 收集相关可靠数据, 科学分析结果寻找更为理想的交汇点, 对赞成和反对选择的理由均予以评估, 做出博学、智慧的决策, 从而让更多人公平安全地“过河”。

很多发达国家都已经在用这种数据驱动方式来进行商业管理 (例如, Sain and Wilde, 2014) 。本文假定中国也在政府治理中运用这个方法。

图4显示这个进程中的数据 - 信息 - 知识 - 智慧分级结构模型。

来源:Wikipedia, "DIKW Pyramid"

科学知识和智慧的基础是观察事实和收集数据, 然而, 原始数据几乎是毫无意义的, 并非所有的数据都具备足够的信息价值或者对有效决策的作出起作用。

统计学 (Statistics) , 既是科学分支, 用于知识探索, 又是一种评估方式, 将有用的数据转化为相关信息提供价值。知识可从信息中获得和积累, 并作为理智决策的基础。虽然最后的决策并不能保证一定正确, 但科学方法提升了效率, 减少了错误, 特别是在进行过程中可以保持廉正、客观, 并可做持续改善。

在DIKW模型中, 科技应用并不明显。这是因为现代信息技术出现于20世纪50年代, 在那之前这个概念就已进入实际应用。今天, 金字塔的底座已被科技大大拓展, 数据转化为信息正在加速发展, 然而, 这个过程也伴随着各种炒作, 无用数据的出现以及错误信息等问题。

1、传统的统计和大数据

在管理国家方面, 人口普查数据应用已有几个世纪。人口普查是一种非常全面的调查方式, 但为了能够得到某个时点上的结果, 数据收集需要巨大费用, 且非常耗时。后来在概率论的基础上, 抽样调查被引入, 它可运用合适的设计和相对小量的数据产生科学可靠的信息。

20世纪, 人口普查和抽样调查两者一起在结构数据的基础上构成了统计学的基础 (Webopedia, “Structured data”) 。在过去的百年里, 发达国家有目的和具导向性地制定有效政策和决策。

在世纪之交, 大量数字化数据开始出现, 或从模拟转换到数字形式 , 可直接对其进行机器处理。 (Hilbert andLopez, 2012) 。与此同时, 大存储的容量以及匹配的计算能力也变得容易获得。

这个时期在本论文内被定义为大数据时代的开端。在中国, 直到2012年, 信息技术专家涂子沛出版了第一部以大数据为主题的中文书籍, 大数据才被公众所熟知。

非结构化数据 (维基百科:“非结构化数据”) 一般是由传感器, 社会媒体, 电子商务和一些自发源头所产生。在这里数据的概念外延被扩大, 除了数字以外, 还包括文本、地图、影像、声音以及多媒体。

一方面, 这些数据的数据量大, 具备动态性, 在应用方面极具潜力。另一方面, 不完整以及非结构化的数据很难处理, 若不经过设计和加以目的性, 甚至会对分析毫无意义。虽然对于商业信息提取来说, 数据挖掘被认为非常有价值, 但是它们的可靠性和价值仍需考究, 尤其是在用于政府治理方面 ( 例如 , Marcus and Davis, 2014;Lazer, Kennedy, King, and Vespignani, 2014) 。中国国家新型城镇化规划提出了很多目标, 但这些目标却很少能够以一种有意义地或可靠地方式去用非结构化数据来衡量。

集成结构化的行政记录数据, 建立纵向数据系统, 这是大数据第一次在用于政府统计方面实现效益。

美国政府的大数据项目LEHD (工作单位和家庭住址的纵向动态系统) 下, 美国普查局合并了失业保险数据, 社保记录, 税务档案以及其他普查和抽样数据资源, 创建了工作纵向结构框架。

系统用于动态追踪美国每个雇主和雇员。通过“工作”将两者连接, 每个季度进行数据更新。整个数据库都会被严格保密, 包括应用纵向概要。它可以测量随时间改变的形态趋势, 这是传统定时截面统计无法实现的。

美国正在试图通过类似努力去建立教育和卫生保健纵向数据系统 (维基百科“医疗信息经济和临床健康法案”) , 到2020年, 美国人口普查也将会通过整合行政记录来进行补充和完善。

2、国家基础数据库和编码

原则上, 一个国家是由它的人民、产业、政府和环境共同组构成整个经济体。十多年前 (2002年) , 中国国务院就下达了一条指令, 要建立四大基础数据库, 作为建立国家电子政务横向框架的一部分, 这包括“人口基础信息库”、“法人单位基础信息库”、“自然资源和空间地理基础信息库”、“宏观经济信息数据库”, 其中第四个系统需要整合前三个系统而完成。

这些全国性的数据库拥有21世纪统计系统所要求的特征。它们有助于中央政府的角色由控制转换到为公民服务, 同时也为数据共享和全国范围内一站式集成服务建立基础。之后, 中国在定义, 识别码, 标准和相关的基础设施进行大力投资。

标识码是发挥大数据威力的关键 (Wu and Ding, 2013) 。一个设计良好的代码能够进行电子化记录的匹配和合并, 提供身份保护, 基本描述和分类, 执行初步质量检查, 并促成动态框架的创建。

早在1984年, 中国就开始实施居民身份证制度 (维基百科“居民卡系统”) 。中国居民身份证样本 (图5) 可显示一个人的识别码、姓名、性别、民族、出生日期、地址、发证机构、签发日期和失效日期以及照片。

来源:Wikipedia, "Resident Card System"

1999年, 中国实施18位身份证标准, 18位数字的识别码包括的信息有户口地址、出生日期、性别和校验位。它是由公安部颁布和管理。身份证对于持卡人来讲是唯一和永久的。这个卡可以存储生物特征信息, 用途也逐渐增多, 例如购买火车票。

美国没有类似的国家公民卡系统。最近关于在社保卡上新增持卡人照片的事情再次引起争议 (例如 , Bream, 2014;Eilperin and Tumulty, 2014) 。

中国国务院还建立了组织机构代码系统, 由全国组织机构代码管理中心进行组织代码分配管理。9位组织机构代码包含一个校验位。这是有关企业、机关、社区、政府机构和其他在中国注册机构进行存储和检索的唯一标准代码, 与美国雇主识别号码 (Employer Identification Number) 功能类似 (维基百科, “雇主识别码”) 。

中国已经通过这些行动为建立动态框架打下了坚实的基础。不过, 到了2008年后, 用全国层面的处理方式去创建基础数据库开始变得越来越复杂, 因为有太多结构, 法律以及实际的障碍需要克服。

Shen (2008) 曾经报道, 环境和地理基础数据库已基本完成, 但缺乏实际应用。人口基础数据库包含超过100个变量, 每个变量具有不同程度的灵敏度。法人单位基础数据库最大阻力是来自职责交叉重叠的不同机构并不愿意分享数据。没有前三个数据库的适当组合, 宏观经济基础数据库是无法启动的。

其实LEHD项目在美国也有着类似的经历。国家层面的处理方式面临“不愿意分享数据”的阻力, 所以不得不放弃采取国家层面为起点, 重新战略性地分配到各州完成任务, 然后再重新组合到国家层面。

直到2014年中国国家的城镇化计划发布, 基本数据系统一度被并入长期发展计划中, 目前政策要加快它们的创建和实施。例如, 预计到2020年人口基础数据库必须要与跨机构和跨区域的就业、教育、收入、社会保障、住房、信贷服务、计划生育、税务等信息系统相连接。同年, 公民识别码也将成为记录, 查询以及测量中国人口特征唯一合法标准代码。

3、智慧城市的崛起

2008年左右, 由于电子政务和数字城市扩展, “智慧城市”这一概念也开始在全球范围内出现。一般来说, 一个城市被认为是“智慧” (维基百科, “智慧城市”) 时, 是“通过在人力和社会资本, 以及在交通和现代通讯基础设置上的投资来推动可持续经济发展以及高质量的生活, 同时通过参与和鼓励的方式来对自然资源进行更为明智的管理。”数据的收集, 处理, 整合, 分析和应用是建设智慧城市的核心。

就实际来说, 若能够落实智慧城市这一理念, 中国将可以从国家层面, 下放到更易于管理的城市水平, 同时也能保护过去的投资, 允许聚合到省级或区域水平。

表3概述了在全国城镇化计划中开发智慧城市的方向。

在2013年底, 中国住建部 (住房和城乡建设发展部) 已确定了193个智慧城市试点 (baidu.com, “全国智慧城市测试点”) , 试点城市将经过3-5年的创建期。

中国科技部和国家标准委亦组织云计算、物联网、移动互联网等国家科技计划项目与20个智慧城市试点对接, 在此基础上, 各试点城市将分别形成具体的实施方案, 开展为期3年的试点示范工作 (Xinhuanet.com, 2013) 。

四、现行状态

发布市民卡, 提供一站式服务, 整合收集数据是实现智慧城市的第一步。

多功能市民卡可用于社会保障和医疗保险, 也可作为借记卡进行小额信贷。不同城市或具备不同功能, 有的市民卡还可用于交通, 公共图书馆, 自行车出租服务, 以及其他有待开发的政府和商业功能。

在申请过程中, 公民的识别码将会与社会保障和医疗保险的代码, 居住地址, 人口数据, 和家庭联系方式等信息一起收集, 促成与其他数据系统和记录的连接。

目前中国智能市民卡每个城市都所不同 (图6) , 但它们通常包含两个芯片和一个磁性存储条。

来源 :Baike.baidu.com, “Resident Card”

2013年10月, 由神州数码自主研发的国内首个城市公共信息服务平台发布。神州数码是中国主要技术服务供应商之一。

作为中国智慧城市建设首个核心支撑系统, 该平台上线后, 数以百万计的居民以一张安全的智能卡, 通过一站式平台统一了以前独立分散的功能。

2014年4月, 武汉市公布了“武汉市大数据产业发展行动计划 (2014~2018年) ” (Smarterchina.com.cn, 2014年) , 其中就包括要设立市政务云数据中心、国家地理空间信息云数据中心、国家数控工程系统云数据中心、国家教育云数据中心、国家音视频多媒体云数据中心、全国质量监测与评价云数据中心、中国·武汉车联网云数据中心等七个云数据中心。

6 月 5 日, 世界环境日, 东莞市在一个网站上公开了四种类型污染排放的垃圾焚烧厂实时数据 (CN-hw.net, 2014年) , 成为中国第一个试行垃圾焚烧污染物排放指标上网公开的城市。

五、城市信息学

上述具有开创性意义的活动都比较温和, 但这也显示了一些实际的行动正在展开, 这将成为中国城市信息学的基础。它们代表中国智慧城市发展的早期成果, 据预测, 到2025年中国对智慧城市建设的投资有望超过2万亿元 ($3220亿美元) 。

城市信息学, 是指科学地利用数据和技术来研究城市现状, 需求, 挑战和机遇。中国这一概念并不普及。它涵盖了结构化和非结构化数据, 收集的数据是否经过设计或加以目的性都有可能。

城市信息学的特征是海量纵向数据的应用, 多种数据源的整合, 快速以及简便地结果呈现, 同时严格保护数据机密和安全, 并保证精度和可靠性。

中国的城镇化高风险和高回报并存, 其巨大的规模意味着潜在的低效和浪费。虽然试验法可行, 但城市信息学必须同时要学爬行, 步行, 和奔跑。这种紧迫性使得留给研究和开发的时间和空间相当有限。城市信息学想在中国发展成为成熟的研究领域, 仍面临诸多挑战和需求。我们选择四个主要议题进行讨论。

1、文化改变的需要

尽管有行政命令, 政治改革, 削减规模和云计算 (例如, UPnews.cn, 2014年) , 但仍然无法保证一些内在障碍的打开, 例如抵制数据分享以及标准等方面。下放权力的主要风险则在于会出现不相容的信息孤岛, 系统无法在城市之内或之间互通。

这样的挑战并非中国独有。

2013年, 美国联邦政府中有超过7000个数据中心是独立存在的, 其中约6, 000被认为是“非核心”。很多系统并不互通, 维护成本也很大。虽然美国白宫2010年就已启动合并计划, 但进展仍然缓慢 (CIO.Gov, 2014年;Konkel, 2014年) 。

然而, 开放数据的管理和研究在中国仍然相对较新。虽然它们在中央计划中的价值已被认可和倡导, 但中国官员对于开放数据政策和数据共享的支持力度并不知名, 或者说他们对于现代统计学的作用以及环境问题的意识程度还缺乏深度了解和接受。

1924年沃特·休哈特首次提出统计质量控制和管理的原则 (维基百科, “质量管理”) 。戴明 (1994) 强调统计方法和“深刻知识”的运用, 对日本战后“经济奇迹”以及后来在美国的质量管理运动都做出了显著贡献。

现在 , 质量管理领域最负盛名的标准的或许就是ISO9000质量管理系列标准了。ISO是一个全球性的非政府组织, 是国际标准化领域中一个十分重要的组织, 成员包括162个会员国, 中国也在其中。这些基于工业生产背景而产生的统计准则和思考方式, 如今也同样适用于政府治理。

中国国家统计局非常依赖省级和地方政府提供的数据。地方对于数据的干预和伪造在中国也偶有报道 (例如, 王, 2013) , 包括最著名的GDP数字。有报道显示, 2013年的28省市GDP之和已经超过2013年全国31个省市GDP总量2万亿, 多出3.6% (例如, D. Li, 2014) 。中国统计数据的可信度和公信力并不高。

2014年, 涂子沛曾提出中国现在尚未形成理解和尊重数据的文化。这与芬兰的赫尔辛基市利用成本分摊以及根据区域特点促进数据公开化形成鲜明对此。中国在这方面并没有历史先例, 要想进行这样的文化改变的确是非常大的挑战。

2、统计的思考和设计需求

中国的统计基础是最近几年才建立起来的, 相对来说还比较薄弱。早在200多年前, 美国就有了人口普查, 中国在1990年才开始了每十年一次的人口普查, 首次进行统一的经济普查则是在2004年。随机调查在方法上也很少有详细的文献记录。

在国家城镇化计划中对于动态监测和纵向分析的需求让人耳目一新。它的实施面临许多统计和技术问题, 包括记录链接和整合, 缺失或错误数据处理, 数据质量和完整性的确保, 数据检索和提取, 推论涵盖面以及快速交付成果。一些诸如“人才”, “绿色建筑”和“信息化水平”的用语也都没有公认的定义或标准。

在有关个人的数据的收集, 一些特征不随时间变化, 如性别和民族;有一些不常变化或变化可预见, 如年龄、户口、及家庭状况, 一些变化频度则比较高, 例如教育程度、收入水平、职业、家庭工作住址;还有一些是时刻都在变化的, 例如营养摄入、水电用量, 或对于服务的意见。

如果要测量这些特性, 那么它们需具备合适的频次, 完整性以及比较好的质量, 只有这样, 人们才能收集到一些可靠的数据并迅速简便地描述和预测人口问题。这些定义需能够在于不同地点和时间下保持连续性, 得到的结果才具可比性, 进而研究发现一些有意义或具价值的时空规律, 基本单元可以从一个人延伸到一个家庭或一个家族。这里所需要考虑的因素同样也适用于衡量一个企业或一个确定的地理空间。不是所有的大数据都与政府治理相关, 在中国大数据包括了基础数据系统。集成化结构化的数据实际上比非结构化数据包含更加丰富的信息。如果在数据生态系统顶层设计时它就能够被考虑进去, 那么信息提取就可以达到最佳化。

聂, 江, 杨 (2012) 曾经报道过一个全国性企业纵向数据系统因某些数据问题导致了非常严重的后果, 这些数据问题包括记录不匹配, 异常数据, 变化过大, 以及不清晰的定义。不管数据系统的创建和维护成本有多高, 若没有适当的统计设计和质量控制, 它还是无法支持可信的分析或可靠的结论。在中国, 鲜少有关于统计设计或数据系统质量控制需求的讨论。总之, 大型纵向数据系统或者说比较可靠的纵向分析正是目前所缺乏的。

最近已经出现了对“科学大数据” (齐, 2014年;江, 2014年) 的探索和理解。这也显示了当前除了在商业和市场营销中有所应用外, 中国或许正准备在科学学科中更好地利用数据。

3、集成技术和统计的需求

袁 (2014年) 引证研究公司IDC说 , “在中国 , 大约有70%的政府投资放在硬件上, 远远超过全球16%的平均水平。”然而, 中国或许会在硬件方面比较突出, 服务和软件却往往处于滞后状态。技术和统计实际上是断开的。

图7显示了一个成熟的商业智能 (BI) 快速交付概念架构, 服务于普通用户和高级用户, 例如政府官员、学术研究者、媒体人或者一般大众。

快速的信息交付精确依赖于统计设计的稳健性, 所以底层数据要具备代表性, 保证质量, 容易提取入库, 可转换, 转型和加载 (也就是提取转换加载) 。它有利于我们对城镇化规划现状和进程进行可视化呈现和纵向观察, 就像了解系统性能表现以及顾客满意度一样。

基于智能卡的在线服务和一站式中心简化了行政职能, 减少了排队时间, 但目前静态监测报告还没有从概念上或实际操作上与在线服务收集的数据连接起来。虽然现在网上已经有统计年鉴, 但类似美国Fact Finder的交互式查询和动态可视化 (美国人口普查局, ND) 还没有实现, 且像美国On The Map (Wu and Graham, 2009;美国人口普查局, ND) 的那样能够基于实时最新数据提供自定义地图, 并出具统计报告的智能地图应用也还没有推出。

4、统计创新需求

统计是一门研究数据的科学, 不管数据是大还是小。

虽然它有着悠久的历史, 但在某些领域还没有发展成熟。“只要数据量大, 就能为整体提供可靠推论”这样的观念是错误的。一般来说, 统计理论并不支持分析那些并非依据概率论来收集的数据。当不具有整体代表性, 分析非随机收集的数据可能会导致错误结论。

孟 (2014) 提出三种类型的统计推论, 需要扩展现有的模范, 增强更高度的一致性和相对优越性。在基础数据库中, 通过在多相位多来源数据得出结论就是多源相位推理的一个例子。On The Map由于能够基于所选择用户的地理信息来进行估计, 这就体现了多分解推论。

早在1993年, 关于保持隐私的统计方法讨论就开始出现 (例如, Rubin, 1993) , 并应用于On The Map。然而, 合成数据作为保护数据机密的潜力还有待探索和验证。

张家港———个发展中的中国智慧城市。

张家港是一个港口城市, 位于长江沿岸, 中国东部, 隶属于苏州市 (图8) 的管辖范围, 面积999平方公里, 城乡居民150万。由于其优良的港湾和丰富的矿石储量, 张家港的采矿, 钢铁工业, 机械制造业都很发达, 一直跻身于中国百强县之中, 1986年, 它从县改为县级市。

2008年, 张家港获得了联合国人居奖 (联合国人居署, 2008年) , 成为中国第一个获得该奖项的县级市。据苏州市政府 (2014年) 公布的数据, 2013张家港市年国内生产总值约2145亿元, 比上年同比增长6%。城镇居民人均可支配收入为￥43, 400元, 同比增长9.3%;农村居民人均纯收入为21700元, 同比增长11.4%。

2010年, 张家港市城镇化率为63%, 已高于目前中国平均水平, 在不同方面均给城市管理者带来一定压力, 例如控制人口, 环境保护和经济发展。

表4显示的是张家港市“十二五”时期经济社会发展指标体系。数据显示, 五年内城市生产总值和港口吞吐量预计将增加一倍。张家港设立了一个“新的容量”目标并量化了研发致力于实现这些目标。正如在中国许多其他城市一样, 在推进城镇化进程中, 科学技术被认为是重要支柱。

张家港十二五规划的第8章也强调信息技术对电子政府的支持性作用, 通过提高政务应用水平;加快推进基础数据系统建设;专注于公众和政府数据的共享和交换系统;进一步完善跨部门应用的水平。

六、一站式平台

带着上述理念和目标, 2013年10月, 张家港市民网页综合服务系统正式上线 (图9) , 整个市民网页一共分为“我的服务”、“我的空间”、“我的声音”三个板块。我的服务提供政府和公共服务;我的声音则通过在线调查和微博连接了政府和居民;我的空间包含用户的“数字生活足迹”, 如个人信息和使用记录。

公共网站通过智能市民卡, 个人电脑和移动设备, 以及政府和社区服务中心将线上和线下服务相结合, 这个系统整合了张家港市31个政府机关和公共服务部门的服务内容和相关信息资源, 提供621种服务。

服务会根据接入设备的不同而有所差异。个人电脑端提供最全面的服务, 包括查询, 240多个服务事项的信息查询, 以及超过130种线上服务。在移动端, 用户也可通过利用通用GPRS定位和语音识别技术移动设备检查申请进度, 获得56种服务高效功能, 例如自驾服务等。

图10是一个我的服务页面示例, 显示在城市自行车租赁服务。

一站式服务平台试图提供一个统一, 以人为本, 完整的门户, 意图消除不同政府部门之间的信息壁垒, 建立部门自己的网站和服务站, 联合发展, 如智能交通和智能医疗保健。

该网站结合了多种现有和未来智慧城市的设想和和服务。平台有数据接口可开放给开发人员接入, 以达到以更低的运营成本来提供服务。市政府希望有一个平台来展示信息技术, 推出商业服务, 并协助经济发展, 尤其是在电子商务方面。

来源 :神州数码

张家港公共网站的设计是一个逐步发展的开放平台。所有的应用程序可被动态地加载和灵活扩展或缩减。现有服务也将不断提高, 并可增添新的功能。它的目的是提高政府服务的公众满意度和扩大机构参与, 以便于之后数据共享和数据挖掘。

居民的参与将决定在该平台的目标能够实现与否。在自2013年10月推出的6个月内, 已经总共有15, 518的用户通过实名制认证和网上注册 , 31, 956人次访问量 , 198227的页面浏览量。平均访问时间为11分7秒。在所有的用户中, 实名注册占67%, 而移动终端用户占44%。

目前, 体育场所的在线预订, 活动门票和长途旅行网上预订是最热门的服务项目。这些服务改变了以前居民不得不亲自办理或购买的状况, 凸显了便利性价值。

来源 :神州数码

虽然目前尚没有政府部门之间数据共享的先例, 但是公众网站正在开始整合居民信息。用户可以在我的空间 (图11) 查看他 / 她的记录。

张家港平台可出具统一账单, 用于认缴天然气, 水, 电等生活费用, 并能利用账单简单分析家庭支出情况。虽然只是基本数据分析, 但这预示着随着时间的推移以及活动记录的扩大和积累, 未来将会提供更精确的网上服务。

七、总结

中国处在六年国家新型城镇化规划的初期, 需扩大经济发展, 同时也亟需解决日益增加的社会和环境问题。这个过程中, 建立规范, 进行动态监测和纵向分析, 统计和城市信息学具有明确意义和作用。

某些智慧城市试点已经开始在数据整合方面迈出了一小步, 并取得了些许进展。在接下来的六年中, 在促进中国城市信息学发展以及全面实现城镇化的过程中, 文化改变非常需要, 这包括以客观数据为导向解决问题, 统计设计和数据系统考虑的结合, 用具创新性统计理论方法充分应用大数据, 使其更具意义。

中国无疑将继续推进并建设具中国特色的智慧城市, 我们期待在统计学和大数据的背景下, 可以看到更多中国城市发展。

摘要：中国历来是一个农业大国。中国国家统计局数据显示, 1978年人口城镇化率为18%。这一数据在具中国特色改革开放的开启后急剧上升, 到2013年底, 已增两倍至54%。按照国民生产总值计算, 中国现已成为世界第二大经济体。但与此同时, 不少大城市病也陆续浮现, 包括环境恶化, 缺乏可负担的住房, 以及交通拥堵。可以预见的是, 未来几年, 中国的核心政策仍将会围绕经济增长来进行, 城市也将面临严峻的挑战。对中国来说, 一方面要维持经济增长, 保证城市居民的生活质量, 另一方面还要着手解决现有大城市的通病。2008年, “智慧城市”这一术语出现在全球视野范围内。中国也开始拥抱这一理念, 把以前的全国性的大规模层面的管理化整为零到更易于管理的城市水平。2013年底, 至少193个地点被指定为智慧城市的试点, 2014年3月, 国家新型城镇化规划 (2014-2020年) (以下简称规划) 跟进出台。这篇论文指出了现在城市发展方向和一些主要挑战, 有些问题是世界性的, 有些则具中国特色。但可以肯定的是, 在未来几年, 中国将会坚持打造智慧城市。2013年中国首个城市公共信息服务平台发布, 现已在几个智慧城市试点实施启用。它提供一站式中心的平台服务于百万计市民, 市民可以用一张安全的智能卡, 实现以前分隔独立的城市功能, 同时集中数据收集。这个系统的开拓是智慧城市的落地温和的开端, 它代表了实际工作正在进展, 有助于奠定基础, 建设成熟的中国城市信息学研究和应用。本文还会讨论不断变化的研究需求和数据现实限制, 并以中国一个智慧城市试点为例, 通过大数据和统计思维, 试图在可能的领域, 观察比较与美国以及其他国家的异同。

3.数据统计和研究背后的道德立场篇三

全世界做经济预测的专家学者数不胜数，他们“生产”出来的学术论文和研究报告浩瀚如海，难道其中那些晦涩难懂的经济模型和眼花缭乱的数据统计结果只是在玩弄数学技巧，毫无实际用处？也许情况并没有那么糟。据西方媒体报道，早在几年前，美国一些著名大学里的经济学教授就曾对次级债市场进行过深入研究，发现了很多可能引发市场崩溃的迹象，但是在当时市场一路高歌的形势下，没有人愿意把他们的研究结果公之于众，也没有发布任何警示性信息。金融危机爆发后，有位著名教授在博客里深刻反思，他承认自己的“麻木不仁”实际上是有悖于学者的良知和公民道德的。

在经济效率的标准凌驾于一切标准之上的社会里，市场机制渗透到了社会的每一个角落。经济衰退表明，市场在维护公共利益方面是失灵的，市场机制主导公共领域的资源配置将产生灾难性的后果。用市场化的指标来考核和评价数据调查和统计、学术和政策等公共领域的行为，将极大削弱违背道德的耻辱感，进而破坏社会规范。美国是一个市场化国家，通过这次金融危机，美国已经意识到了无所不在的市场观念对社会造成的破坏性影响：人们用成本和收益衡量所有的行为，道德和追求真理的精神变得毫无价值，责任意识在公共生活中沦为金钱的奴隶，人和人之间变得越来越难以合作和信任。

本期封面文章报道了我国统计数据方面存在的问题，这些问题实际上也是和公共领域的道德缺失有关。在经济研究和预测这条“产业链”上，如果处于最下游的数据调查和统计环节不能提供真实、可靠的数据，一切的研究和预测都将失去意义，公共政策和宏观经济调控措施也将发生南辕北辙的后果。司职数据调查和统计的部门和官员不会不懂得这些近乎常识的道理，但在经济效率压倒一切的所谓市场化理念的渗透下，地方政府把促进公共利益的政治目的降到了次要位置，人们也不再把追求真理当成人生的理想，说真话、实事求是成了不识时务的表现。

4.临床数据处理和统计分析篇四

数据处理和统计分析

数据处理的目的在于氢来自受试者的当选据迅速、完整、无误地收入报告，所有涉及数据管理的各种步骤均需记录在案，以备审核人员对试验实施过程和收集的数据的质量进行稽查或检查。申办者应当保证有满意的计算机数据库的维护和支持程序。开始试验前需设计可被计算阅读与输入的临床报告表及相应的计算机程序。

在临床试验的设计与结果的表达与分析过程中，必须采用规范的统计学分析。因此，临床研究从设计试验方案到完成总结报告的各阶段都要有生物统计学专业人员参加。他们在临床试验中的作用包括下列内容：

 参与制订和审查试验方案：包括试验设计、确定样本量和把握度、在防止试验偏性的方法（如盲法和随机技术）中进行统计学计算、随机化及设盲、制订入选和排除标准、确定伴随或预兆性因素、制订统计分析计划（Statistical analysis plan,SAP）等；  参与CRF和数据库的设计和审查；  建立基线标准；  准备原型分析；  准备分析程序；  参与数据监查和筛选；  对试验数据进行统计分析；  起草统计分析报告；  参与起草总结报告等。

临床试验方案中要写明统计学处理方法，此后的任何变动必须在临床试验总对报告中记述并说明理由。若需做中期分析，应说明理由及规程。统计分析结果的表达着重于对临床意义的理解。对治疗作用的评价应将可信限与显著性检验的结果一并予以考虑。

研究者和申办者必须保证收集的数据的高质量，统计人员则必须保证数据处理的完整性。统计分析的结果和发现要写入总结报告。统计分析中若发现有遗漏的、未用的或我余的资料应加以记录和说明。临床试验的统计报告必须与临床总结报告相符。通常在试验结束时，申办者与研究者协商后安排有资格的生物统计学专业人员对试验数据进行统计学处理。应当保证统计人员有足够的时间在数据一收到后就开始进行统计学分析。多方人员在研究过程中的良好合作和及时报告有助于避免研究结束时数据处理上的无谓延误。数据的输入往往需要较多的时间，建立计算机数据库可使统计分析和分析报告很快完成。

5.统计学和数据挖掘区别篇五

根据××市教育局和上级的文件精神，我校对教育基础数据库的更新工作进行了自查，现报告如下：

一、领导重视。学校领导对教育基础数据库的更新工作非常重视，经常过问此项工作，并安排专人负责。多次派负责更新工作的×××老师外出学习，使该教师能顺利掌握广东省教育信息平台的使用方法，及时进行信息的更新。

二、数据真实准确。为了使数据真实准确，我们做好过细工作，对采集的数据做好审核。因此我校上报的教师库、学生库等数据都是真实准确的，无虚报和假报现象。

三、按时完成更新工作。每次都能按时完成数据的更新工作，从不拖全镇和区的后腿。

四、我们认真做好整理和归档工作。

五、加强业务培训，×老师先后参加了中山、台山、××实小的培训学习，学完以后，在全镇的中小学和幼儿园的教师中进行二次培训，不断提高业务能力。

六、存在问题。在自查工作中，也发现了一些不足之

处，如有些学生的转学，尤其是外省的学生，转学了也不搞转学的手续，班主任打电话问家长才知道转了去那里，因此，有些学生没有办好转学手续。另外，发现该教育信息平台，经常塞车，对工作的进度有一定的影响。

今后，我们会更好地做好数据库的更新工作，对存在的问题一定做好整改。

××小学

6.统计学和数据挖掘区别篇六

用图表展示定性数据试题

本卷共分为1大题50小题，作答时间为180分钟，总分100分，60分及格。

一、单项选择题（共50题，每题2分。每题的备选项中，只有一个最符合题意）

1.我国现行的统计基本法是______。A．中华人民共和国统计法

B．中华人民共和国统计法实施细则 C．统计行政法规 D．统计规章 E．规范性文件

2.某企业的全部实收资本中，国有经济成分的出资人拥有40%的股本，集体经济成分的出资人拥有30%的股本，私人经济成分的出资人拥有30%的股本。请根据上述资料，回答下列问题：该企业若实施改制，改制后国有经济成分的出资人拥有50%的股本，私人经济成分的出资人拥有50%的股本，未明确由谁绝对控股，则此时该企业属于______ A．国有控股 B．私人控股 C．集体控股 D．其他

3.B企业均为一般纳税企业，增值税税率17%)加工材料(非金银首饰)，原材料价款为68万元，加工费用9.36万元(含增值税)，由受托方代收代缴消费税4.5万元，材料已经加工完毕验收入库，收回后继续用于生产应税消费品。该材料加工后入库成本是__万元。A．77.36 B．81.86 C．76 D．80.5

4.事业单位在财产清查中发现事业用材料盘亏，其中属于正常损耗的应__。A．计入当期经背支出 B．计入当期事业支出 C．直接抵减一般基金

D．冲减事业用材料盘盈价值

5.某公司上年末资产负债表部分余额如下：资产总计为6000000元，其中流动资产2000000元，负债总计2000000元，其中流动负债1600000元。假定本年发生以下经济业务：(1)企业收到投资者投入的资本金500000元，款项已经存入银行。(2)企业从外地购入甲材料1000千克，每千克20元；乙材料4000千克，每千克10元，增值税额10200元。企业以银行存款支付上述甲乙两种材料的货款及运杂费5000元，运杂费按材料重量比例进行分摊。(3)向希望小学捐款30000元，已从银行存款账户支付。(4)企业本年销售收入1000000元，企业增值税额为170000元，款项已收并存入银行。根据以下要求选择正确答案。根据上述经济事项(2)，外购材料的运杂费分摊率为__。A．0.50元/千克 B．0.083元/千克 C．166.67元/千克 D．1.00元/千克

6.长江公司期末“委托代销商品”科目的余额为10万元，“工程物资”科目的余额为 100万元，“分期收款发出商品”科目的余额为40万元，“原材料”科目的余额为60万元，“材料成本差异”科目的贷方余额为5万元。假定不考虑其他因素，该公司资产负债表中“存货”项目的金额为__万元。A．105 B．115 C．205 D．215

7.某企业上年末资产负债表部分项目的余额如下：货币资金230000元，应收账款42450元，存货132000元，固定资产原价510000元，累计折旧183000元。该企业本发生下列经济业务：

(1)购入A材料一批，买价为20000元，增值税额为3400元；购入B材料一批，买价为10000元，增值税额为1700元；购入A、B两种材料共发生运杂费900元，按材料的买价比例分配；材料的货款和运杂费共计36000元均以银行存款支付，材料已验收入库。(2)对企业行政管理部门使用的固定资产计提折旧600元。

(3)销售产品一批，售价为30000元，增值税税率为17%，货款尚未收到；该批产品的生产成本为22000元，销售产品应交纳的城市维护建设税及教育费附加为500元。根据上述资料，计算该企业本年的应收账款周转率为__。A．30000/[(42450+77550)/2]=0.5次 B．30000/42450=0.707次

C．30000/(42450+77550)=0.25次 D．30000/77550=0.387次

8.下列项目中__属于工业企业其他业务收入。A．罚款收入

B．原材料销售收入 C．出售机器设备收入 D．出售自研专利收入

9.下列关于金融环境的内容的说法不正确的是__。A．金融工具是货币资金或金融资产借以转让的工具

B．金融市场按期限分为短期资金市场和长期资金市场，即货币市场和资本市场 C．金融市场的组织方式是指金融市场的交易采用的方式 D．资本市场所交易的金融工具具有较强的货币性

10.“消费者人均月收入”(x2，单位：元)及“商品需求量”(y，单位：件)，建立多元线性回归方程如下：y=4990.519－35.66597x1＋6.19273x2，请根据上述结果，从下列备选答案中选出正确答案。对该回归方程进行显著性检验，计算检验的统计量F＝72.53930，对应的概率值P＝0.000021 ,下列说法不正确的是______。A．原假设为H0:β1=β2 B．备择假设为H0:β1，β2至少有一个不等于0 C．临界值F 的自由度为(k,n－k)D．由F检验的原则可知，在显著性概率为0.05的条件下，回归方程的线性关系存在，拒绝原假设

11.一国货币汇率下跌，即货币贬值，则会导致__。A．进口贸易缩减

B．以本币标示的进口商品价格就会下跌

C．本国居民对进口商品的需求增大 D．扩大进口贸易

12.已知某资产负债简表的部分内容，如表6-1所示。表6-1 单位：亿元根据上述资料请回答：国外部门的金融负债为（）亿元。A．-100 B．100 C．1300 D．1400

13.企业若要维持正常的偿债能力，__。A．已获利息倍数应小于1 B．流动比率大于2 C．已获利息倍数应大于1 D．速动比率大于1

14.某企业2011年1月1日购入B公司10%的有表决权股份，作为长期股权投资核算，实际支付价款300万元。2011年4月30日B公司宣告派发2009年现金股利100万元，当年B公司经营获利100万元，2011年年末企业的股票投资账面余额为__万元。A．290 B．300 C．310 D．320

15.以下是2005年全国资金流量表实物交易部分，请根据该表数据回答以下有关问题。表3-1 2005年企业部门净金融投资为（）亿元。A．1196 B．-16937 C．-15741 D．-18133

16.部门、单位领导人在统计数据上弄虚作假的，主要采取______。A．通报批评 B．行政处分

C．追究刑事责任 D．责令改正自以罚款

17.某单位收到一份本县统计局制发的没有批准文号的统计报表。请回答：该县统计局的统计违法行为有______。

A．未经批准擅自组织实施统计调查 B．未经批准擅自改变统计调查制度

C．未按统计调查制度的规定报送有关统计资料 D．要求统计调查对象提供不真实的统计资料

18.某企业为增值税小规模纳税人，本月购入甲材料2 060公斤，每公斤单价(含增值税)50元，另外支付运杂费3 500元，运输途中发生合理损耗60公斤，入库前发生挑选整理费用620元。该批材料入库的实际单位成本为每公斤__元。A．50 B．51.81 C．52 D．53.56

19.表3-3是某年全国资金流量表部分资料：（单位：亿元）表3-3 设全国初次分配总收入为X亿元、住户部门可支配总收入为Y亿元，则该部门储蓄率的算式为（）。A．A B．B C．C D．D

20.某企业2005年的税后利润为67万元，所得税税率为33%，利息支出为50万元，则该企业2005年的已获利息倍数为__。A．1.34 B．1.9 C．2 D．3

21.依据《行政处罚法》的规定，统计部门对给于某种处罚的案件应当依照当事人的申请组织听证。该种处罚是指______。A．警告 B．罚款

C．较大数额罚款 D．通报批评

22.统计台账；二是建立健全统计资料的______等管理制度。A．审核、交换 B．审查、档案

C．签署、交接、归档

D．审核、签署、交接、归档

23.表3-2是已公布的2006年我国国际收支平衡表简表，请根据此表在下列备选答案中选出正确答案。（2006年1美元对人民币的中间价为7.9718）已知我国2006年国内生产总值为210871.0亿元，则根据上表计算的2006年国民生产总值（或国民总收入）为（）。A．209933.9 B．214135.8 C．211808.1 D．207606.2

24.某企业上年末资产负债表部分项目的余额如下：

货币资金460000元，应收账款89000元，存货264000元，固定资产原价1020000元，累计折旧366000元。该企业本发生下列经济业务：(1)购入甲材料一批，买价为40000元，增值税额为6800元；购入乙材料一批，买价为20000元，增值税额为3400元；购入甲、乙两种材料共发生运杂费1800元，按材料的买价比例分配；材料的货款和运杂费共计72000元均以银行存款支付，材料已验收入库。(2)对企业行政管理部门使用的固定资产计提折旧1200元。

(3)销售产品一批，售价为60000元，增值税税率为17%，货款尚未收到；该批产品的生产成本为44000元，销售产品应交纳的城市维护建设税及教育费附加为1000元。根据以下要求选择正确的答案。

根据上述资料，计算该公司本年的存货周转率为__。A．44000/(264000+220000)=0.091次 B．44000/I(264000+281800)/2]=0.161次 C．44000/264000=0.167次 D．44000/220000=0.2次

25.以下是2005年全国资金流量表实物交易部分，请根据该表数据回答以下有关问题。表3-1 2005年企业部门净金融投资为（）亿元。A．1196 B．-16937 C．-15741 D．-18133

26.”消费者人均月收入”(x2，单位：元)及“商品需求量”(y，单位：件)，建立多元线性回归方程如下：y=4990.519－35.66597x1＋6.19273x2，请根据上述结果，从下列备选答案中选出正确答案。根据计算上述回归方程式的多重判定系数为0.9540，其正确的含义是______。A．在Y的变化中，有95.40%是由解释变量x1和x2决定的 B．在Y的总变差中，有95.40%可以由解释变量x2解释 C．在Y的总变差中，有95.40%可以由解释变量x1解释

D．在Y的总变差中，有95.40%可以由解释变量x1和x2解释

27.超支的广告费应计入__。A．营业外支出 B．销售费用 C．财务费用 D．管理费用

28.经济结构等进行计算和分析，在下列备选答案中选出正确答案。表3-5 衡量2004年国民经济增长率的代表性指标及数值是（）。A．国民总收入增长9.9% B．国内生产总值增长9.5% C．支出法国内生产总值增长8.6% D．人均国内生产总值增长5.8%

29.某企业“应收账款”有三个明细分类账，其中“应收账款——甲企业”明细分类账月末借方余额为100000元，“应收账款——乙企业”明细分类账月末借方余额为400000元。“应收账款——丙企业”明细分类账月末贷方余额为100000元；“预收账款”有两个明细分类账，其中“预收账款——丁公司”明细分类账月末借方余额55000元，“预收账款——戊公司”明细分类账月末贷方余额为20000元；坏账准备月末贷方余额为3000元（均与应收账款相关），则该企业月末资产负债表的“应收账款”项目应为（）元。A．697000 B．717000 C．552000 D．745000

30.某工业企业甲产品在生产过程中发现不可修复废品一批，该批废品的成本构成为：直接材料3200元，直接人工4000元，制造费用2000元。废品残料计价500元已回收入库，应收过失人赔偿款1000元。假定不考虑其他因素，该批废品的净损失为__元。A．7700 B．8700 C．9200 D．10700

31.已知某资产负债简表的部分内容，如表6-1所示。表6-1 单位：亿元根据上述资料请回答：该国的国民财产为（）亿元。A．8630 B．8730 C．19230 D．19330

32.在统计执法中，被处罚单位在接到处罚通知后，如果既不在法定期限内申请复议或向人民法院提起诉讼，又拒不执行的，由查处机关依法______。A．强制执行 B．起诉

C．申请人民法院强制执行 D．与相关人协商解决

33.编制多步式利润表的第一步，应__。A．以营业收入为基础，计算营业利润 B．以营业收入为基础，计算利润总额 C．以营业利润为基础，计算利润总额 D．以利润总额为基础，计算净利润

34.技术性的统计工作，只能由______来承担。A．国家统计机构 B．部门统计机构

C．企业事业组织统计机构 D．民间调查机构

35.下列可作为统计违法违纪行为处分适用对象的是______。A．国家工作人员 B．所有统计违法者

C．企事业单位的管理人员

D．统计调查对象中承担经常性政府统计调查任务的人员

36.单位负责人是指依照法律或者法人组织章程规定，代表法人行使职权的负责人，又称______。A．单位主管 B．单位代表 C．法定代表人 D．法定负责人

37.某企业上年末资产负债表部分项目的余额如下：货币资金230000元，应收账款42450元，存货132000元，固定资产原价510000元，累计折旧183000元。该企业本发生下列经济业务：

(3)销售产品一批，售价为30000元，增值税税率为17%，货款尚未收到；该批产品的生产成本为22000元，销售产品应交纳的城市维护建设税及教育费附加为500元。根据上述业务(1)，计算A材料的实际采购成本为__。A．20300元 B．20600元 C．23400元 D．24000元

38.下列关于现金流量表的说法，正确的是__。

A．经营活动的现金流量最重要，是企业获得持续资金来源的主要途径 B．经营活动产生的现金流量应当采用直接法列示

C．筹资活动产生的现金流量净额，反映企业盈余背后是否有充足的现金流入 D．通常，企业经营活动产生的现金流量越多，说明企业销售畅通，资金周转快

39.登账后发现，会计人员在分配工资费用时，将车间管理人员的工资计入“管理费用”科目，此时应采用的更正方法是__。A．划线更正法 B．红字更正法 C．补充登记法

D．编制相反分录冲减

40.企业采用支付手续费方式委托代销商品，委托方确认商品销售收入的时间是__。A．签订代销协议时 B．发出商品时 C．收到代销清单时 D．收到代销款时

41.国民经济核算体系是由社会再生产核算表和______两大部分组成。A．国民经济账户 B．产业部门账户 C．国际收支体系

D．经济循环账户体系

42.年末应收账款余额分别为200万元和400万元；年初、年末存货余额分别为200万元和600万元；年末速动比率为1.2，年末现金与流动负债的比率为0.7。假定该企业流动资产由速动资产和存货组成，速动资产由应收账款和现金类资产组成，一年按360天计算。该企业2009的存货周转率为__次。A．3.6 B．4 C．4.8 D．5

43.下列完工产品和在产品的分配方法中，适用于产品数量较多，各月在产品数量变化也较大，且生产成本中直接材料成本和直接人工成本等加工成本的比重相差不大的产品的是__。A．约当产量比例法

B．在产品按固定成本计算法

C．在产品按所耗直接材料成本计价法 D．在产品按定额成本计价法

44.政府统计的整体功能是______。

A．提供统计信息和咨询意见，实行统计监督 B．搜集统计资料，实行统计监督 C．搜集统计信息，提供咨询意见 D．提供咨询意见，实行统计监督

45.下列各项中，可以计入递延收益项目的是__。A．罚款取得的款项

B．取得与资产相关的政府补助 C．接受捐赠资产 D．捐赠支出

46.统计法规定，县级以上人民政府______。A．可以设立统计机构

B．可以根据实际情况设立统计机构 C．应当设立统计机构

D．应当设立独立的统计机构

47.按照《统计法》和国务院办公厅转发国家统计局的《统计资料秘密管理办法》的规定，对外公布统计资料必须经过严格审批，并实行______的原则。A．统一领导 B．分级负责审批 C．分级负责 D．集中统一 E．集中统一领导

48.某企业系增值税一般纳税企业，本期购入原材料20000千克，发票中注明的价格为每千克5元，售价总额为100000元，增值税额为17000元。在购买过程中发生运输费用1000元，保险费用490元。原材料运抵企业，验收入库的原材料为19900千克。企业购进该原材料的单位成本为__元。A．5 B．5.1 C．5.85 D．5.92

49.根据哈罗德经济增长模型，若资本-产出比为5，储蓄率为30%，要使储蓄全部转化为投资，增长率应为（）。A．5% B．6% C．15% D．25%

50.持有统计从业资格证书的人员是______。A．法定代表人 B．统计负责人 C．会计人员

7.统计学和数据挖掘区别篇七

1 企业统计数据质量的主要相关因素

1.1 企业的重视程度及统计与利益的相关性是重要的影响因素

企业是否重视统计这项工作对统计的效果有至关重要的影响, 企业的重视程度决定了统计工作的投入、统计部门的地位等。目前很多的单位内部没有单独的统计部门和人员, 长期以来, 我国的企业对统计工作的认识仅停留在统计是计算、填表、报表等低层次的工作上, 对统计的投入不足, 这种统计的意义和对企业的帮助不大。主管领导对统计工作的理解不足, 认为其是可有可无的工作, 将统计工作交由一般人员处理, 或者内部统计人员不足, 导致统计工作难以展开。另外, 很多企业的统计工作是为了满足利益相关者的意图, 当统计工作与利益相关的时候, 统计数据的质量难以保证, 很多领导会对统计数据进行修改, 强令统计人员按其意图修改统计数据、统计方法等, 得出意料中的统计结果。

1.2 统计人员的素质和统计人员的数量对统计数据的质量有重要影响

统计要真正在企业中发挥作用, 必须由专业的人员进行, 企业内部的统计人员受教育, 特别是受专业教育的水平会对统计数据的质量有影响。统计的专业涵盖了统计学、运筹学、计算机软件运用及其他相关的业务知识和常识等相关的专业, 不同水平的统计人员对工作的理解程度及对方法的选择都会不同, 这可能会影响最终的统计质量。另外, 在数量上, 统计人员的数量也是决定统计质量的一个因素, 企业内部的统计人员如果太少或者企业为了缩减预算精简人员配置, 将导致统计人员的工作超负荷, 统计人员也将无法及时做好统计数据的质量提升, 难以对自身的能力进行充电。

1.3 企业管理的正规性及信息化水平是决定统计数据质量的组织因素

企业的统计离不开组织内部其他部门的支持, 企业内部制度建设的完善性及执行的规范性也会影响统计数据的质量, 如果企业内部有与统计相关的规章制度, 同时对统计工作也制定了明确可执行的公平绩效考核制度, 这将会提升企业统计数据的质量。企业管理一旦更加正规, 将保证企业的数据管理更加有秩序, 流程更加标准化, 不同部门之间的沟通更加高效。另外, 企业的信息化水平会让数据来源更加宽泛、数据准确性更高、数据分析更加有效率。企业内部如果可以利用好ERP系统, 可以实现数据的自动收集和处理, 计算机也可以对统计方法的运用和创新提供更好的工具, 加快数据处理的速度, 节约数据统计的成本, 变手工工作为机器自动化工作, 解放人的行为。

2 提升统计数据质量的意义

2.1 提升统计数据的质量有利于国家的宏观调控

目前国家的发展需要更多地依靠提升企业的活力, 特别是目前世界经济出现停滞, 中国经济也开始面临下行的压力, 经济的发展越来越需要由国家的高投入转变为企业的自愿投入驱动, 而要带动企业的发展的前提就是要让企业的发展放开束缚、展开手脚。为了达到这样的目的, 国家需要制定好政策, 避免政策制定不科学而影响企业的正常发展。做好统计和分析是国家政策科学制定的前提, 统计是国家宏观调控和经济政策出台的基础, 国家的统计包括了企业的运行数据, 这些数据来源于各个企业, 因此企业做好自身的数据统计是提升国家统计和宏观调控的基础工作, 也是为自身谋取正确、科学政策出台的前提。

2.2 提升统计数据的质量有利于企业内部的管理

企业的管理是建立在对内外环境的认识基础上的, 企业要做好自身的管理必须对市场环境、内部人员构成、内部生产运营等有基本的认识, 统计数据是通过对内外部数据的整理和分析, 为企业内部的科学决策和管理提供依据。例如, 企业的绩效考核就是需要对企业的横向和纵向等信息、员工的个人信息有了解才能够做好, 这些数据的了解有赖于统计的力量;再如, 企业的人员招聘也是需要对企业未来的发展、市场空间的变化、竞争环境的要求等进行组织的, 这些变化都是依据已有的统计数据进行分析得出的结论;另外, 企业要提升其财务分析的能力必须提升对数据的收集、分析能力, 这些需要统计的理论和知识, 同时统计可以加强对财务决策的支持, 从而降低财务决策的随意性, 提升内部的管理水平。

2.3 提升统计数据的质量有利于树立企业良好的市场形象

企业的统计数据有多重用途, 对内可以用于管理和决策, 对外可以为国家宏观调控统计数据所用, 也可以让外界的人员了解企业所用。企业的统计数据可以让外界的投资者更加了解企业, 部分统计数据是用于企业向政府单位或者行业协会申报专项资金、荣誉、高新技术企业、优惠政策、驰名商标等。一旦企业的统计数据出现问题, 就会造成这些主审机关对企业的不信任, 影响企业的申报;如果企业对外的统计数据出错, 则容易造成外部利益相关者对企业的不信任, 进而怀疑企业的财务数据等相关的数据, 对企业的市场形象不利。

3 提升企业统计数据质量的措施和对策

3.1 转变传统的统计观念, 建立统计制度

企业要正确认识到统计与管理、财务会计等的关系, 彻底转变过去轻视统计的观念, 树立起全新的统计数据质量观, 从过去主要重视数据收集的准确性和及时性这一观念转变为对数据的时效性、科学性等一并重视的质量观念。不仅要做好数据收集和分析工作, 还要深入解读数据背后的市场信息、内部信息等, 开发数据统计的分析成果, 拓展数据满足企业和部门的需求这一能力。

企业要树立全面质量管理的意识, 各个部门之间相互配合, 规范数据的收集、整理、分析、审核、汇总等工作的流程, 结合生产的具体情形, 找出统计数据异常的原因。统计人员要与这些相关部门进行合作, 其他部门也要配合支持统计人员的工作, 确保统计数据从源头到传递全过程的质量。

为了保证统计数据的质量, 企业必须建立健全统计制度, 设立专门的部门负责统计工作, 明确统计岗位的层级及岗位的职责, 让企业的统计数据可以满足企业的自身要求和政府统计的需要, 让制度成为统计工作的基本保障, 发挥好统计工作在企业管理中的基础性作用, 并及时向政府部门汇报数据。

3.2 完善统计工作的管理机制和工作流程, 加强统计的基础性工作

目前企业的统计工作基本处于混乱失真的现象, 各个部门的统计口径不一, 标准不一致, 向政府部门汇报的数据依据的标准也各有差别, 执行起来往往造成数据的失真。要克服这种问题, 企业就必须统一完善统计工作的管理机制和工作流程, 并加强统计的基础性工作。

首先, 企业内部要解决数出多门的问题, 理顺统计的管理机制, 提升统计工作的独立性, 明确统计的权责利, 统一建立一个部门或者岗位进行统计的处理。其次, 内部需要对统计相关的核算体系和指标体系进行统一, 对指标的含义、口径、计算的方法等进行明确的界定, 并以书面的形式进行规定。再次, 对统计相关的基础原始数据要进行规范。基础数据是决定统计数据质量的关键, 相关部门要根据统计的需要和政府汇报的需要对统计原始报表进行规范设计, 统一相关的统计报表, 并对相关的指标内容直接在报表中进行明确, 并保持报表的相对稳定, 以利于后续的比对。最后, 政府也要协同工商部门、银行、税务部门等相关的单位进行调查, 建立全社会的统计数据质量监控和评估中心, 对统计数据的生产过程进行质量管理。

3.3 强化队伍建设, 建立起科学的绩效考核体系

要提升企业的统计数据质量就必须有一支有能力、有素质的统计队伍, 这是统计数据质量提升的人员条件。各个企业应当依据自身的定位和条件, 视情况尽量设立专门的统计机构, 做好统计人员的配置, 明确各个部门的责任, 改变过去统计人员主要由其他岗位兼职处理的现象。

在对员工的要求上, 企业要从招聘环节、培训环节、考核环节等入手, 提升统计人员的专业素质和道德涵养。招聘上, 企业可以选择一些有统计教育背景的人员加盟企业, 让企业的人员素质在基础上有保障, 统计人员是否专业决定着统计理论、知识、方法、工具、结论的运用程度。

在培训上, 政府要及时组织相关的培训, 为企业的相关人员提供充电的机会, 企业内部也要及时要求统计人员及时再学习专业知识, 参与相关的培训, 进行专业知识的培训。

在考核上, 企业要对统计人员的专业能力、工作效果、责任意识、创新意识等进行考核, 增强人员的责任意识, 提升考核的专业性和公平性。考核不仅仅是要针对企业的统计人员, 政府对一些国资委下属的企业领导也要改变考核的方向, 科学选拔和任用干部, 注重企业长远发展和短期效益的平衡, 避免“数据出官”的现象, 减少数据被操纵的风险。另外, 对数据的质量出问题的企业领导要加强责任追查制度的实施, 扫除数据的干扰, 为数据统计工作塑造一个良好的工作环境。

3.4 完善统计数据的信息化工作, 提升源头数据的采集质量和数据的共享程度

随着现代信息技术的普及, 企业应当合理利用并重视信息技术的力量, 做好统计工作。首先, 是物联网的建设, 企业可以利用物联网加强对数据源的采集质量控制, 很多的生产、运输、销售都是采用二维码和条形码进行跟踪。通过对这种物联网技术的运用, 企业可以对存货的使用、传递、状态进行了解, 并确保数据采集的质量, 企业的管理也可以更加有效, 产品的单位耗量、物料的消耗量、单位成本的情况等也可以更加科学。其次, 企业和政府应当充分利用云平台等相关的技术, 做好企业数据的信息化分享平台, 企业可以建立起自己的私有云平台储存数据, 单位内部的人员也可以在权限范围内进行查询和使用, 政府可以建立起公共的云平台, 让协会、企业、个人进行查询, 提升数据共享的水平。

企业的统计数据质量受到多重因素的影响, 企业的统计数据质量的提升对企业而言有重要的意义。本文就是以此来进行探讨, 希望能够对企业有所帮助。

参考文献

[1]柴亚玲.影响企业统计数据质量的原因及对策[J].中国高新技术企业, 2010 (6) .

8.统计学和数据挖掘区别篇八

【关键词】路由器；iP数据包；流量数据采集方法

Methods router IP packets for traffic analysis， monitoring and statistics based on

Wang Xiao-wei

（Handan City， the fourth Construction and Installation Co. Handan Hebei 056000）

【Abstract】This paper packets through the router IP traffic statistics data collection methods and characteristics discussed in detail description， to be able to network research and network management and traffic data collection play a role.

【Key words】Router；iP packets；Traffic data collection method

伴随着计算机科学技术在当今社会的飞跃式发展，网络的发展前景不可预期，网络上传输的数据量也随着时代和技术的发展而越来越大，同时近几年来有关部门采用流量来计费的方式越来越普遍，如何统计网络流量已经日益成为人们普遍关注的一个问题。为此。迫切需要一种对网络性能进行分析、监控和诊断的工具，也需要一种对网络数据流量进行统计分析地、有效地工具。在此种情况下，各种对网络数据流量进行分析、监测和统计的方法应运而生。

1. 数据流量的统计方法

通常情况下，流量统计的方法主要有数据采集和数据分析两个方面，其中以数据采集最为重要。就目前来说，统计网络数据流量的方法有很多，最主要的是通过两个途径完成网络流量的数据采集：使用代理服务器对网络流量进行采集和直接使用路由器实现数据的流量统计。

1.1 使用代理服务器实现网络流量的统计。

代理服务器是一种介于客户端和Web服务器之间的服务器，有了它之后，浏览器不是直接到Web服务器去取回自己想要的网页，而是向代理服务器发出信息、网页请求，信号会被先送到代理服务器，然后由代理服务器来从web浏览器上取回所需要的信息并传送给你的浏览器。代理服务器有很多功能，如缓冲功能、安全功能、日志功能等等，另外，代理服务器还具有日志功能，能够实现对网络流量的数据统计就是因为其本身具有记录流量的日志功能。这样就可以直接读取代理服务器上的日志文件实现网络流量数据的采集工作。利用代理服务器取得流量数据的方法比较方便，但是有时候也会出现一些偏差，因为代理服务器会出现丢失数据包的现象，从而不能准确的记录网络的数据流量。

1.2 使用路由器实现网络流量的统计。

除了代理服务器外，路由器是实现网络流量数据采集的最重要、最便捷的方式。路由器一般利用其内部所具有的流量记载功能，如ShowIpAccouting命令、SNMP协议和Telnet程序来实现流量数据的分析和采集。使用路由器对网络流量的数据进行采集避免了使用代理服务器出现的数据包丢失问题，因此，网络流量的数据采集比较精确。下面将重点介绍基于路由器IP数据包统计的流量数据采集方法。

2. 基于路由器IP数据包统计的流量数据采集方法

众所周知，路由器是一种连接多个网络和网段的设备，它能将不同网络和网段的信息进行解码、然后重新编码，使其网络间能够互相连挠，路由器可以根据数据包的目的地址选择最有效、最简捷的路径与其他网络实现连接，然后形成一个更大的网络，这样就能够最大程度的实现网络问的资源共享。它是流量数据出入的咽喉，局域网中所有到因特网的网络流量都必须经过路由器。因此，路由器充当了数据采集的角色。通过路由器对网络流量的数据进行采集的方法也有很多种，如show IP account命令、SNMP协议和Telnet程序等。因为路由器的主要功能是帮助IP数据包选择正确的路由，时期更快捷的到达目的地址，因此，我们通常不使用其本身自带的记录功能获取网络流量的数据统计，否则就会大大降低路由器的选择功能。从路由器上获取数据包的流量统计我们一般使用SNMP协议和Telnet程序的方法。

图1

2.1 通过SNMP协议获取数据流量。

（1）SNMP协议是互联网的标准网络管理协议，在SNMP协议中定义了具有支持操作寓意的管理信息变量，这些变量被称为MIB变量，MIB变量是与计费有关的一种变量。因为路由器是网络间互联的关键设备，因此只要对边界路由器作适当的配置，当一个数据包进人路由器后，路由器奖会寻找记录内是否有与之相匹配的源IP地址和目标IP地址，如果找到一直相匹配的记录，程序就会自动将其累加到记录上，这样一来就会获得网络的数据流量。例如：在Cisco公司为其路由器产品定义的SNMP的MIB变量的IP组中，提供了一个IPCheck pointAccountingTable变量表，通过读取表中的值和重新设置数据过期标志，可以连续获取流经该路由器的网络情况。Cisco为流量统计功能提供了相应的SNMP访问和控制方法，利用cisco路由器提供的“show IP account”命令查看当前的网络数据流量的统计情况。

（2）基于路由器IP数据包统计的数据处理流程如图1所示。

（3）采用SNMP对数据流量进行采集的应用最广泛的就是使用网络流量负荷的监测工具即MRTG。这是一个有Perl script和一个C程序组成的监测工具。前者在其中的作用是可以使用SNMP获得路由器上的数据流量，后者的功能是记录数据流量并生成一些可以表示网络数据流量的图标，使其更形象、生动。MRTG最大的优点就是它保存的数据时间较长并可以随时查看。它能够保留过去两年之内的从路由器上获取的所有数据，可以产生一个周、一个月甚至是一年的流量的可视化图表。

（4）目前国内大多数的ISP都采用SNMP进行数据的采集，它能够保护路由器的操作13令，可以提高数据采集的速度，但同时也增加了系统的复杂性，有利有弊。

2.2 使用Telnet程序实现网络数据的流量采集。

使用Telnet程序登陆到路由器上获取网络的流量数据的方法比SNMP的方法简单。它主要通过编码模仿，把Telnet在终端设备上输出的数据重新定向到另一个临时文件中，然后对这个临时文件进行分析，这样就可以得到一个关于数据流量的清单。这种通过编码模仿得到数据流量的方法类似于前面所说的利用代理服务器上的日志文件获取数据流量的方式。使用Telnet程序获取网络数据流量的速度很快，但它的局限性在于通用性不是很好。

3. 路由器IP数据包流量统计方法的特点

通过对网络的数据流量进行统计的方法还有很多，每种方法都有其利弊之处，通过路由器实现网络数据流量的统计方法具有以下特点：

3.1 数据流量的统计精确。

因为路由器是流量数据出入的咽喉，是实现网络间相互连接的重要的设备，网络间的通信都必须通过路由器的转换来完成。路由器的任务就是根据数据包的目的地址选择相应的路由，然后与其他的网络连接。因此，路由器可以准确的反映除了出入的网络数据流量。

3.2 使计费服务器不受地点限制。

我们知道，对网络的数据流量进行统计和监测的最终目的就是对其进行收费，由于各种统计方式本身的局限性使得计费的服务器必须要放在计费网段之内。结果就导致了有多少个计费网段就需要多少个计费服务器，大大增加了工作量。而如果使用路由器就会大道事半功倍的效果，我们只要计费服务器能够通过网络访问到网段所在的路由器就可以实现通过一个计费服务器完成所有网络流量的数据采集丁作，至于计费服务器位于哪个计费网段并不重要。而且，这种计费所使用的路由器并不需要太复杂，也不需要增加其他硬件，实现起来比其他的计费方式简单。

3.3 与其他网络管理功能的一致性。

因特网采用的是标准的网络管理协议SNMP，而路由器也主要通过SNMP协议的L些命令对网络数据流量进行统计和监测。这样就保证了在数据采集手段上与其他网络管理功能的一致性。

3.4 利用路由器统计网络数据流量的缺点。

利用路由器实现网络数据流量的统计采集方法虽然有很多的有点，大大提高了网络流量计费的速度，但是，对待任何事物都要用一分为二的观点，用路由器计算网络数据的流量也是有利有弊的，它必然存在一些不足、需要改进的地方。一方面，路由器的主要功能是实现数据的路由选择，帮助数据包选择最快捷的路径，使其尽快把数据出送到目标地址。然而，使用路由器对网络数据流量进行统计就会额外的占用路由器的内存和CPU开销，特别是对于通信流量比较大的网络，其矛盾会更加突出。严重的会导致计费缓冲区出现溢出的情况，导致出入的流量数据的丢失，最终也会影响网络的速度。另一方面，路由器是针对IP地址进行流量计费的，因此它不支持对用户的流量计费，也不能防止有心人士对IP地址的盗用，所以也会影响对网络数据流量的统计与监测。

4. 结束语

伴随现代科学技术的迅猛发展，网络计费已经成为网络管理中的重要组成部分，如何最有效的完成网络计费的工作也成为网络管理部门的一大难题。而网络计费的前提是如何统计网络的数据流量，本文就对网络流量的数据采集方法进行了简要的论述分析，基于路由器IP数据包统计流量的数据采集方法在目前的网络管理中已经应用的十分广泛了。因此本文重点讲述了基于路由器IP数据包的数据采集方法及其各种方法的利弊之处，随着网络设备的不断更新、发展，网络流量的数据采集方法会越来越多，基于路由器IP数据包统计的流量数据采集方法也会越来越成熟。

参考文献

[1] 杨晓朋，李雄，董栋，等.TRUNK技术在IP数据网络中的应用[A]//2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集，2009.

[2] 王晓东.动态分组传输技术（DPT）在天津教育科研宽带城域网中的成功应用[A]//第十八届中国（天津）'2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集，2004.

[3] 张军伟，罗红，乔向东.基于路由器的访问控制列表保护内部网络安全[J].计算机与信息技术，2008（9）.

[4] 刘宴兵，李秉智，尚明生，等.基于IP信源模型的数据包丢失分析的研究[J].重庆邮电学院学报：自然科学版，2001（4）.

【统计学和数据挖掘区别】推荐阅读：