核心术语

名词
Algorithm 可以理解成一种数学公式或用于进行数据分析的统计学过程
AI 以软硬件结合的方式开发智能机器和软件,这种硬件和软件的结合能够感知环境并在需要时采取必要的行动,不断从这些行动中学习
Business Intelligence 一个总称,包括应用程序、基础设施、工具以及最佳实践,它可以访问和分析信息,从而改善和优化决策及绩效
Data Mining 从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见
Gamification 一个典型的游戏中,会有一个类似于分数一样的元素与别人竞争,并且还有明确的游戏规则。
Natural Language Processing 让计算机更加准确地理解人类日常语言的软件算法
Neural Network 一个受生物学启发的非常漂亮的编程范式,它能够让计算机从观察到的数据中学习
Pattern Recognition 当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别
Biometrics 通过人体的一种或多种物理特征来识别人的技术,如面部识别,虹膜识别,指纹识别等
Fuzzy logic 模糊逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿人脑
Radio Frequency Identification/RFID 一类使用非接触性无线射频电磁场来传输数据的传感器
Load balancing 为了实现最佳的结果和对系统的利用,将负载分发给多个计算机或者服务器
IoT 嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特网的互联,它们能够收发数据
Machine Learning 用设定的预测和统计算法,它们持续地逼近「正确的」行为和想法,随着更多的数据被输入到系统,它们能够进一步提升
R Language 数据科学中最流行的编程语言之一
Distributed File System 把大量数据存储在多个存储设备上的文件系统
ETL 「提取」原始数据,通过清洗/丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用
数据
Metadata
Dark Data
Dirty Data
Smart Data
Structured Data
Semi-structured Data
Unstructured Data
Data Lake
Data virtualization
Data Cleansing
Data Analyst
Data Scientist 那些可以通过提取原始数据进而理解、处理并得出洞见的这样一批人
Data Visualization
Terabyte
Yottabytes
Zettabytes
Brontobytes
数据库
NoSQL
Graph Databases
Multi-Dimensional Databases
MultiValue Databases
MongoDB
Hadoop
分析
Descriptive Analytics
Predictive Analytics
Prescriptive Analytics
Behavioral Analytics
Clickstream Analytics
Connection Analytics
Comparative Analytics
Cluster Analysis
Spatial Analysis
Sentiment Analysis
处理
Batch Processing
Stream Processing
Cloud Computing
In-memory Cmputing
Cluster Computing
MapReduce
Cassandra
Mashup
Apache
Kafka
Spark
Mahout
Oozie
Drill, Impala, Spark SQL
Hive
Pig
Sqoop
Storm
服务
SaaS
DaaS
Hadoop User Experience /Hue
HANA
HBase