foochane

pip源更换国内镜像 2019-10-22|其他

1 常用的国内镜像包括阿里云： http://mirrors.aliyun.com/pypi/simple/ 豆瓣： http://pypi.douban.com/simple/ 清华大学： https://pypi.tuna.tsinghua.edu.cn/simple/ 中国科学技术大学： h ...

文本分类之常用方法总结 2019-09-15|NLP

1 TFIDF+逻辑回归python1234567import codecsimport gensimfrom sklearn import preprocessingfrom sklearn.preprocessing import LabelEncoderimport numpy as npi ...

文本分类之CountVectorizer使用 2019-09-03|NLP

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数 1 CountVectorizer ...

文本分类之TfidfVectorizer的使用 2019-09-02|NLP

1 构造文本python1234text = ['机器学习是人工智能的一个分支。', '机器学习是对能通过经验自动改进的计算机算法的研究。', '机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。'] 2 文本分词python1234567891 ...

文本分类之文本预处理 2019-09-01|NLP

1 读取数据python12import pandas as pddata=pd.read_excel('data/复旦大学中文文本分类语料.xlsx','sheet1',encoding='utf-8') 查看数据信息 python12data.head() .dataframe ...

TensorFlow基础知识 2019-08-15|TensorFlow

1 综述TensorFlow的编程系统中：使用张量(tensor)来表示数据使用图(graph)来表示计算任务。图中的节点被称之为 op (operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算, 产生 0 个或多个 Tensor. 每个 Tensor 是一 ...

IDEA下使用Spark连接Hive 2019-07-17|大数据

1 Spark配置1.1 复制hive-site.xml文件到spark中sh1$ cp /usr/local/bigdata/hive-2.3.5/conf/hive-site.xml /usr/local/bigdata/spark-2.4.3/conf/ 1.2 spark中安装mysql- ...

Sqoop数据迁移工具的使用 2019-06-30|大数据

Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDFS/HIVE sqoop数据到MySQL 1 sqoop简单介绍sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。用于数据的导入和导出。导入数据：MySQL，Oracle导入数据 ...

HBase的安装和使用 2019-06-28|大数据

1 Hbase基本介绍Hbase是一个分布式数据库,可以提供数据的实时随机读写。 Hbase与mysql、oralce、db2、sqlserver等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）,并且有如下特点： Hbase的表模型与关系型数据库的表模型不同： Hbase的表没 ...

Flume日志采集框架的使用 2019-06-27|大数据

Flume日志采集框架安装和部署 Flume运行机制采集静态文件到hdfs 采集动态日志文件到hdfs 两个agent级联 Flume日志采集框架在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等 ...