pip源更换国内镜像
1 常用的国内镜像包括
阿里云: http://mirrors.aliyun.com/pypi/simple/
豆瓣: http://pypi.douban.com/simple/
清华大学: https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学: h ...
文本分类之常用方法总结
1 TFIDF+逻辑回归python1234567import codecsimport gensimfrom sklearn import preprocessingfrom sklearn.preprocessing import LabelEncoderimport numpy as npi ...
文本分类之CountVectorizer使用
CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数
1 CountVectorizer ...
文本分类之TfidfVectorizer的使用
1 构造文本python1234text = ['机器学习是人工智能的一个分支。', '机器学习是对能通过经验自动改进的计算机算法的研究。', '机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。']
2 文本分词python1234567891 ...
文本分类之文本预处理
1 读取数据python12import pandas as pddata=pd.read_excel('data/复旦大学中文文本分类语料.xlsx','sheet1',encoding='utf-8')
查看数据信息
python12data.head()
.dataframe ...
TensorFlow基础知识
1 综述TensorFlow的编程系统中:
使用张量(tensor)来表示数据
使用图(graph)来表示计算任务。 图中的节点被称之为 op (operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算, 产生 0 个或多个 Tensor. 每个 Tensor 是一 ...
IDEA下使用Spark连接Hive
1 Spark配置1.1 复制hive-site.xml文件到spark中sh1$ cp /usr/local/bigdata/hive-2.3.5/conf/hive-site.xml /usr/local/bigdata/spark-2.4.3/conf/
1.2 spark中安装mysql- ...
Sqoop数据迁移工具的使用
Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDFS/HIVE sqoop数据到MySQL
1 sqoop简单介绍sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。用于数据的导入和导出。
导入数据:MySQL,Oracle导入数据 ...
HBase的安装和使用
1 Hbase基本介绍Hbase是一个分布式数据库,可以提供数据的实时随机读写。
Hbase与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库),并且有如下特点:
Hbase的表模型与关系型数据库的表模型不同:
Hbase的表没 ...
Flume日志采集框架的使用
Flume日志采集框架 安装和部署 Flume运行机制 采集静态文件到hdfs 采集动态日志文件到hdfs 两个agent级联
Flume日志采集框架在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等 ...