1 读取数据
python
1 | import pandas as pd |
查看数据信息
python
1 |
|
分类 | 正文 | |
---|---|---|
0 | 艺术 | 【 文献号 】1-2432\n【原文出处】出版发行研究\n【原刊地名】京\n【原刊期号】1... |
1 | 艺术 | 【 文献号 】1-2435\n【原文出处】扬州师院学报:社科版\n【原刊期号】199504... |
2 | 艺术 | 【 文献号 】1-2785\n【原文出处】南通师专学报:社科版\n【原刊期号】199503... |
3 | 艺术 | 【 文献号 】1-3021\n【原文出处】社会科学战线\n【原刊地名】长春\n【原刊期号】... |
4 | 艺术 | 【 文献号 】1-3062\n【原文出处】上海文化\n【原刊期号】199505\n【原刊页... |
查看分类种类
python
1 |
|
Code
1 | array(['艺术', '文学', '哲学', '通信', '能源', '历史', '矿藏', '空间', '教育', '交通', '计算机', |
2 去除文本中非汉字的内容
定义函数
python
1 | import re |
python
1 |
|
python
1 |
|
分类 | 正文 | 处理后的正文 | |
---|---|---|---|
0 | 艺术 | 【 文献号 】1-2432\n【原文出处】出版发行研究\n【原刊地名】京\n【原刊期号】1... | 文献号原文出处出版发行研究原刊地名京原刊期号原刊页号分类号分类名出版工作图书评介作者王益复印... |
1 | 艺术 | 【 文献号 】1-2435\n【原文出处】扬州师院学报:社科版\n【原刊期号】199504... | 文献号原文出处扬州师院学报社科版原刊期号原刊页号分类号分类名出版工作图书评介作者王菊延复印期... |
2 | 艺术 | 【 文献号 】1-2785\n【原文出处】南通师专学报:社科版\n【原刊期号】199503... | 文献号原文出处南通师专学报社科版原刊期号原刊页号分类号分类名语言文字学作者咏枫复印期号标题语... |
3 | 艺术 | 【 文献号 】1-3021\n【原文出处】社会科学战线\n【原刊地名】长春\n【原刊期号】... | 文献号原文出处社会科学战线原刊地名长春原刊期号原刊页号分类号分类名文艺理论作者李心峰复印期号... |
4 | 艺术 | 【 文献号 】1-3062\n【原文出处】上海文化\n【原刊期号】199505\n【原刊页... | 文献号原文出处上海文化原刊期号原刊页号分类号分类名文艺理论作者朱立元复印期号标题中西古代艺术... |
3 文本分词
使用结巴分词
python
1 | import jieba |
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.699 seconds.
Prefix dict has been built succesfully.
python
1 |
|
分类 | 正文 | 处理后的正文 | |
---|---|---|---|
0 | 艺术 | 【 文献号 】1-2432\n【原文出处】出版发行研究\n【原刊地名】京\n【原刊期号】1... | 文献号 原文 出处 出版发行 研究 原刊 地名 京原 刊期 号 原刊 页 号 分类号 分类 ... |
1 | 艺术 | 【 文献号 】1-2435\n【原文出处】扬州师院学报:社科版\n【原刊期号】199504... | 文献号 原文 出处 扬州 师院 学报 社科 版原 刊期 号 原刊 页 号 分类号 分类 名 ... |
2 | 艺术 | 【 文献号 】1-2785\n【原文出处】南通师专学报:社科版\n【原刊期号】199503... | 文献号 原文 出处 南通 师专 学报 社科 版原 刊期 号 原刊 页 号 分类号 分类 名 ... |
3 | 艺术 | 【 文献号 】1-3021\n【原文出处】社会科学战线\n【原刊地名】长春\n【原刊期号】... | 文献号 原文 出处 社会科学 战线 原刊 地名 长春 原刊 期号 原刊 页 号 分类号 分类... |
4 | 艺术 | 【 文献号 】1-3062\n【原文出处】上海文化\n【原刊期号】199505\n【原刊页... | 文献号 原文 出处 上海 文化 原刊 期号 原刊 页 号 分类号 分类 名 文艺理论 作者 ... |
4 去除停止词
python
1 | stop = [line.strip() for line in open('data/停用词汇总.txt','r',encoding='utf-8').readlines()] |
5 保存文件
python
1 | import os |
6 xlsx表格保存成cvs格式
读取数据
python
1 |
|
保存
python
1 | import os |