词云示例python_小金子的夏天的博客-程序员宝宝

技术标签: 笔记  

#!/usr/bin/env python

-*- coding

import warnings

warnings.filterwarnings(“ignore”)

import jieba #分词包
import numpy #numpy计算包
import codecs #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams[‘figure.figsize’] = (10.0, 5.0)
from wordcloud import WordCloud#词云包
from wordcloud import WordCloud,ImageColorGenerator

df = pd.read_csv(“entertainment_news.csv”, encoding=‘utf-8’)
df = df.dropna()
print(df.shape)
content=df.content.values.tolist()
print(content[:1])
#jieba.load_userdict(u"data/user_dic.txt")
segment=[]
for line in content:
try:
segs=jieba.lcut(line)
for seg in segs:
if len(seg)>1 and seg!=’\r\n’:
segment.append(seg)
except:
print(“jieba exception:”,line)
continue
print(“segment:”,len(segment),segment[:2])

words_df=pd.DataFrame({‘segment’:segment})
print(“words_df:”,words_df.head())
stopwords=pd.read_csv(“stopwords.txt”,index_col=False,quoting=3,sep="\t",names=[‘stopword’], encoding=‘utf-8’)#quoting=3全不引用
print(“stopwords:”,stopwords.head())
words_df=words_df[words_df.segment.isin(stopwords.stopword)]

words_stat_groupby=words_df.groupby(by=[‘segment’])
print(type(words_stat_groupby))

words_stat=words_df.groupby(by=[‘segment’])[‘segment’].agg({“计数”:numpy.size})
print(“words_stat.head():”)
print(words_stat.head())
words_stat=words_stat.reset_index().sort_values(by=[“计数”],ascending=False)
print(“words_stat.head():”)
print(words_stat.head())

print("…")

from scipy.misc import imread

from scipy.misc.pilutil import imread

from matplotlib.pyplot import imread
matplotlib.rcParams[‘figure.figsize’] = (15.0, 15.0)
from wordcloud import WordCloud,ImageColorGenerator
bimg=imread(‘timg.jpg’)
wordcloud=WordCloud(background_color=“white”,mask=bimg,font_path=‘data/simhei.ttf’,max_font_size=200)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
bimgColors=ImageColorGenerator(bimg)
plt.axis(“off”)
plt.imshow(wordcloud.recolor(color_func=bimgColors))
plt.show()

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/WangYouJin321/article/details/104513684

智能推荐

程序员吃的是青春饭?本质上取决于......_爱编程_的博客-程序员宝宝

导读:你是否曾经认真思考过——毕业3-5年、10年,乃至更久后,我们希望成为什么样的人?作为一名技术人,我们要如何规划自己的职业发展生涯?网上热议的“35岁中年危机”,本...

《庖丁解牛:纵向切入ASP.NET 3.5控件和组件开发技术》_lsd123的博客-程序员宝宝

《庖丁解牛:纵向切入ASP.NET 3.5控件和组件开发技术》

C语言cstl库使用之链表_weixin_33936401的博客-程序员宝宝

/** main.c** Created on: Oct 28, 2010* Author: jenson*/#include <cstl/clist.h>#include <stdio.h>int main(){ list_t * list = create_list(char); if(list == NULL){...

永不消逝的电波(一):无线电入门篇_weixin_34110749的博客-程序员宝宝

0×00 无线电发展简史· 1837年,摩斯发明了电报,创造了摩斯密码(Morse code),开始了通信的新纪元。· 1865年,英国的麦克斯韦总结了前人的科学成果,提出电磁波学说。 · 1876年,贝尔发明了电话,能够直接将语言信号变为电能沿导线传送。 · 1887年,德国科学家赫兹(Hertz)用一个振荡偶子产生了电磁波,在历史上第一次直...

AfxGetApp用法_我辣椒哥的博客-程序员宝宝

AfxGetApp( )是全局的。AfxGetApp( )这个函数可以得到当前应用进程的指针,是CWinApp*类型的,通过这个指针可以访问到这个进程中的对象。比如在全局函数中要向对话框中的列表写数据。void writeString(char* pString){   CWnd* pWnd = AfxGetApp()->GetMainWnd();   CMyDlg * pDlg;  _1671465600

DB2中的常用命令_啊荻~的博客-程序员宝宝_db2命令

初次接触使用DB2,发现于之前使用过的MySQL、SQL server以及Oracle等数据库还是会有诸多“不适”,这篇文章便是用于收集并记录一些DB2中常用的命令。

随便推点

赛尔无人机 | 青岩古镇高精度三维建模项目报告_ShareUAV的博客-程序员宝宝_贵州省无人机三维实景建模

数字旅游是一个基于网络环境下的旅游信息服务体系,它的关键技术包括宽带网络和电子技术,地理信息系统、遥感、全国定位系统的多数据融合技术。随着三维地理信息系统、三维虚拟现实技术和计算机硬件技术的发展,三维虚拟旅游将是数字旅游的重要组成部分。真实场景虚拟再现,具有完全实景的三维立体效果,给用户足不出户游历大千世界的体验。01项目背景​青岩古镇,贵州四大古镇之一,位于贵州省贵阳市南郊,建于明洪武十年(1378年),原为军事要塞 。古镇内设计精巧、工艺精湛的明清古建筑交错密布,寺庙、楼阁画栋雕梁、飞角重檐相间

暑假集训专题练习记录———字符串_零的王冠的博客-程序员宝宝

字符串题目列表A Ananagrams(UVA156)B Crazy Search(POJ1200)C 企鹅QQ(P4503[CTSC2014])D Number SequenceE OulipoF 剪花布条G Cyclic NacklaceH PeriodI Count the stringJ Power StringsK Compress WordsL Teacher YYFM Best RewardN Finding PalindromesO 最长回文题目列表A Ananag

多线程面试题_pectoralis_major的博客-程序员宝宝_多线程面试题

多线程面试题并行和并发有什么区别?并行和并发有什么区别?

常见单片机芯片分析简介_yuandll的博客-程序员宝宝

常见单片机芯片分析简介 HT:工具好用.DEMO难搞.成本中等.PIC:工具难用,DEMO易搞.成本偏高.FREESCALE:工具难用,DEMO易搞.成本偏高.STC/51:工具好用,DEMO易搞.成本偏低.AVR:工具好用,DEMO易搞.成本中等.MSP430:工具非常好用,DEMO易搞.成本偏高.EMC:工具好用,DEMO难搞.成本偏低.SUNPLUS:工具难用

2.4.3练习_weixin_33913377的博客-程序员宝宝

v2和p3是顶层const,分别表示一个整型常量和一个整型常量指针。p2和r2是底层const,分别表示它们所指和所引用的对象是常量。r1=v2合法,r1是一个非常量引用,v2是一个常量,v2的值拷贝给r1对v2不会有任何影响。p1=p2是非法的,p1是一个普通指针,p2指向一个常量,p1指向p2所指内容,可能错误地改变常量地值。p2=p1是合法地,同1。p1=p3是非...

python爬虫初级到精通2-尹成-专题视频课程_尹成学院的博客-程序员宝宝

尹成老师带你学python爬虫初级到精通。。高质量课程,注重实战,从代码到思路为喜欢爬虫的同学提供了很好的学习平台

推荐文章

热门文章

相关标签