技术标签: 笔记
#!/usr/bin/env python
import jieba #分词包
import numpy #numpy计算包
import codecs #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams[‘figure.figsize’] = (10.0, 5.0)
from wordcloud import WordCloud#词云包
from wordcloud import WordCloud,ImageColorGenerator
df = pd.read_csv(“entertainment_news.csv”, encoding=‘utf-8’)
df = df.dropna()
print(df.shape)
content=df.content.values.tolist()
print(content[:1])
#jieba.load_userdict(u"data/user_dic.txt")
segment=[]
for line in content:
try:
segs=jieba.lcut(line)
for seg in segs:
if len(seg)>1 and seg!=’\r\n’:
segment.append(seg)
except:
print(“jieba exception:”,line)
continue
print(“segment:”,len(segment),segment[:2])
words_df=pd.DataFrame({‘segment’:segment})
print(“words_df:”,words_df.head())
stopwords=pd.read_csv(“stopwords.txt”,index_col=False,quoting=3,sep="\t",names=[‘stopword’], encoding=‘utf-8’)#quoting=3全不引用
print(“stopwords:”,stopwords.head())
words_df=words_df[words_df.segment.isin(stopwords.stopword)]
words_stat_groupby=words_df.groupby(by=[‘segment’])
print(type(words_stat_groupby))
words_stat=words_df.groupby(by=[‘segment’])[‘segment’].agg({“计数”:numpy.size})
print(“words_stat.head():”)
print(words_stat.head())
words_stat=words_stat.reset_index().sort_values(by=[“计数”],ascending=False)
print(“words_stat.head():”)
print(words_stat.head())
print("…")
from matplotlib.pyplot import imread
matplotlib.rcParams[‘figure.figsize’] = (15.0, 15.0)
from wordcloud import WordCloud,ImageColorGenerator
bimg=imread(‘timg.jpg’)
wordcloud=WordCloud(background_color=“white”,mask=bimg,font_path=‘data/simhei.ttf’,max_font_size=200)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
bimgColors=ImageColorGenerator(bimg)
plt.axis(“off”)
plt.imshow(wordcloud.recolor(color_func=bimgColors))
plt.show()
导读:你是否曾经认真思考过——毕业3-5年、10年,乃至更久后,我们希望成为什么样的人?作为一名技术人,我们要如何规划自己的职业发展生涯?网上热议的“35岁中年危机”,本...
《庖丁解牛:纵向切入ASP.NET 3.5控件和组件开发技术》
/** main.c** Created on: Oct 28, 2010* Author: jenson*/#include <cstl/clist.h>#include <stdio.h>int main(){ list_t * list = create_list(char); if(list == NULL){...
0×00 无线电发展简史· 1837年,摩斯发明了电报,创造了摩斯密码(Morse code),开始了通信的新纪元。· 1865年,英国的麦克斯韦总结了前人的科学成果,提出电磁波学说。 · 1876年,贝尔发明了电话,能够直接将语言信号变为电能沿导线传送。 · 1887年,德国科学家赫兹(Hertz)用一个振荡偶子产生了电磁波,在历史上第一次直...
AfxGetApp( )是全局的。AfxGetApp( )这个函数可以得到当前应用进程的指针,是CWinApp*类型的,通过这个指针可以访问到这个进程中的对象。比如在全局函数中要向对话框中的列表写数据。void writeString(char* pString){ CWnd* pWnd = AfxGetApp()->GetMainWnd(); CMyDlg * pDlg; _1671465600
初次接触使用DB2,发现于之前使用过的MySQL、SQL server以及Oracle等数据库还是会有诸多“不适”,这篇文章便是用于收集并记录一些DB2中常用的命令。
数字旅游是一个基于网络环境下的旅游信息服务体系,它的关键技术包括宽带网络和电子技术,地理信息系统、遥感、全国定位系统的多数据融合技术。随着三维地理信息系统、三维虚拟现实技术和计算机硬件技术的发展,三维虚拟旅游将是数字旅游的重要组成部分。真实场景虚拟再现,具有完全实景的三维立体效果,给用户足不出户游历大千世界的体验。01项目背景青岩古镇,贵州四大古镇之一,位于贵州省贵阳市南郊,建于明洪武十年(1378年),原为军事要塞 。古镇内设计精巧、工艺精湛的明清古建筑交错密布,寺庙、楼阁画栋雕梁、飞角重檐相间
字符串题目列表A Ananagrams(UVA156)B Crazy Search(POJ1200)C 企鹅QQ(P4503[CTSC2014])D Number SequenceE OulipoF 剪花布条G Cyclic NacklaceH PeriodI Count the stringJ Power StringsK Compress WordsL Teacher YYFM Best RewardN Finding PalindromesO 最长回文题目列表A Ananag
多线程面试题并行和并发有什么区别?并行和并发有什么区别?
常见单片机芯片分析简介 HT:工具好用.DEMO难搞.成本中等.PIC:工具难用,DEMO易搞.成本偏高.FREESCALE:工具难用,DEMO易搞.成本偏高.STC/51:工具好用,DEMO易搞.成本偏低.AVR:工具好用,DEMO易搞.成本中等.MSP430:工具非常好用,DEMO易搞.成本偏高.EMC:工具好用,DEMO难搞.成本偏低.SUNPLUS:工具难用
v2和p3是顶层const,分别表示一个整型常量和一个整型常量指针。p2和r2是底层const,分别表示它们所指和所引用的对象是常量。r1=v2合法,r1是一个非常量引用,v2是一个常量,v2的值拷贝给r1对v2不会有任何影响。p1=p2是非法的,p1是一个普通指针,p2指向一个常量,p1指向p2所指内容,可能错误地改变常量地值。p2=p1是合法地,同1。p1=p3是非...
尹成老师带你学python爬虫初级到精通。。高质量课程,注重实战,从代码到思路为喜欢爬虫的同学提供了很好的学习平台