OC

Knowledge OS
主帖 16 条回复

机器学习课程试验--文本相似度分析

尼克徐 尼克徐 · 2015年12月28日 · 阅读 9 · 更新于 2016年01月11日 · 无人欣赏。

今天偷得半日闲,做了一个文本相似度分析的试验。

对wiki的名人语料库调用k-nearest neighbors算法,进行了文本相似度分析。

knn_model = graphlab.nearest_neighbors.create(people, features=['tfidf'],label='name')

结果发现,这个算法还是挺准的。

比如,查找与Obama最相似的名人,结果是Clinton等总统副总统政客等:

obama = people[people['name'] == 'Barack Obama']
knn_model.query(obama)
query_label reference_label distance rank
0 Barack Obama 0.0 1
0 Joe Biden 0.794117647059 2
0 Joe Lieberman 0.794685990338 3
0 Kelly Ayotte 0.811989100817 4
0 Bill Clinton 0.813852813853 5
[5 rows x 4 columns]

查找与Jiang Zemin最相似的名人,结果是Li Peng等等:

jiang_zemin = people[people['name']=='Jiang Zemin']
knn_model.query(jiang_zemin)
query_label reference_label distance rank
0 Jiang Zemin 0.0 1
0 Li Peng 0.808219178082 2
0 Hu Jintao 0.825938566553 3
0 Wang Chen (politician) 0.834196891192 4
0 Peng Qinghua 0.834905660377 5
[5 rows x 4 columns]

回复

16 条
#1
tinyfool
2015年12月28日

赞,加油

机器学习还是蛮好玩的

#4
flydsc
2015年12月29日

那个,一个小疑问

graphlab.nearest_neighbors.create

这个好像是KNN不是K-Means吧?

#5
尼克徐
2015年12月29日

4楼 @flydsc 不好意思,是我错了。谢谢指出!

调用的是k-nearest neighbors算法。

#8
andyli386
2016年01月04日

这个是Coursera上华盛顿大学的ML课程吧。graphlab确实不错。

#10
尼克徐
2016年01月04日

8楼 @andyli386 是那个课程。

不过我现在为了节约时间,正在跟斯坦福大学Andrew Ng的机器学习课程了。

华盛顿大学的ML课程太长,等我跟完Andrew Ng的再跟。

#12
andyli386
2016年01月04日

9楼 @bobbychen Dato出的graphlab,你可以搜一下。Coursera上华盛顿大学的ML课程用的就是这个。

#15
尼克徐
2016年01月04日

14楼 @andyli386

我的微博

http://www.weibo.com/1596595427/profile?rightmod=1&wvr=6&mod=personinfo&is_all=1

你可以发私信给我,咱们多交流哈。

#16
羊肉片
2016年01月11日

最近在看网易公开课上吴恩达的机器学习,很多概念豁然开朗

本帖有16个回复,因为您没有注册或者登录本站,所以只能看到本帖的10条回复。如果想看到全部回复,请注册或者登录本站。
登录 或者 注册
顶楼 / 底楼 / 首页