主帖 16 条回复

机器学习课程试验－－文本相似度分析

尼克徐 · 2015年12月28日 · 阅读 9 · 更新于 2016年01月11日 · 无人欣赏。

今天偷得半日闲，做了一个文本相似度分析的试验。

对wiki的名人语料库调用k-nearest neighbors算法，进行了文本相似度分析。

knn_model = graphlab.nearest_neighbors.create(people, features=['tfidf'],label='name')

结果发现，这个算法还是挺准的。

比如，查找与Obama最相似的名人，结果是Clinton等总统副总统政客等：

obama = people[people['name'] == 'Barack Obama']
knn_model.query(obama)

reference_label	distance	rank
Barack Obama	0.0	1
Joe Biden	0.794117647059	2
Joe Lieberman	0.794685990338	3
Kelly Ayotte	0.811989100817	4
Bill Clinton	0.813852813853	5

[5 rows x 4 columns]

查找与Jiang Zemin最相似的名人，结果是Li Peng等等：

jiang_zemin = people[people['name']=='Jiang Zemin']
knn_model.query(jiang_zemin)

reference_label	distance	rank
Jiang Zemin	0.0	1
Li Peng	0.808219178082	2
Hu Jintao	0.825938566553	3
Wang Chen (politician)	0.834196891192	4
Peng Qinghua	0.834905660377	5

[5 rows x 4 columns]

16 条

tinyfool

2015年12月28日

赞，加油

机器学习还是蛮好玩的

回复本楼

online66

2015年12月28日

可以试试word2vec哦！

回复本楼

尼克徐

2015年12月28日

2楼 @online66 谢谢。我用的是一套库graphlab,原理上和word2vec差不多。

1楼 @tinyfool 谢谢鼓励！:-)

回复本楼

flydsc

2015年12月29日

那个，一个小疑问

graphlab.nearest_neighbors.create

这个好像是KNN不是K-Means吧？

回复本楼

尼克徐

2015年12月29日

4楼 @flydsc 不好意思，是我错了。谢谢指出！

调用的是k-nearest neighbors算法。

回复本楼

bobbychen

2015年12月29日

4楼 @flydsc k-means是聚类吧~~~~

回复本楼

flydsc

2015年12月30日

6楼 @bobbychen 嗯，对啊，聚类算法的一种嘛～

回复本楼

andyli386

2016年01月04日

这个是Coursera上华盛顿大学的ML课程吧。graphlab确实不错。

回复本楼

bobbychen

2016年01月04日

8楼 @andyli386 你是说spark的那个包？

回复本楼

#10

尼克徐

2016年01月04日

8楼 @andyli386 是那个课程。

不过我现在为了节约时间，正在跟斯坦福大学Andrew Ng的机器学习课程了。

华盛顿大学的ML课程太长，等我跟完Andrew Ng的再跟。

回复本楼

#11

andyli386

2016年01月04日

10楼 @尼克徐可以同时跟 O(∩_∩)O

回复本楼

#12

andyli386

2016年01月04日

9楼 @bobbychen Dato出的graphlab，你可以搜一下。Coursera上华盛顿大学的ML课程用的就是这个。

回复本楼

#13

尼克徐

2016年01月04日

12楼 @andyli386 你是在做ML方面工作吗？

回复本楼

#14

andyli386

2016年01月04日

13楼 @尼克徐没，我也是在上机器学习这门课。

回复本楼

#15

尼克徐

2016年01月04日

14楼 @andyli386

我的微博

http://www.weibo.com/1596595427/profile?rightmod=1&wvr=6&mod=personinfo&is_all=1

你可以发私信给我，咱们多交流哈。

回复本楼

#16

羊肉片

2016年01月11日

最近在看网易公开课上吴恩达的机器学习，很多概念豁然开朗

回复本楼

本帖有16个回复，因为您没有注册或者登录本站，所以只能看到本帖的10条回复。如果想看到全部回复，请注册或者登录本站。

请登录或者注册。