全部话题移民创业 iOS Mac Objective-C Swift Android 招聘求职

机器学习课程试验－－文本相似度分析

由尼克徐发布于 2015年12月28日｜更新于 2016年01月11日

无人欣赏。

今天偷得半日闲，做了一个文本相似度分析的试验。

对wiki的名人语料库调用k-nearest neighbors算法，进行了文本相似度分析。

knn_model = graphlab.nearest_neighbors.create(people, features=['tfidf'],label='name')

结果发现，这个算法还是挺准的。

比如，查找与Obama最相似的名人，结果是Clinton等总统副总统政客等：

obama = people[people['name'] == 'Barack Obama']
knn_model.query(obama)

reference_label	distance	rank
Barack Obama	0.0	1
Joe Biden	0.794117647059	2
Joe Lieberman	0.794685990338	3
Kelly Ayotte	0.811989100817	4
Bill Clinton	0.813852813853	5

[5 rows x 4 columns]

查找与Jiang Zemin最相似的名人，结果是Li Peng等等：

jiang_zemin = people[people['name']=='Jiang Zemin']
knn_model.query(jiang_zemin)

reference_label	distance	rank
Jiang Zemin	0.0	1
Li Peng	0.808219178082	2
Hu Jintao	0.825938566553	3
Wang Chen (politician)	0.834196891192	4
Peng Qinghua	0.834905660377	5

[5 rows x 4 columns]

文本相似度机器学习

共16条回复

楼长 · 回复

tinyfool 回复于 2015年12月28日

赞，加油

机器学习还是蛮好玩的

2楼 · 回复

online66 回复于 2015年12月28日

可以试试word2vec哦！

3楼 · 回复

尼克徐回复于 2015年12月28日

2楼 @online66 谢谢。我用的是一套库graphlab,原理上和word2vec差不多。

1楼 @tinyfool 谢谢鼓励！:-)

4楼 · 回复

flydsc 回复于 2015年12月29日

那个，一个小疑问

graphlab.nearest_neighbors.create

这个好像是KNN不是K-Means吧？

5楼 · 回复

尼克徐回复于 2015年12月29日

4楼 @flydsc 不好意思，是我错了。谢谢指出！

调用的是k-nearest neighbors算法。

6楼 · 回复

bobbychen 回复于 2015年12月29日

4楼 @flydsc k-means是聚类吧~~~~

7楼 · 回复

flydsc 回复于 2015年12月30日

6楼 @bobbychen 嗯，对啊，聚类算法的一种嘛～

8楼 · 回复

andyli386 回复于 2016年01月04日

这个是Coursera上华盛顿大学的ML课程吧。graphlab确实不错。

9楼 · 回复

bobbychen 回复于 2016年01月04日

8楼 @andyli386 你是说spark的那个包？

10楼 · 回复

尼克徐回复于 2016年01月04日

8楼 @andyli386 是那个课程。

不过我现在为了节约时间，正在跟斯坦福大学Andrew Ng的机器学习课程了。

华盛顿大学的ML课程太长，等我跟完Andrew Ng的再跟。

11楼 · 回复

andyli386 回复于 2016年01月04日

10楼 @尼克徐可以同时跟 O(∩_∩)O

12楼 · 回复

andyli386 回复于 2016年01月04日

9楼 @bobbychen Dato出的graphlab，你可以搜一下。Coursera上华盛顿大学的ML课程用的就是这个。

13楼 · 回复

尼克徐回复于 2016年01月04日

12楼 @andyli386 你是在做ML方面工作吗？

14楼 · 回复

andyli386 回复于 2016年01月04日

13楼 @尼克徐没，我也是在上机器学习这门课。

15楼 · 回复

尼克徐回复于 2016年01月04日

14楼 @andyli386

我的微博

http://www.weibo.com/1596595427/profile?rightmod=1&wvr=6&mod=personinfo&is_all=1

你可以发私信给我，咱们多交流哈。

16楼 · 回复

羊肉片回复于 2016年01月11日

最近在看网易公开课上吴恩达的机器学习，很多概念豁然开朗

本帖有16个回复，因为您没有注册或者登录本站，所以只能看到本帖的10条回复。如果想看到全部回复，请注册或者登录本站。

请登录或者注册。

发布新帖

OC

机器学习课程试验－－文本相似度分析

相关帖子

相关新闻

最新帖子