机器学习课程试验--文本相似度分析

尼克徐 发布于 2015年12月28日 | 更新于 2016年01月11日
无人欣赏。

今天偷得半日闲,做了一个文本相似度分析的试验。

对wiki的名人语料库调用k-nearest neighbors算法,进行了文本相似度分析。

knn_model = graphlab.nearest_neighbors.create(people, features=['tfidf'],label='name')

结果发现,这个算法还是挺准的。

比如,查找与Obama最相似的名人,结果是Clinton等总统副总统政客等:

obama = people[people['name'] == 'Barack Obama']
knn_model.query(obama)
query_label reference_label distance rank
0 Barack Obama 0.0 1
0 Joe Biden 0.794117647059 2
0 Joe Lieberman 0.794685990338 3
0 Kelly Ayotte 0.811989100817 4
0 Bill Clinton 0.813852813853 5
[5 rows x 4 columns]

查找与Jiang Zemin最相似的名人,结果是Li Peng等等:

jiang_zemin = people[people['name']=='Jiang Zemin']
knn_model.query(jiang_zemin)
query_label reference_label distance rank
0 Jiang Zemin 0.0 1
0 Li Peng 0.808219178082 2
0 Hu Jintao 0.825938566553 3
0 Wang Chen (politician) 0.834196891192 4
0 Peng Qinghua 0.834905660377 5
[5 rows x 4 columns]
共16条回复
tinyfool 回复于 2015年12月28日

赞,加油

机器学习还是蛮好玩的

online66 回复于 2015年12月28日

可以试试word2vec哦!

尼克徐 回复于 2015年12月28日

2楼 @online66 谢谢。我用的是一套库graphlab,原理上和word2vec差不多。

1楼 @tinyfool 谢谢鼓励!:-)

flydsc 回复于 2015年12月29日

那个,一个小疑问

graphlab.nearest_neighbors.create

这个好像是KNN不是K-Means吧?

尼克徐 回复于 2015年12月29日

4楼 @flydsc 不好意思,是我错了。谢谢指出!

调用的是k-nearest neighbors算法。

bobbychen 回复于 2015年12月29日

4楼 @flydsc k-means是聚类吧~~~~

flydsc 回复于 2015年12月30日

6楼 @bobbychen 嗯,对啊,聚类算法的一种嘛~

andyli386 回复于 2016年01月04日

这个是Coursera上华盛顿大学的ML课程吧。graphlab确实不错。

bobbychen 回复于 2016年01月04日

8楼 @andyli386 你是说spark的那个包?

尼克徐 回复于 2016年01月04日

8楼 @andyli386 是那个课程。

不过我现在为了节约时间,正在跟斯坦福大学Andrew Ng的机器学习课程了。

华盛顿大学的ML课程太长,等我跟完Andrew Ng的再跟。

andyli386 回复于 2016年01月04日

10楼 @尼克徐 可以同时跟 O(∩_∩)O

andyli386 回复于 2016年01月04日

9楼 @bobbychen Dato出的graphlab,你可以搜一下。Coursera上华盛顿大学的ML课程用的就是这个。

尼克徐 回复于 2016年01月04日

12楼 @andyli386 你是在做ML方面工作吗?

andyli386 回复于 2016年01月04日

13楼 @尼克徐 没,我也是在上机器学习这门课。

尼克徐 回复于 2016年01月04日

14楼 @andyli386

我的微博

http://www.weibo.com/1596595427/profile?rightmod=1&wvr=6&mod=personinfo&is_all=1

你可以发私信给我,咱们多交流哈。

羊肉片 回复于 2016年01月11日

最近在看网易公开课上吴恩达的机器学习,很多概念豁然开朗

本帖有16个回复,因为您没有注册或者登录本站,所以,只能看到本帖的10条回复。如果想看到全部回复,请注册或者登录本站。

登录 或者 注册
[顶 楼]
|
|
[底 楼]
|
|
[首 页]