引力沼泽撕裂舰船（2/2）

好书推荐：旧档案死亡推理之追狱人小赤猴长妄河大小姐回归后马甲惊爆全球傅爷的小妖精不好哄屹立高墙之下武纵天途当代守夜人仙戮万界

bit说，别着急，你忘了上次的经历了吗？这些小星体的引力表现很有规律，我已经“看到”了决定每个星体引力大小的特征：星体直径、星体密度、星体温度、星体周边迷你行星数等；每个星体都可以表示为一个点，比方说这个星体，说着，bit指向探测图上的一个小星体，这个小星体就可以表示为（21，443，322，53，1.9，55，… …，88）分别表示其体积为直径21，密度443，温度322，周边迷你行星数目53.. ….

星牛抢说：然后判断他们哪一个是强引力星体，哪个是弱引力星体吗？

bit说，不！因为我们事先不知道哪种星体属于强引力星体，哪些属于弱引力星体，所以我们就没法事先训练好一个监督模型用来判断其他星体。通过特征映射我么可以看到，摆在我们面前的这个蜘蛛网一般的星体阵，在引力上的表现实际是成簇的，也就是映射之后的特征空间上属于同一个引力区域的星体之间距离很近（就像上图中蓝色线圈内的天体，在引力上表现为一簇或者一类）。我们要做的就是找出这些簇，找到每个引力区域！为了把所有相近的强引力星体所在的区域判断出来，得通过他们在新的特征空间上的“距离”，比方说这个星体aa和这个星体bb他们分别被表示为(212，54，12，98，807，33… … ，666)和(31，56，389，90，70，154… …，781)，那他们之间的距离就是

还没等bit说完，星牛就抢着说，两点之间的距离我还是会算的。

bit笑笑接着说：为了更好的说明过程，先明确几个概念：核心点是其周围具有与之足够接近的点，如果找不到这样接近的点那它就是离群点，孤零零的，足够接近这个必须用一个数字来约束，小于这个距离的都是能彼此够得着的，接下来我们可以按照这个规则来找出那些强引力天体的区域群了。

（1：首先找到一个引力释放点p

（2：根据我们约定的这个足够近的距离值找到这样的接近（不是指物理距离，而是指根据多个特征维度表示出来的特征空间上的距离）天体形成一簇或者一类

（3：如果找不到这样的点，也就是某个点孤孤零零，周围没有接近的其他点

（4：重复上述步骤，直到把所有的天体都这样查找一遍

整个过程就像一个人举着火把黑夜中点亮其他火种，够得着的点亮，然后握手合作成为同一族，够不着的就不属于同一族了。

为了简化问题，假设所有的天体一共有13个，每个都可以表示为这样的两个特征，比如p1表示为（1，2）... ...

那么这13个点在二维空间的分布就表现为下图这样的簇，比如p3、p4、p13、p2、p1就更接近，并且与其他点有较大的距离从而表现为一簇：

bit看出了大家的担心，随即向舰长申请了探测舰k09，前去探测路线的可行性，下图黄色路线就是避开众多蓝色引力沼泽之后的新路线。

舰长稍作思考之后同意了。

在大家注视下，k09穿越了所有的星体，成功到达了“蜘蛛网”星体阵的另一侧。

于是，大家不再有任何迟疑，整个舰队沿着这个路线开拔并有惊无险地安全通过了引力沼泽。

02—掉书袋

【1】上述情节是对dbscan聚类算法的一个通俗演义。

【2】聚类是机器学习中的一类方法，通俗点讲就是近朱者赤近墨者黑的道理，只不过聚类中涉及到的数据往往不只是单一维度上的“接近”，而是多个维度表示为数值之后的多维空间上的“接近”；区别于分类，聚类不需要监督数据，属于无监督算法。

【3】 dbscan对于“足够接近”这个概念是通过两个参数来刻画的，一个是距离阈值a，另一个是平均个数minpts(这是一个数)，足够接近是距离<a的这个圈内，点的个数不低于minpts，这样一来就刻画了这个区域的密度。

【4】聚类算法有很多，有的只能聚出规则形状的簇，比如圆或球状的簇，而dbscan擅长对无规则的簇进行聚类，上述情节中的情况恰是dbscan的用武之地。

03—参考文献

1. 关键字：《统计学习方法》、李航

2. 关键字：《机器学习》、西瓜书、周志华

3. 关键字：coursera、dbscan

新书推荐：梦蝶TFboys 你是信仰去照耀 EXO的守护天使守护甜心之血染蔷薇穿越琅琊榜之我是靖王妃甜妹在哨向世界苟成万人迷被S级哨兵觊觎的F级向导神壕快穿：闪开，小祖宗驾到星元游戏架构师觉醒失败？我在星际写狗血文封神