Doc2Vec获得语义相似词汇的算法改进(更新4个矿山数据集)

1 引言

Doc2Vec可以获得语义相似的单词或短语《语义相似模型(Doc2Vec)在双语教学中的应用》,这种算法虽然从理论上来说比不上Sense2Vec,但它的优点是不需要太大数据量,运行速度快。不过由于Doc2Vec使用的概率原理,每次运行同一词汇得出的结果不完全相同。为了在一次运行中得出更多有意义的结果,对现在的算法作了少许改进。

2 改进方法

这个改进方法其实很简单,思路是通过设置一个循环,把模型运行多次,例如:

for i in range(5):

在每次生成模型之前,使用random.shuffle(documents)函数让数据顺序进行调整, 不做这步也可以。产生的结果保存在一个列表中。对每次循环,如果得出的结果已经出现在列表中就跳过,不在列表中就加进去。

3 试验结果

(1) chuquicamata mine

large open pits

geomechanics

in the world

the chuquicamata mine

the chuquicamata underground project

implementation of

(2) FLAC

abaqus

modelling

finite element

synthetic rock mass srm

simulations

flac3d

(3) discrete fracture network

upscaling approach

synthetic rock mass

different scales

the srm-ujrm

strength anisotropy

jointed rock mass

mohr-coulomb

(4) slope stability

reliability

factors of safety

landslide

embankments

bearing capacity

(5) UDEC

distinct element

discrete fracture network

slope model

sainsbury et al

particle flow

synthetic rock mass

different scales

upscaling approach

(6) block caving

codelco

underground

copper mine

henderson

in northern chile

the palabora mine

pit highland valley

at the chuquicamata

(7) rock bridge

failure modes

shear strength of

persistence

non-persistent

coalescence

characteristics of

shear strength

4 改进数据集

在这个试验中,同时更新了四个矿山数据集:

(1) Chuquicamata mine (智利)

(2) El Teniente mine (智利)

(3) Jeffrey Mine (加拿大)

(4) Palabora mine (南非)

一个采矿方法数据集:

block caving(自然崩落法)

一个岩石力学数据集

Ubiquitous Joint Rock Mass Modelling(UJRM)


默认 最新
当前暂无评论,小编等你评论哦!
点赞 评论 收藏
关注