一个新的岩土工程数据集SSGeotech

1 引言

基于最近的工作:《从Semantic Scholar批量获得最新岩土工程文献》和《参数化检测Semantic Scholar岩土工程文献数量》,一个新的岩土工程数据集SSGeotech正式建立起来了。与先前发展的GeotechSet数据集不同,SSGeotech的全部数据来自于Semantic Scholar, 通俗点儿来说,SSGeotech自动采集Semantic Scholar的岩土工程数据。SSGeotech的特点如下:

(1) 全英文论文,去掉了所有非英文字符;

(2) 每篇论文只包含论文题目和摘要,不包含其它信息;

(3) 每天在不断扩充。

 

2 数据格式

由于发展这个数据集的目的是为了进行机器学习,因此数据格式没有使用Json,而是使用普通的文本格式txt, 具体地,每篇论文由一行组成:论文题目---摘要,论文与摘要之间用---连接。如果一篇论文没有摘要,那么只显示论文题目,这个在代码中能够自动处理。例如:

Measurement of local stress and estimation of regional stress associated with stability assessment of an open-pit rock slope---This paper discusses the concept of a new methodology for rock slope stability assessment. Then, results on rock stress measurement using the compact conical-ended borehole overcoring (CCBO) technique at Torigata limestone mine in Japan are presented. A procedure for back analysis of the regional strain and stress field with the 3-D finite element method, using the measured local stress, is suggested and demonstrated successfully in relation to Torigata limestone mine. Finally, to estimate the state of stress at the mine excavation level, 3-D finite element analyses were performed using boundary conditions from the analyzed regional strain and stress field. It is shown that the horizontal stress at the present excavation level is not reduced, and that the horizontal stress component cannot be disregarded in estimating the stability of rock slopes at this location, even though the mine is located near the top of a mountain. 【与露天岩坡稳定性评估有关的局部应力测量和区域应力估算--本文讨论了岩坡稳定性评估新方法的概念。然后,介绍了在日本Torigata石灰石矿使用紧凑型锥端钻孔过孔(CCBO)技术测量岩石应力的结果。提出了利用测量的局部应力,用三维有限元方法对区域应变和应力场进行反分析的程序,并在Torigata石灰岩矿成功地进行了演示。最后,为了估计矿井挖掘层的应力状态,利用分析的区域应变和应力场的边界条件进行了3-D有限元分析。结果表明,目前挖掘层的水平应力并没有减少,在估计这个地方的岩坡稳定性时,不能不考虑水平应力部分,尽管该矿位于山顶附近。】


3 问题处理

Semantic Scholar使用了语义相似对查询结果进行了排列,排名越靠后的结果与我们的查询目的距离越远,这将导致数据集中会出现一些与岩土工程毫不相关的论文,举例来说,rock wedge stability查得共有37753篇论文,实际上不可能有这么多篇这样的论文。因为其它学科也可能组合出这样的关键字。"joint fracture"在岩体力学里指的是节理断裂,但这个词在医学领域指的是关节断裂,因此如果用这个短语来聚合,将会出现大量的医学论文。在这种情况下,我们必须手动清理数据集的内容。考虑到这种偏差,目前只自动收集前300篇论文。通过设计下面这样一个循环来自动取出有意义的论文。

一个新的岩土工程数据集SSGeotech的图1

  

3 SSGeotech的发展

通过一个大约40行的代码,自动采集Semantic Scholar与岩土工程相关的论文题目与摘要,目前的数据是大约27600篇论文。这个数据集将在短期内迅速扩大并于SS同步。SSGeotech数据集传递到代码geotech-flashtext-passages.py中进行二次处理,从而得出更精确的解答。

岩土工程

一个新的岩土工程数据集SSGeotech的评论0条

    暂无评论

    一个新的岩土工程数据集SSGeotech的相关案例教程

    1 引言 岩体的强度和变形行为在很大程度上取决于岩石的"完整 "强度和不连续面的强度,不连续面如节理、层面、叶脉等。当岩体中存在大部分这样的弱面时,岩体就会产生各向异性的强度和变形行为,在这种岩体中开挖的边坡其滑动面不仅沿着弱面破坏,也在岩体内的岩桥里发生破坏,因而评估这种类型的边坡稳定性非常困难。 各向异性岩体的数值模型(Anisotropic Rock Mass Model) 各向异性岩体地层
    1 引言 原位块体尺寸对支护设计和爆破设计有着直接的影响。在近期评估的两个地下采矿项目中,都使用了干式充填法。与崩落采矿法类似,控制充填块体尺寸是这种采矿方法的关键,因此想到了岩石原位块体尺寸的估算方法。于是使用SSGeotech数据集快速地检查了目前的研究状态。 2 检索结果 SSGeotech目前共有70,475篇论文,由于以前没有特别关注这个topic, 可能会遗漏一些最重要的论文。 [1]
    1 引言 自动生成文本是自然语言处理中一个非常有趣的研究领域,目前主要有两种途径实现这个功能:第一种方法是深度学习,典型的例子是利用Transformers的"text-generation"管道,这种方法的理论基础是因果语言模拟(causal language modeling), 默认的模型是GPT-2,使用Top-K采样《开放式文本生成(Open-Ended Text Generation》
    1 引言 露天采矿台阶的破坏形式主要有三种: 平面破坏, 楔形破坏和岩石坠落. 其中楔形破坏是最常见的破坏形式,如下图所示。本文使用机器学习方法在GeotechSet数据集内调查了这个方向最相关的研究工作。 露天采矿台阶稳定性分析方法(Bench Scale Stability Analysis) 露天采矿台阶设计(Bench Design)方法 Swedge: 岩石边坡楔形破坏稳定性分析 2 调
    (1) 使用离散裂缝网络模拟岩石边坡的断裂强度(Fracture intensity modelling in rock slopes and field representativeness evaluation using discrete fracture networks) 在DFN模型中定义断裂强度(fracture intensity)是至关重要的,因为需要一个良好的细化水平来充分代表
    影响力
    粉丝
    内容
    获赞
    收藏
      项目客服
      培训客服
      0 1