当前位置：首页>学习笔记>学习笔记|从0开始学习机器学习·实践|第一节建立材料数据库01

学习笔记|从0开始学习机器学习·实践|第一节建立材料数据库01

2026-05-04 10:14:42

学习笔记从0开始学习机器学习·实践第一节建立材料数据库01

写在前面的话

在这个系列的学习笔记中，可以学习从建立材料数据库到解析结构数据，再进行深度学习等完整的机器学习实践。后续，也将陆续撰写其他如计算材料学(VASP，Gromacs,Gaussian等)还有机器学习理论等从0开始系列笔记。

数据库构建

基于统计概率的机器学习，模型离不开大量的数据，在材料学中，这些数据可以是材料结构或是材料的性质。结构决定性质，因此无论是从结构预测出性质，还是从性质反推出结构，都离不开大量的数据。为此，这方面，Materials Project等大量材料数据库被建立。这里，我们将学习到如何从这些数据库中拉取我们想要获取的材料数据，本文以钙钛矿晶体结构为例，拉取MP数据库中的钙钛矿以及类钙钛矿的材料数据。

在下面的例子中，不仅能够学习到如何构建数据库，还能够学习或巩固python的用法或技巧。

在python中 # 以及'''XXX'''代表了注释，python脚本在编译运行的过程中会自动跳过这些内容，这些内容都是我在学习过程中，帮助我理解和整理思路时的笔记，希望对你也有所帮助。

materials project

导入包以及常量

from mp_api.client import MPResterimport csvfrom tqdm import tqdm#https://next-gen.materialsproject.org/api 注册获得API_KEYAPI_KEY = "APIKEY"OUTPUT_FILE = "perovskite_dataset.csv"

通过API调用MP数据库，拉取Description中含有perovskite 字段的结构。

mpr.materials.robocrys.search(keywords=["perovskite"]

这是MPRester包中的固定写法，使用时，仅需要更换关键词即可搜索其他的材料结构。

def get_robo_perovskites(mpr):    docs = mpr.materials.robocrys.search(keywords=["perovskite"])'''   等价写法：用set可以避免重复统计   rob_ids()   for doc in docs:   rob_ids.add(doc.material_id)   '''return set(doc.material_id for doc in docs)

拉取Tags标签或remarks标记中含有perovskite 字段的结构。

#材料ID，标签，备注信息def get_tag_perovskites(mpr):'''如返回信息：MPDataDoc<ProvenanceDoc>(material_id=MPID(mp-1244953),remarks=['Amorphous'], ->表明非晶体tags=['Amorphous'],fields_not_requested=['builder_meta', 'nsites', 'elements', 'nelements', 'composition', 'composition_reduced', 'formula_pretty', 'formula_anonymous', 'chemsys', 'volume', 'density', 'density_atomic', 'symmetry', 'deprecated', 'deprecation_reasons', 'last_updated', 'origins', 'warnings', 'structure', 'property_name', 'created_at', 'references', 'authors', 'theoretical', 'database_IDs', 'history'])]'''    docs = mpr.materials.provenance.search(        fields=["material_id", "tags", "remarks"]    )    ids = []for doc in docs:'''        取"tags"字段，如果没有，则返回[]        等价于        if "tags" in doc:          tags=doc["tags"]         else:         tags=[]         or []防止key不存在，直接返回[]        '''        tags = doc.get("tags", []) or []        remarks = doc.get("remarks", []) or []'''        tags + remarks:拼接列表        等价为:        for x in (tags+remarks):        #str(x).lower():将xstring化，小写化          if "perovskite" in str(x).lower():            ids.append(doc.get("material_id"))           return False        '''if any("perovskite" in str(x).lower() for x in (tags + remarks)):            ids.append(doc.get("material_id"))return set(ids)

获取结构性质

def fetch_summary(mpr, material_ids):    results = []    batch_size = 1000    ids_list = list(material_ids)'''    range(0,len(ids_list),batch_size):从0开始，ids_list的长度结束，步长为batch_size    tqdm()：进度条工具表    '''for i in tqdm(range(0, len(ids_list), batch_size)):#batch_ids：每一次取1000个数据        batch_ids = ids_list[i:i + batch_size]        docs = mpr.materials.summary.search(            material_ids=batch_ids,            fields=["material_id","formula_pretty",#结构表达式"energy_above_hull",#凸包能"formation_energy_per_atom",#形成能"band_gap","density","volume","nsites"#晶胞内的原子数            ]        )        results.extend(docs)return results

存入csv文件

import pandas as pdrows = []def save_to_csv(data, filename):print("Saving to CSV...")    df=pd.DataFrame([    {"material_id": d.material_id,"formula": d.formula_pretty,"energy_above_hull": d.energy_above_hull,"formation_energy": d.formation_energy_per_atom,"band_gap": d.band_gap,"density": d.density,"volume": d.volume,"nsites": d.nsites    }for d in data    ])    df.to_csv(filename,index=True,encoding="utf-8")print("CSV saved!")

主函数调用所有方法

def main():with MPRester(API_KEY) as mpr:        robo_ids=get_robo_perovskite(mpr)        tags_ids=get_tag_perovskite(mpr)#取并集        all_ids=robo_ids|tags_idsprint(f"Total perovskites:{len(all_ids)}")        data=fetch_summary(mpr,all_ids)        save_to_csv(data,OUTPUT_FILENAME)

点击run,运行文件后，可以看到控制台中开始拉取数据库中的数据，运行结束后，文件夹内会存入一个名为“perovskite_dataset.csv”的文件。到此，整个拉取的过程就结束了。打开csv文件，可以看到MP数据库中所有有关钙钛矿的结构以及相应的性质数据。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

学习笔记|从0开始学习机器学习·实践|第一节建立材料数据库01

学习笔记从0开始学习机器学习·实践第一节建立材料数据库01

写在前面的话

在这个系列的学习笔记中，可以学习从建立材料数据库到解析结构数据，再进行深度学习等完整的机器学习实践。后续，也将陆续撰写其他如计算材料学(VASP，Gromacs,Gaussian等)还有机器学习理论等从0开始系列笔记。

数据库构建

materials project

最新文章

热门文章

随机文章

学习笔记|从0开始学习机器学习·实践|第一节 建立材料数据库01

学习笔记从0开始学习机器学习·实践第一节 建立材料数据库01

写在前面的话

在这个系列的学习笔记中，可以学习从建立材料数据库到解析结构数据，再进行深度学习等完整的机器学习实践。后续，也将陆续撰写其他如计算材料学(VASP，Gromacs,Gaussian等)还有机器学习理论等从0开始系列笔记。

数据库构建

materials project

《西蒙学习法》连续第264天学习笔记

公司法学习笔记-【第六章】董事、监事、高级管理人员的资格、义务与责任

最新文章

热门文章

随机文章

学习笔记|从0开始学习机器学习·实践|第一节建立材料数据库01

学习笔记从0开始学习机器学习·实践第一节建立材料数据库01