一、本篇主义:在已清洗数据的基础上,索取数据挖掘和论文写稿历程中所需的数据子集。二、需要处理的问题:问题1:细则方针药物上市时间,确认上市时间,细则挖掘所需数据的时间界限,并索取数据子集;问题2:细则论文写稿和数据挖掘历程中所需的数据,确认需求,索取数据子集。三、处理问题之前,先贴一下清洗后的数据村上里沙作品及图片信息: 清洗后的数据 包含的数据列 列的含义
demo primaryid 论述惟一识别码 各表连合的主键 caseid 案例码 案例(caseid)更新,会生成不同论述(primaryid) event_dt AE开动的时间 fda_dt FDA接纳论述的时间 age_grp 年事组 occr_country 发生AE的国度 reporter_country 上报AE的国度 age_year 年事(单元为年) sex 性别 wt_kg 体重(单元为kg) occp_cod 上报者身份代码
drug primaryid 同demo drug_seq村上里沙作品及图片 事件里的药物识别码 role_cod 药物脚色代码 caseid 同demo drugname 药名 中国人体艺术route 给药途径 prod_ai 活性因素
reac primaryid 同demo caseid 同demo pt AE
indi primaryid 同demo drug_seq 同drug indi_pt 适应症 caseid 同demo
outc primaryid 同demo caseid 同demo outc_cod 转归/结局代码
ther primaryid 同demo drug_seq 同drug start_dt 一个药物开动或再行开动调养的时间 caseid 同demo 四、问题的处梦想路4.1 问题1的处梦想路方针药物上市时间不错通过FDA官网查询。FAERS数据库挖掘,所用数据的时间界限一般有三种:1、从建库于今2、从方针药物上市季度于今3、从方针药物上市时间于今不同纪律的采选,会对前期数据清洗的历程产生一定影响:第1种时间界限,需要下载所少见据,然后进行清洗;这种纪律的对象主淌若一经上市很久的药品。第2种时间界限,只需下载上市季度于今的数据进行清洗,数据量会小好多;简略在第1种纪律得到数据的基础上,索取方针药物上市季度于今的数据。第3种纪律,不错在第1或2种纪律得到的数据基础上,索取上市时间于今的数据。关系论文对3种纪律均有经受,这里不商榷哪种纪律愈加允洽。本篇的例子便是先清洗了建库于今的所少见据,然后又索取了方针药物上市季度于今的的数据。4.2 问题2的处梦想路1、数据挖掘纪律一般经受频率法和贝叶斯法,无论是频率法中ROR/PRR,如故贝叶斯法中的BCPNN等,齐波及到药品不良反映四格表,如下图:drug Target adverse reaction Other adverse reactions Target drug a b Other drug c d 主要通过对drug和reac表格的操作,得到a/b/c/d和N(a+b+c+d)。2、论文波及到的方针药物不良事件论述的基本情况,举例性别、年事、论述年份、国度、上报东谈主、转归成果、适应症、论述数目等,不错通过对reac/demo/outc/indi等表格的操作,索取赢得。五、门径已毕假设方针药物的上市时间在2015年第1季度;假设方针药物的称号为“A”。library(tidyverse) #载入tidyverse demo <- read_csv("……/demo.csv") #读取建库于今清洗后的demo#在意更换为我方的旅途 demo_2015Q1<- demo %>% filter(fda_dt >= 20150101)#通过fda_dt截取所需时间界限内的demo数据write_csv(demo_2015Q1, " demo_2015Q1.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 prid_2015Q1 <- demo_2015Q1$primaryid#索取方针药物上市后悉数priamryid,用于drug表格中上市后所少见据索取 drug <- read_csv("……/drug.csv")#读取建库于今清洗后的drug drug_2015Q1 <- drug %>% filter(primaryid %in% prid_2015Q1) %>% filter(role_cod == "PS")#索取2015Q1于今的悉数drug数据#role_cod设定为主要怀疑药物ps,如果有其他需求,不错通过更正role_cod的筛选条款进行再行索取write_csv(drug_2015Q1, " drug_2015Q1.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 prid_drug_2015Q1<- drug_2015Q1$primaryid#索取drug_2015Q1中的悉数primaryid,用来索取reac表格中的数据 reac <- read_csv("……/reac.csv")#读取建库于今清洗后的reac reac_2015Q1 <- reac %>% filter(primaryid %in% prid_drug_2015Q1)#索取上市季度于今的reacwrite_csv(reac_2015Q1, "reac_2015Q1.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 drug_A <- drug_2015Q1 %>% filter(prod_ai == "A")#在drug_2015Q1中索取方针药物A的子集#需要在意,我为了写门径便捷,经受了相对更轨范的prod_ai进行示例;prod_ai出现相对较晚,较早的案例就只可通过drugname进行检索索取;由于drugname并未进行轨范化,是以需要通过门径,尽量把波及方针药物A的子集索取到,包括但不限于不同的商品名、通用名等等。write_csv(drug_A, " drug_A.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 prid_A <- drug_A$primaryid#索取方针药物A的primaryid reac_A <- reac_2015Q1 %>% filter(primaryid %in% prid_A)#确认prid_A,对reac索取方针药物数据write_csv(reac_A, "reac_A.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 demo_A <- demo_2015Q1 %>% filter(primaryid %in% prid_A)#确认prid_A,对demo索取方针药物数据write_csv(demo_A, "demo_A.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 indi <- read_csv("indi.csv")#载入建库于今清洗后的indi indi_A <- indi %>% filter(primaryid %in% prid_A)#确认prid_A,对indi索取方针药物数据write_csv(indi_A, "indi_A.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 outc <- read_csv("outc.csv")#载入建库于今清洗后的outc outc_A <- outc %>% filter(primaryid %in% prid_A)#确认prid_A,对outc索取方针药物数据write_csv(outc_A, "outc_A.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 ther <- read_csv("ther.csv")#载入建库于今清洗后的ther ther_A <- ther %>% filter(primaryid %in% prid_A)#确认prid_A,对ther索取方针药物数据write_csv(ther_A, "ther_A.csv")#个东谈主风俗把得到的数据输出,后续出现问题,幸免再行跑门径 六、所得数据小结 索取到的表格 表格用途 drug_2015Q1 统计abcdN reac_2015Q1 统计abcdN reac_A 统计方针药物不良事件论述数 demo_A 统计方针药物不良事件论述的基本特征 indi_A 统计方针药物的适应症 outc_A 统计方针药物不良事件的患者结局 ther_A 统计方针药物的调养使用情况村上里沙作品及图片 后续会确认以上表格,进行论文所需数据的统计索取。 本站仅提供存储作事,悉数本色均由用户发布,如发现存害或侵权本色,请点击举报。 |