宋旭东

MATLAB影像数据处理(三)

2025-03-16T10:10:48.000Z

DICOM图像元数据解析

DICOM（数字影像和通信）是一种用于医学成像的标准格式，广泛应用于医疗领域。它包含了丰富的元数据，用于描述患者信息、设备信息、图像特征等。以下是对您提供的字段的逐一解释：

1. 文件元信息（File Meta Information）

Filename: 文件的名称。
FileModDate: 文件的修改日期。
FileSize: 文件的大小（以字节为单位）。
Format: 文件的格式（如DICOM）。
FormatVersion: 文件格式的版本。
Width, Height: 图像的宽度和高度（以像素为单位）。
BitDepth: 图像的位深（如8位、16位）。
ColorType: 图像的颜色类型（如单色、彩色）。
FileMetaInformationGroupLength: 文件元信息组的长度。
FileMetaInformationVersion: 文件元信息的版本。
MediaStorageSOPClassUID: 媒体存储的SOP类UID。
MediaStorageSOPInstanceUID: 媒体存储的SOP实例UID。
TransferSyntaxUID: 传输语法UID。
ImplementationClassUID: 实现类UID。
ImplementationVersionName: 实现版本名称。
IdentifyingGroupLength: 标识组的长度。
SpecificCharacterSet: 特定的字符集（如UTF-8）。

2. 患者信息（Patient Information）

PatientName: 患者的姓名。
PatientID: 患者的ID。
PatientBirthDate: 患者的出生日期。
PatientSex: 患者的性别。
PatientAge: 患者的年龄。
PatientWeight: 患者的体重。
AdditionalPatientHistory: 其他患者历史信息。

3. 研究和系列信息（Study and Series Information）

StudyDate: 研究的日期。
SeriesDate: 系列的日期。
AcquisitionDate: 采集的日期。
ContentDate: 内容的日期。
StudyTime, SeriesTime, AcquisitionTime, ContentTime: 相关时间的时间部分。
AccessionNumber: 追踪号。
Modality: 成像方式（如MRI、CT、US）。
Manufacturer: 设备制造商。
InstitutionName: 机构名称。
ReferringPhysicianName: 转诊医生的姓名。
StationName: 工作站名称。
SeriesDescription: 系列描述。
ManufacturerModelName: 设备型号名称。

4. 图像参数（Image Parameters）

SliceThickness: 切片厚度。
RepetitionTime: 重复时间（TR）。
EchoTime: 回声时间（TE）。
NumberOfAverages: 平均次数。
ImagingFrequency: 成像频率。
ImagedNucleus: 被成像的原子核。
EchoNumbers: 回声数。
MagneticFieldStrength: 磁场强度。
SpacingBetweenSlices: 切片间距。
EchoTrainLength: 回声列长度。
PercentSampling: 采样百分比。
PercentPhaseFieldOfView: 相位场视百分比。
PixelBandwidth: 像素带宽。
DeviceSerialNumber: 设备序列号。
SoftwareVersions: 软件版本。
ProtocolName: 协议名称。

5. 其他信息（Miscellaneous Information）

ContrastBolusAgent: 对比剂。
ContrastBolusRoute: 对比剂注射途径。
HeartRate: 心率。
CardiacNumberOfImages: 心脏成像的图像数量。
TriggerWindow: 触发窗口。
ReconstructionDiameter: 重建直径。
ReceiveCoilName: 接收线圈名称。
AcquisitionMatrix: 采集矩阵。
InPlanePhaseEncodingDirection: 平面相位编码方向。
FlipAngle: 翻转角。
VariableFlipAngleFlag: 变量翻转角标志。
SAR: 比能吸收率（SAR）。
PatientPosition: 患者位置。
Laterality: 左右侧标志。

6. 图像数据（Image Data）

Rows, Columns: 图像的行数和列数。
PixelSpacing: 像素间距。
BitsAllocated, BitsStored, HighBit: 位分配、存储和高位。
PixelRepresentation: 像素表示（如unsigned short）。
SamplesPerPixel: 每像素样本数。
PhotometricInterpretation: 光度学解释（如单色2、RGB）。
SmallestImagePixelValue, LargestImagePixelValue: 最小和最大像素值。
WindowCenter, WindowWidth: 窗中心和窗宽。
PixelDataGroupLength, PixelData: 像素数据组长度和实际图像数据。

7. 私有信息（Private Information）

私有字段通常以“Private_”开头，用于存储特定设备或机构的额外信息。这些字段的含义需参考设备制造商的文档。

8. 唯一标识符（Unique Identifiers）

StudyInstanceUID, SeriesInstanceUID, SOPInstanceUID: 用于唯一标识研究、系列和SOP实例的UID。
InstanceNumber: 实例编号。

9. 位置和方向（Position and Orientation）

ImagePositionPatient: 图像在患者坐标系中的位置。
ImageOrientationPatient: 图像在患者坐标系中的方向。
FrameOfReferenceUID: 参考框架UID。

10. 时间和事件（Time and Events）

AcquisitionTime: 采集时间。
TriggerTime: 触发时间。
ContentTime: 内容时间。

11. 其他标识符（Other Identifiers）

PatientID, AccessionNumber: 患者ID和追踪号，用于标识患者和研究。

12. 设备信息（Device Information）

StationName, DeviceSerialNumber: 设备名称和序列号，用于标识采集设备。

简单练习

DPABI 安装

DPABI（Data Processing & Analysis for Brain Imaging）是一个开源的 MATLAB 工具箱，用于脑影像数据的处理和分析。它提供了丰富的功能，特别是针对结构和功能磁共振成像（fMRI）以及结构性磁共振成像（sMRI）数据的分析。DPABI 旨在简化和加速脑成像数据的处理，具有灵活性和高效性，适合神经科学和脑成像研究人员使用。

参考教程：https://blog.csdn.net/qq_43419761/article/details/121131875

下载

官网：https://rfmri.org/DPABI

解压放到matlab的toolbox中，即matlab的安装地址/toolbox

SPM安装

https://www.fil.ion.ucl.ac.uk/spm/software/download/

现在安装的MATLAB2024没有对应版本的SPM

我先尝试下载最新的SPM进行使用

安装成功

AAL脑区模板解读

AAL.nii

AAL（Automated Anatomical Labeling）模板 是一种常用的脑图谱（brain atlas），用于将大脑划分为多个解剖区域（脑区），并为每个区域分配一个唯一的编号。它是神经影像学研究中常用的工具，特别是在功能磁共振成像（fMRI）和结构磁共振成像（sMRI）数据分析中。

在MATLAB中使用y_ReadAll读取AAL.nii文件

[Data, VoxelSize, FileList, Header] = y_ReadAll(AAL_file);

% y_ReadAll - 读取 NIfTI、GIfTI 或 DPABINet Matrix 文件
% ------------------------------------------------------------------------
% 输入:
% InputName - 输入文件或目录的路径，可以是以下形式：
%             1. 单个文件（如 .nii、.nii.gz、.gii 或 .mat 文件）。
%             2. 一个目录，目录下可以是：
%                - 对于 NIfTI：一个 4D 文件或一组 3D 文件。
%                - 对于 GIfTI：一个 2D 文件或一组 1D 文件。
%                - 对于 DPABINet Matrix：一组 .mat 文件。
%             3. 一个文件列表（cell 数组），每个元素是一个文件的路径。
% 输出:
% Data - 图像数据矩阵：
%        - 对于 NIfTI：4D 矩阵。
%        - 对于 GIfTI：2D 矩阵。
%        - 对于 DPABINet Matrix：2D 矩阵。
% VoxelSize - 体素大小（仅对 NIfTI 文件有效）。
% FileList - 读取的文件列表。
% Header - 头信息结构体：
%          - 对于 NIfTI：包含 fname、dim、dt、mat、pinfo 等字段。
%          - 对于 GIfTI：包含 GIfTI 的头信息。
%          - 对于 DPABINet Matrix：包含矩阵名称和大小信息。

作业代码

clc,clear;
% 读取AAL模板
AAL_file = '011.nii';  % AAL模板文件名
[Data, VoxelSize, FileList, Header] = y_ReadAll(AAL_file);

% 获取AAL模板中的唯一脑区编号
unique_regions = unique(Data);
unique_regions = unique_regions(unique_regions > 0);  % 去除背景0

% 创建mask文件夹
mask_folder = 'mask';
if ~exist(mask_folder, 'dir')
    mkdir(mask_folder);
end

% 遍历每个脑区，生成并保存mask
for i = 1:length(unique_regions)
    region_value = unique_regions(i);
    
    % 生成0-1 mask
    mask = double(Data == region_value);
    
    % 生成文件名（三位数命名）
    filename = sprintf('%03d.nii', region_value);
    filepath = fullfile(mask_folder, filename);
    
    % 修改Header以匹配mask
    mask_header = Header;  % 复制原始Header
    mask_header.dim = size(mask);  % 更新维度信息
    mask_header.dt = [16, 0];  % 设置数据类型为double（根据需要调整）
    
    % 保存mask为NIfTI文件
    y_Write(mask, mask_header, filepath);
end

disp('所有脑区的mask已生成并保存到mask文件夹中。');

MATLAB影像数据处理(二)

2025-03-16T10:04:03.000Z

进阶基本命令

clc,clear

%doc fullfile

f1 = '111\222\333.m';
f2 = fullfile('111','222','333.m');
f3 = strcat('111\','222\','333.m');
f4 = ['111\','222\','333.m'];
%filesep可以代替\
f5 = ['111',filesep,'222',filesep,'333.m'];

%fileparts用来分割文件路径，文件名，和后缀
[filepath,name,ext] = fileparts(f1);
%只想返回文件名
[~,name1] = fileparts(f1);
%只想返回后缀
[~,~,ext1] = fileparts(f1);

%find 查找某值位于的位置
a = 1:2:10;
%等于为==，大于>，小于
b = find(a==5);

%genpath 某文件夹下的所有文件夹,包括子文件夹
p = genpath("D:\MATLAB\work2");

%addpath 添加环境变量

%zip 压缩文件
%zip(zipfilename,filenames)

%gunzip 解压文件

%strsplit 分割字符串
straa1 = "my name is matlab";
a = strsplit(straa1);

%打开文件夹选择对话框
path1 = uigetdir('C:\');

%打开文件选择对话框
filename1 = uigetfile();

矩阵操作

%矩阵运算
a = rand(1000,1);
hist(a);

%randn的随机数有正有负
a = randn(1000,1);
hist(a);

%std 方差
std(a)

%mean 均值
mean(a)

%sum 相加,矩阵的话，按列相加
sum(a)
a = rand(1000,2);
sum(a)

%zeros 生成全是0的矩阵
zeros(5,2)

%ones 生成全是1的矩阵
ones(5,2)

% 生成全是6的矩阵
X = 6*ones(5,2)

%eye 单位矩阵,对角阵
eye(5)


a = rand(4,2);
sum(a)
% a' 转置，行变列，；列变行
a=a'

%length,返回长度，优先返回列
length(a)

%size 矩阵的长宽
a
size(a)
%返回长
size(a,1)
%返回宽
size(a,2)

%矩阵相乘

b1 =[1 2
    3 4]
b2 =[5 6
    7 8]

b1*b2

矩阵相乘参考：https://www.bilibili.com/video/BV1Nq421w7vH/?spm_id_from=333.1007.top_right_bar_window_history.content.click

作业二

% 选择文件夹
selectedFolder = uigetdir('请选择包含PDF文件的文件夹');
if selectedFolder == 0
    error('未选择文件夹，操作取消。');
end

% 获取文件夹中的所有PDF文件
pdfFiles = dir(fullfile(selectedFolder, '*.pdf'));

% 检查是否有PDF文件
if isempty(pdfFiles)
    error('所选文件夹中没有PDF文件。');
end

% 在所选文件夹的同级目录下创建pdf文件夹
pdfFolder = fullfile(fileparts(selectedFolder), 'pdf');
if ~exist(pdfFolder, 'dir')
    mkdir(pdfFolder);
end

% 遍历每个PDF文件
for i = 1:length(pdfFiles)
    % 获取当前PDF文件的完整路径
    currentPdfPath = fullfile(pdfFiles(i).folder, pdfFiles(i).name);
    
    % 创建以PDF文件名命名的文件夹
    [~, pdfName, ~] = fileparts(pdfFiles(i).name);
    newFolder = fullfile(pdfFolder, pdfName);
    if ~exist(newFolder, 'dir')
        mkdir(newFolder);
    end
    
    % 复制并重命名PDF文件
    newPdfPath = fullfile(newFolder, 'report.pdf');
    copyfile(currentPdfPath, newPdfPath);
end

% 压缩pdf文件夹
zipFileName = fullfile(fileparts(selectedFolder), 'pdf.zip');
zip(zipFileName, pdfFolder);

% 提示操作完成
disp('PDF文件已提取并压缩完成。');

可以完成！

MATLAB影像数据处理(一)

2025-02-24T08:19:02.000Z

安装

参考B站资源和破解方法

https://www.bilibili.com/video/BV1DoAweWENJ/?spm_id_from=333.788.top_right_bar_window_default_collection.content.click

成功安装，可以使用

基本函数

参考教程：https://www.bilibili.com/video/BV1bv411B7wX?spm_id_from=333.788.videopod.episodes&vd_source=b938c9620af06f4224f5fd4db315cbd4

查看帮助

help或者doc加上想要查看帮助的函数

help mkdir
doc mkdir

路径

cd ..

cd …

语法和linux基本操作一致，较为简单

简单尝试

%这是一个测试文件
%清空变量和界面
clc,clear
%print work directory 
pwd
%make directory 
mkdir 123
%remove  directory 
rmdir 123
%list 
ls
%尝试声明变量
a=1;
b=2;
%copy file and rename
copyfile("test.m","test2.m")
%find function load
which ls

矩阵操作

%产生等差数列,从1开始（默认也为1），每次增加2，最大不超过20
1:2:20

%随机生成0-1之间的数值,5行，3列
a=rand(5,3)

%得到第1行，第2列的数值。
a(1,2)

%第一列的数值
a(:,1)
a(1:end,1)

%第一行的数值
a(1,:)
a(1,1:end)

%MATLAB的运算以列优先，如果想得到一个矩阵的某个值也可只用一个数值得到
%从列开始数，第7个值
a(7)

%只取第1，3列
a(:,[1,3])

%只取，第2,4行，第1，3列的交叉元素
a([2,4],[1,3])

%矩阵的拼接
a = rand(1,10); 
b = rand(1,10); 
c = [a b] 
%整行拼接
c = [a, b]
%按列拼接
c = [a; b]

简单的循环作业

% 获取当前目录
currentDir = pwd;

% 定义ori文件夹路径
oriDir = fullfile(currentDir, 'ori');

% 定义sub文件夹路径
subDir = fullfile(currentDir, 'sub');

% % 创建sub文件夹
% %if ~exist(subDir, 'dir')
%     mkdir(subDir);
% end

% 获取ori文件夹中的所有PDF文件
pdfFiles = dir(fullfile(oriDir, '*.pdf'))

% 遍历每个PDF文件
for i = 1:length(pdfFiles)
    % 获取PDF文件名
    pdfName = pdfFiles(i).name;
    
    % 提取编号（假设文件名格式为 '编号.pdf'）
    [~, name, ~] = fileparts(pdfName);
    folderName = name; % 假设文件名就是编号
    
    % 创建以编号命名的子文件夹
    newFolder = fullfile(subDir, folderName);
    if ~exist(newFolder, 'dir')
        mkdir(newFolder);
    end
    
    % 移动并重命名PDF文件
    sourceFile = fullfile(oriDir, pdfName);
    destinationFile = fullfile(newFolder, 'report.pdf');
    movefile(sourceFile, destinationFile);
end

% 删除sub文件夹及其内容
rmdir(subDir, 's');

disp('操作完成');

可以运行！

LLM大模型（一）

2025-01-16T05:55:12.000Z

LLM大模型的概念

参考视频：https://www.bilibili.com/video/BV1XS411w7qr?spm_id_from=333.788.videopod.episodes&vd_source=b938c9620af06f4224f5fd4db315cbd4&p=2

LLM（Large Language Models）大模型指的是使用大量参数和数据的语言模型，它们能够理解和生成自然语言文本。这些模型通常基于深度学习技术，尤其是变换器（Transformer）架构。
LLM是AI在自然语言处理（NLP）领域的一种应用，它们能够理解和生成自然语言，应用于机器翻译、文本摘要、问答系统等众多场景。

生成式AI的概念

ChatGPT也是AI的一个实例，它利用了LLM的强大能力，通过对话的形式与用户交互。

可以理解为生成式AI是机器学习、深度学习的高阶体现。

生成式AI的使用

生成ChatGPT的API

收费，但刚创建账号时有一定额度，会到期！

https://platform.openai.com/settings/organization/api-keys

直接在openai的网站生成即可（需要连接外网）

注意生成时复制，因为只会展示一次。

生成Gemine的API

由Google开发，免费

https://aistudio.google.com/app/apikey

注意API不要透露给他人

在平台上使用ChatGPT-api

代码参:https://github.com/Hoper-J/AI-Guide-and-Demos-zh_CN/tree/master

由于生成式AI的开发是较为复杂的，并且暂未完全开源，学习的初级阶段先掌握ChatGPT的使用

在colab上使用https://colab.research.google.com/drive/

需要翻墙，由于国内无法直连ChatGPT，很多报错只是由于网络问题

基本结构

!pip install openai
!pip install gradio


##基本结构
from openai import OpenAI
import openai
import gradio as gr
import json
from typing import List, Dict, Tuple

client = OpenAI(
    # defaults to os.environ.get("OPENAI_API_KEY")
    api_key="自己的API",
    base_url="https://models.inference.ai.azure.com"
    # base_url="https://api.chatanywhere.org/v1"
)
response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{'role': 'user', 'content': '请告诉我关于机器学习的基本概念'}],
        max_tokens=100,
)
message_content = response.choices[0].message.content
print(message_content)

使用 API 快速搭建你的第一个 AI 应用

测试API

!pip install openai
!pip install gradio

import os
import json
from typing import List, Dict, Tuple

import openai
import gradio as gr

# TODO: 设置你的 OPENAI API 密钥，这里以阿里云 DashScope API 为例进行演示
OPENAI_API_KEY = "自己的API"


client = openai.OpenAI(
    api_key=OPENAI_API_KEY,
    base_url="https://models.inference.ai.azure.com",  # 使用GitHub的CatGPT的API
)

# 检查是否正确设置了 API
# 如果一切正常，你将看到 "API 设置成功！！"
try:
    response = client.chat.completions.create(
            model="gpt-4o",  # 可以使用gpt-4o或者gpt-4o-mini，资源有限
            messages=[{'role': 'user', 'content': "测试"}],  # 设置一个简单的测试消息
            max_tokens=1,
    )
    print("API 设置成功！！")  # 输出成功信息
except Exception as e:
    print(f"API 可能有问题，请检查：{e}")  # 输出详细的错误信息

如果调用成功则会显示

API 设置成功！！

文章摘要（单轮对话应用）

在此任务中，你需要将你的聊天机器人变为一个摘要器。它的工作是当用户输入一篇文章时，能够为用户总结该文章的内容。

你需要完成以下步骤：

设计一个用于生成摘要的提示词，并填写在 prompt_for_summarization 中。
点击运行按钮，这将弹出一个可交互的界面。
你可以找到一篇文章或使用当前的示例文章：《从百草园到三味书屋》，并将其填写在标记为“文章”的输入框中。
点击“发送”按钮生成文章的摘要。（你可以使用“温度”滑块来控制输出的创造性，温度越高，输出越具创造性）。
如果你想更改提示词，可以停止单元格，返回到TODO部分进行更改，然后再次运行。
在你获得满意的结果后，点击“导出”按钮保存结果。文件列表中将出现一个名为 part1.json 的文件。

注意：

如果你再次点击“导出”按钮，之前的结果将被覆盖。
即使使用相同的提示词，输出的结果可能仍然不同。

在运行此单元格之前，请确保已运行 安装包 和 导入与设置。

记得在进行下一步前停止此单元格。

# TODO: 在此处输入用于摘要的提示词
prompt_for_summarization = "请将以下文章概括成几句话。"

# 重置对话的函数
def reset() -> List:
    return []

# 调用模型生成摘要的函数
def interact_summarization(prompt: str, article: str, temp=1.0) -> List[Tuple[str, str]]:
    '''
    * 参数:
      - prompt: 我们在此部分中使用的提示词
      - article: 需要摘要的文章
      - temp: 模型的温度参数。温度用于控制聊天机器人的输出。温度越高，响应越具创造性。
    '''
    input = f"{prompt}\n{article}"
    response = client.chat.completions.create(
        model="gpt-4o",  # 使用阿里云 DashScope 的模型
        messages=[{'role': 'user', 'content': input}],
        temperature=temp,
        max_tokens=200,  # 你需要注意到这里设置了文本的长度上限。
    )

    return [(input, response.choices[0].message.content)]

##对话导出为本文件夹下为的part1.json文件
def export_summarization(chatbot: List[Tuple[str, str]], article: str) -> None:
    '''
    * 参数:
      - chatbot: 模型的对话记录，存储在元组列表中
      - article: 需要摘要的文章
    '''
    target = {"chatbot": chatbot, "article": article}
    with open("part1.json", "w") as file:
        json.dump(target, file)

# 生成 Gradio 的UI界面
with gr.Blocks() as demo:
    gr.Markdown("# 第1部分：摘要\n填写任何你喜欢的文章，让聊天机器人为你总结！")
    chatbot = gr.Chatbot()
    prompt_textbox = gr.Textbox(label="提示词", value=prompt_for_summarization, visible=False)
    article_textbox = gr.Textbox(label="文章", interactive=True, value="我家的后面有一个很大的园，相传叫作百草园。现在是早已并屋子一起卖给朱 文公的子孙了，连那最末次的相见也已经隔了七八年，其中似乎确凿只有一些野草 ；但那时却是我的乐园。 　　不必说碧绿的菜畦，光滑的石井栏，高大的皂荚树，紫红的桑椹；也不必说鸣 蝉在树叶里长吟，肥胖的黄蜂伏在菜花上，轻捷的叫天子（云雀）忽然从草间直窜 向云霄里去了。单是周围的短短的泥墙根一带，就有无限趣味。油蛉在这里低唱， 蟋蟀们在这里弹琴。翻开断砖来，有时会遇见蜈蚣；还有斑蝥，倘若用手指按住它 的脊梁，便会拍的一声，从后窍喷出一阵烟雾。何首乌藤和木莲藤缠络着，木莲有 莲房一般的果实，何首乌有拥肿的根。有人说，何首乌根是有象人形的，吃了便可 以成仙，我于是常常拔它起来，牵连不断地拔起来，也曾因此弄坏了泥墙，却从来 没有见过有一块根象人样。如果不怕刺，还可以摘到覆盆子，象小珊瑚珠攒成的小 球，又酸又甜，色味都比桑椹要好得远。 　 　　长的草里是不去的，因为相传这园里有一条很大的赤练蛇。 　　长妈妈曾经讲给我一个故事听：先前，有一个读书人住在古庙里用功，晚间， 在院子里纳凉的时候，突然听到有人在叫他。答应着，四面看时，却见一个美女的 脸露在墙头上，向他一笑，隐去了。他很高兴；但竟给那走来夜谈的老和尚识破了 机关。说他脸上有些妖气，一定遇见“美女蛇”了；这是人首蛇身的怪物，能唤人 名，倘一答应，夜间便要来吃这人的肉的。他自然吓得要死，而那老和尚却道无妨 ，给他一个小盒子，说只要放在枕边，便可高枕而卧。他虽然照样办，却总是睡不 着，——当然睡不着的。到半夜，果然来了，沙沙沙！门外象是风雨声。他正抖作 一团时，却听得豁的一声，一道金光从枕边飞出，外面便什么声音也没有了，那金 光也就飞回来，敛在盒子里。后来呢？后来，老和尚说，这是飞蜈蚣，它能吸蛇的 脑髓，美女蛇就被它治死了。 　　结末的教训是：所以倘有陌生的声音叫你的名字，你万不可答应他。　　 　　这故事很使我觉得做人之险，夏夜乘凉，往往有些担心，不敢去看墙上，而且 极想得到一盒老和尚那样的飞蜈蚣。走到百草园的草丛旁边时，也常常这样想。但 直到现在，总还没有得到，但也没有遇见过赤练蛇和美女蛇。叫我名字的陌生声音 自然是常有的，然而都不是美女蛇。 　　冬天的百草园比较的无味；雪一下，可就两样了。拍雪人（将自己的全形印在 雪上）和塑雪罗汉需要人们鉴赏，这是荒园，人迹罕至，所以不相宜，只好来捕鸟 。薄薄的雪，是不行的；总须积雪盖了地面一两天，鸟雀们久已无处觅食的时候才 好。扫开一块雪，露出地面，用一支短棒支起一面大的竹筛来，下面撒些秕谷，棒 上系一条长绳，人远远地牵着，看鸟雀下来啄食，走到竹筛底下的时候，将绳子一 拉，便罩住了。但所得的是麻雀居多，也有白颊的“张飞鸟”，性子很躁，养不过 夜的。 　　这是闰土的父亲所传授的方法，我却不大能用。明明见它们进去了，拉了绳， 跑去一看，却什么都没有，费了半天力，捉住的不过三四只。闰土的父亲是小半天 便能捕获几十只，装在叉袋里叫着撞着的。我曾经问他得失的缘由，他只静静地笑 道：你太性急，来不及等它走到中间去。 　　我不知道为什么家里的人要将我送进书塾里去了，而且还是全城中称为最严厉 的书塾。也许是因为拔何首乌毁了泥墙罢，也许是因为将砖头抛到间壁的梁家去了 罢，也许是因为站在石井栏上跳下来罢，……都无从知道。总而言之：我将不能常 到百草园了。Ａｄｅ，我的蟋蟀们！Ａｄｅ，我的覆盆子们和木莲们！ 　　出门向东，不上半里，走过一道石桥，便是我的先生的家了。从一扇黑油的竹 门进去，第三间是书房。中间挂着一块扁道：三味书屋；扁下面是一幅画，画着一 只很肥大的梅花鹿伏在古树下。没有孔子牌位，我们便对着那扁和鹿行礼。第一次 算是拜孔子，第二次算是拜先生。 　　第二次行礼时，先生便和蔼地在一旁答礼。他是一个高而瘦的老人，须发都花 白了，还戴着大眼镜。我对他很恭敬，因为我早听到，他是本城中极方正，质朴， 博学的人。 　　不知从那里听来的，东方朔也很渊博，他认识一种虫，名曰“怪哉”，冤气所 化，用酒一浇，就消释了。我很想详细地知道这故事，但阿长是不知道的，因为她 毕竟不渊博。现在得到机会了，可以问先生。 　　“先生，‘怪哉’这虫，是怎么一回事？……”我上了生书，将要退下来的时 候，赶忙问。 　　“不知道！”他似乎很不高兴，脸上还有怒色了。 　　我才知道做学生是不应该问这些事的，只要读书，因为他是渊博的宿儒，决不 至于不知道，所谓不知道者，乃是不愿意说。年纪比我大的人，往往如此，我遇见 过好几回了。 　　我就只读书，正午习字，晚上对课。先生最初这几天对我很严厉，后来却好起 来了，不过给我读的书渐渐加多，对课也渐渐地加上字去，从三言到五言，终于到 七言。 　　三味书屋后面也有一个园，虽然小，但在那里也可以爬上花坛去折腊梅花，在 地上或桂花树上寻蝉蜕。最好的工作是捉了苍蝇喂蚂蚁，静悄悄地没有声音。然而 同窗们到园里的太多，太久，可就不行了，先生在书房里便大叫起来：—— 　　“人都到那里去了？” 　　人们便一个一个陆续走回去；一同回去，也不行的。他有一条戒尺，但是不常 用，也有罚跪的规矩，但也不常用，普通总不过瞪几眼，大声道：—— 　　“读书！” 　　于是大家放开喉咙读一阵书，真是人声鼎沸。有念“仁远乎哉我欲仁斯仁至矣 ”的，有念“笑人齿缺曰狗窦大开”的，有念“上九潜龙勿用”的，有念“厥土下 上上错厥贡苞茅橘柚”的……先生自己也念书。后来，我们的声音便低下去，静下 去了，只有他还大声朗读着：—— 　　“铁如意，指挥倜傥，一座皆惊呢～～；金叵罗，颠倒淋漓噫，千杯未醉嗬～ ～……” 　　我疑心这是极好的文章，因为读到这里，他总是微笑起来，而且将头仰起，摇 着，向后面拗过去，拗过去。 　　先生读书入神的时候，于我们是很相宜的。有几个便用纸糊的盔甲套在指甲上 做戏。我是画画儿，用一种叫作“荆川纸”的，蒙在小说的绣像上一个个描下来， 象习字时候的影写一样。读的书多起来，画的画也多起来；书没有读成，画的成绩 却不少了，最成片断的是《荡寇志》和《西游记》的绣像，都有一大本。后来，因 为要钱用，卖给一个有钱的同窗了。他的父亲是开锡箔店的；听说现在自己已经做 了店主，而且快要升到绅士的地位了。这东西早已没有了罢。 　　　　　　　　　　　　　　　　　　 　　九月十八日。")
    
    with gr.Column():
        gr.Markdown("# 温度调节\n温度用于控制聊天机器人的输出。温度越高，响应越具创造性。")
        temperature_slider = gr.Slider(0.0, 2.0, 1.0, step=0.1, label="温度")
    
    with gr.Row():
        sent_button = gr.Button(value="发送")
        reset_button = gr.Button(value="重置")

    with gr.Column():
        gr.Markdown("# 保存结果\n当你对结果满意后，点击导出按钮保存结果。")
        export_button = gr.Button(value="导出")
    
    # 连接按钮与函数
    sent_button.click(interact_summarization, inputs=[prompt_textbox, article_textbox, temperature_slider], outputs=[chatbot])
    reset_button.click(reset, outputs=[chatbot])
    export_button.click(export_summarization, inputs=[chatbot, article_textbox])

# 启动 Gradio 界面
demo.launch(debug=True)

检查并打印你的结果

# 加载对话记录的 JSON 文件
with open("part1.json", "r") as f:
    context = json.load(f)

chatbot = context['chatbot']  # 获取对话记录
article = context['article']  # 获取原始文章
summarization = chatbot[0][-1]  # 获取摘要结果

# 生成 Gradio 的UI界面
with gr.Blocks() as demo:
    gr.Markdown("# 第1部分：摘要\n你可以查看文章和摘要！")
    chatbot = gr.Chatbot(value=context['chatbot'])  # 加载对话历史
    article_textbox = gr.Textbox(label="文章", interactive=False, value=context['article'])  # 显示原始文章

    # 构建展示摘要和原文的部分
    with gr.Column():
        gr.Markdown("# 只是一个检查")
        gr.Textbox(label="文章", value=article, show_copy_button=True)  # 显示并允许复制原文
        gr.Textbox(label="摘要", value=summarization, show_copy_button=True)  # 显示并允许复制摘要

# 启动 Gradio 界面
demo.launch(debug=True)

第2部分：角色扮演（多轮对话应用）

在此任务中，你需要将聊天机器人设定为角色扮演模式。你应该为它指定一个角色，然后通过提示让它进入该角色的状态。

你需要完成以下步骤：

想出一个你希望聊天机器人扮演的角色，以及一个使聊天机器人进入该角色的提示词。在 character_for_chatbot 中填写角色，在 prompt_for_roleplay 中填写提示词。
点击运行按钮，界面将弹出一个可交互的界面。
与聊天机器人进行 2 轮互动。在标为“输入”的框中输入你想说的话，然后点击“发送”按钮。（你可以使用“温度”滑块来控制输出的创造性。）
如果你想更改提示词或角色，可以停止单元格，返回TODO重新设置，然后重新运行单元格。
在你获得满意的结果后，点击“导出”按钮保存结果。文件列表中将出现一个名为 part2.json 的文件。

注意：

如果你再次点击“导出”按钮，之前的结果将被覆盖。
即使使用相同的提示词，输出的结果可能仍然不同。

在运行此单元格之前，请确保已运行 安装包 和 导入与设置。

记得在进行下一步前停止此单元格。

# TODO: 填写以下两行：character_for_chatbot 和 prompt_for_roleplay
# 第一个是你希望聊天机器人扮演的角色（注意，真正起作用的实际是prompt）
# 第二个是使聊天机器人扮演某个角色的提示词
character_for_chatbot = "面试官"
prompt_for_roleplay = "我需要你面试我有关AI的知识，仅提出问题"

# 清除对话的函数
def reset() -> List:
    return []

# 调用模型生成对话的函数
def interact_roleplay(chatbot: List[Tuple[str, str]], user_input: str, temp=1.0) -> List[Tuple[str, str]]:
    '''
    * 参数:

      - user_input: 每轮对话中的用户输入

      - temp: 模型的温度参数。温度用于控制聊天机器人的输出。温度越高，响应越具创造性。

    '''
    try:
        messages = []
        for input_text, response_text in chatbot:
            messages.append({'role': 'user', 'content': input_text})
            messages.append({'role': 'assistant', 'content': response_text})

        messages.append({'role': 'user', 'content': user_input})

        response = client.chat.completions.create(
            model="gpt-4o",  # github模型
            messages=messages,  # 包含用户的输入和对话历史
            temperature=temp,  # 使用温度参数控制创造性
            max_tokens=200,  # 控制输出的最大 token 数量
        )
        chatbot.append((user_input, response.choices[0].message.content))

    except Exception as e:
        print(f"发生错误：{e}")
        chatbot.append((user_input, f"抱歉，发生了错误：{e}"))
    return chatbot

# 导出整个对话记录的函数
def export_roleplay(chatbot: List[Tuple[str, str]], description: str) -> None:
    '''
    * 参数:

      - chatbot: 模型的对话记录，存储在元组列表中

      - description: 此任务的描述

    '''
    target = {"chatbot": chatbot, "description": description}
    with open("part2.json", "w") as file:
        json.dump(target, file)

# 进行第一次对话
first_dialogue = interact_roleplay([], prompt_for_roleplay)

# 生成 Gradio 的UI界面
with gr.Blocks() as demo:
    gr.Markdown(f"# 第2部分：角色扮演\n聊天机器人想和你玩一个角色扮演游戏，试着与它互动吧！")
    chatbot = gr.Chatbot(value=first_dialogue)
    description_textbox = gr.Textbox(label="机器人扮演的角色", interactive=False, value=f"{character_for_chatbot}")
    input_textbox = gr.Textbox(label="输入", value="")
    
    with gr.Column():
        gr.Markdown("# 温度调节\n温度用于控制聊天机器人的输出。温度越高，响应越具创造性。")
        temperature_slider = gr.Slider(0.0, 2.0, 1.0, step=0.1, label="温度")
    
    with gr.Row():
        sent_button = gr.Button(value="发送")
        reset_button = gr.Button(value="重置")
    
    with gr.Column():
        gr.Markdown("# 保存结果\n当你对结果满意后，点击导出按钮保存结果。")
        export_button = gr.Button(value="导出")

    # 连接按钮与函数
    sent_button.click(interact_roleplay, inputs=[chatbot, input_textbox, temperature_slider], outputs=[chatbot])
    reset_button.click(reset, outputs=[chatbot])
    export_button.click(export_roleplay, inputs=[chatbot, description_textbox])

# 启动 Gradio 界面
demo.launch(debug=True)

API测试

以chatGPT为例

#!pip install openai
#!pip install gradio

import os
import json
from typing import List, Dict, Tuple

import openai
import gradio as gr

###################################
#这里输入API和对应的网站


OPENAI_API_KEY = "自己的API"
OPENAI_API_WEB = "https://api.chatanywhere.tech"

# 不设置则默认使用环境变量
if not OPENAI_API_KEY:
    OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

client = openai.OpenAI(
    api_key=OPENAI_API_KEY,
    base_url=OPENAI_API_WEB,
)

# 检查是否正确设置了 API
# 如果一切正常，你将看到 "API 设置成功！！"
try:
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": "测试"}],  # 设置一个简单的测试消息
        max_tokens=1,
    )
    print("API 设置成功！！")  # 输出成功信息
except Exception as e:
    print(f"API 可能有问题，请检查：{e}")  # 输出详细的错误信息

如果API配置无误则会返回

API

github的api

免费，但有次数限制

https://github.com/marketplace/models/azure-openai/gpt-4o

base_url=”https://models.inference.ai.azure.com“

免费api

免费版支持gpt-3.5-turbo, embedding, gpt-4o-mini, gpt-4。其中gpt-4由于价格过高，每天限制3次调用（0点刷新）。需要更稳定快速的gpt-4请使用付费版

https://github.com/chatanywhere/GPT_API_free?tab=readme-ov-file

转发Host1: https://api.chatanywhere.tech (国内中转，延时更低)
转发Host2: https://api.chatanywhere.org (国外使用)

国家奖学金

2025-01-14T07:04:28.000Z

学生生涯的最大奖项

能拿到研究生国家奖学金对我来说也是莫大的荣幸，原本希望能够安稳的毕业，就算是我硕士求学的圆满结局了。

不曾想，恰好我和肖师姐的论文在暑假期间发表，凭借着二区SCI的的第一、二作者，让我也跻身到国家奖学金的行列，并且凭此获得了较多荣誉。

也是让家人有所期望，让我数年的求学生涯有所激励！

继续努力吧！😊

下个目标：顺利毕业+申请博士

宏基因组分析

2024-11-22T05:54:04.000Z

先使用rna-seq的环境

conda activate rna_p3

创建metagenomic分析环境

conda create -n metagenomic

conda activate metagenomic

安装kneaddata

conda install -c biobakery kneaddata

下载数据

参考： https://blog.csdn.net/Mr_pork/article/details/139743229

这是一个人类的结直肠癌的宏基因组数据，我们选择其中的10个样进行分析

需要数据的文件名，使用prefetch 下载数据，该软件在rna-seq的流程中有

SRA.txt

选择样本的metadata

nohup prefetch -f no --option-file SRA.txt &

可以加 -O 选择输出路径

-O|--output-directory <目录>：保存文件的目录。

直接在超算中输入命令下载，并没有使用sbatch提交作业命令

查看后台任务

jobs

#或者
ps -f

SRA文件转为FASTQ格式

单个转格式

慢的转换，太慢了，不建议使用

#将当前
fastq-dump --split-3 --gzip ./SRR12207279

使用这个转换，多线程转换格式，输出的为fq的文件

fasterq-dump --split-3 ./SRR12207283

批量转格式

小命令：删除当前目录SRR文件夹里的所有分文件夹，只保留其文件

find ./SRR -mindepth 1 -type d -exec sh -c 'mv {}/* ./SRR; rmdir {}' \;

fasterq-dump进行批量转换，将所有 .sra 文件都放在SRR文件夹里

# 设置输入目录
sra_dir="./SRR"

# 设置输出目录
output_dir="./fastq-result"

# 遍历目录中的所有.sra文件
for sra_file in $sra_dir/*.sra
do
    # 获取不带路径的文件名
    filename=$(basename "$sra_file" .sra)
    
    # 使用fasterq-dump处理每个文件
    fasterq-dump --outdir "$output_dir" --split-3 "$sra_file"
done

生成在当前路径 ./fastq-result 下的 fastq 文件

质控

也只是类似的序列文件，质控流程和转录组相似

fastp质控

此处为扩展学习

conda下载fastp

# note: the fastp version in bioconda may be not the latest
conda install -c bioconda fastp

单个

输入 -i -I 双端测序文件，输出 -o -O 质控处理后文件，和 json文件，fastp.html结果

fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

批量

# 创建清理后的文件夹
mkdir  clean-fastp

# 设置工作目录为fastq文件所在的目录
cd ./fastq-result/

# 遍历所有以_1.fastq结尾的文件
for file1 in *_1.fastq; do
    # 从文件名中提取没有_1的部分
    base=$(basename "$file1" _1.fastq)
    
    # 构建对应的_2.fastq文件名
    file2="${base}_2.fastq"
fileoo1="${base}_1.fq"
fileoo2="${base}_2.fq"
jsono="${base}.json"
htmlo="${base}.html"

    
    # 在后台执行检查和trim_galore命令
    (
        # 检查对应的_2.fastq文件是否存在
        if [ -e "$file2" ]; then
            # 如果存在，执行trim_galore命令
fastp -i "$file1"  -o ../clean-fastp/"$fileoo1" -I "$file2" -O ../clean-fastp/"$fileoo2"  --json  ../clean-fastp/"$jsono"  --html  ../clean-fastp/"$htmlo"
                    else
            # 如果不存在，打印错误信息
            echo "Error: No matching file found for $file1"
        fi
    ) &
done

# 等待所有后台进程完成
wait

multiqc汇总质控结果

multiqc ./fastq-result/ -o   ./fastq-result/

这个结果看不看无所谓，fastp是强大的质控软件，只要输入文件无误，结果也不会有问题

.fq 结尾的文件即为之后进行分析的，清洗之后的序列文件

去宿主-方法一

去宿主的过程其实就是将序列比对到宿主基因组上，然后没有比对到的序列整合成新文件就是去宿主后的了。宿主基因组需要自己先下载好并用 bowtie2-build 建立索引，以人类为例：

构建索引

在官网中找到自己的物种 https://hgdownload.soe.ucsc.edu/downloads.html

人的基因组 hg38

http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz

鼠的基因组 mm10

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz

wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz
tar -zxvf chromFa.tar.gz 
cat *.fa > hg38.fa
bowtie2-build hg38.fa hg38

自己构建索引有点慢

bowtie2比对,单个

参考 https://www.jianshu.com/p/fe9c5cc7373e

bowtie2 -p 20 -x /public/home/dk_szy/songxudong/metagenomic/db/hg37dec_v0.1 -1 data/fastp/${sample}_1.fq.gz \
    -2 data/fastp/${sample}_2.fq.gz -S data/rm_human/${sample}.sam \
    --un-conc data/rm_human/${sample}.fq --very-sensitive
  rm data/rm_human/${sample}.sam

bowtie2比对,批量

# 将工作目录设置为fastq文件所在的目录！！！！
mkdir rm_human

cd ./clean-fastp/

# 将传入的参数赋值给变量！！！！！
file1_pattern="_1.fq"
file2_pattern="_2.fq"

# 遍历所有以第一个参数模式结尾的文件
for file1 in *${file1_pattern}; do
    # 从文件名中提取去掉模式后的部分
    base=$(basename "$file1" ${file1_pattern})
    # 构建对应的第二个参数模式的文件名
    file2="${base}${file2_pattern}"

    # 在后台执行检查和trim_galore命令
    (
        # 检查对应的文件是否存在
        if [ -e "$file2" ]; then
echo "找到名为 "$base" 的文件 $file1 对应 $file2 "
            # 如果存在，例如，执行trim_galore命令！！！！！！
            bowtie2 -p 20 -x /public/home/dk_szy/songxudong/metagenomic/db/hg37dec_v0.1 -1 "$file1" \
    -2  "$file2" -S ${base}.sam \
    --un-conc ../rm_human/${base}.fq --very-sensitive
  rm ${base}.sam
            
            
        else
            # 如果不存在，打印错误信息
            echo "错误: 未找到与 $file1 匹配的文件"
        fi
    ) &
done

# 等待所有后台进程完成
wait

#使用hisat2直接用构建好的索引进行比对

尝试使用建立好的索引进行比对


mkdir -p ./align/flag
cd ./align/
pwd

##参考基因组的位置
index='/public/home/dk_szy/songxudong/rna-test/reference/human-UCSC-hg38/hg38/genome'

# 假设你的fastq文件在fastq-result文件夹中
fastq_dir="../clean-fastp"

# 遍历fastq-result文件夹中的所有1.fastq文件
for file1 in $fastq_dir/*_1.fq; do
    # 从1.fastq文件名中提取ID，并删除_1_val_1
    id=$(basename "$file1" .fq | sed 's/_1_val_1//')
    
    # 查找对应的2.fastq文件
    file2="$fastq_dir/${id}_2.fq"
    
    # 检查2.fastq文件是否存在
    if [ -f "$file2" ]; then
        echo "333#  ${id}  ！！！！！ is on the hisat2 Working !!!"
        
        # 使用hisat2进行比对，并指定输出目录为当前目录（./align/）
        hisat2 -t -p 20  -x $index \
            -1 "$file1" \
            -2 "$file2"  -S  "${id}.sam" 
        
        # sam2bam and remove sam，指定输出目录为当前目录（./align/）
        echo -e " ${id} sam2bam and remove sam   "
        samtools view -F 12 -@ 12 -b "./${id}.sam" > "./${id}_sorted.bam"
        rm "./${id}.sam"
    else
        echo "No matching 2.fastq file found for $file1"
    fi
done

#去宿主-方法二 kneaddata

使用 kneaddata进行质控和去宿主

kneaddata自带的参考序列有限，主要为人和小鼠，其他的需要自己构建

#查看有哪些数据库
kneaddata_database

下载人的参考序列，速度似乎还可以

mkdir -p db

kneaddata_database --download human_genome bowtie2 db/

kneaddata -i seq/C2_1.fq.gz -i seq/C2_2.fq.gz

 -o qc/ -v -t 8 --remove-intermediate-output

 --trimmomatic ~/.conda/envs/qc2/share/trimmomatic

 --trimmomatic-options 'ILLUMINACLIP:~/.conda/envs/qc2/share/trimmomatic/adapters/TruSeq3-PE.fa:2:40:15 SLIDINGWINDOW:4:20 MINLEN:50'

 --bowtie2-options '--very-sensitive --dovetail'

 --bowtie2-options="--reorder"

 -db db/Homo_sapiens

物种注释：kraken2

参考：https://www.jianshu.com/p/fe9c5cc7373e

Kraken2是一个用于对高通量测序数据进行分类和标识物种的软件。它使用参考数据库中的基因组序列来进行分类，并使用k-mer方法来实现快速和准确的分类。

使用Kraken2进行基本分类的简单步骤：

安装Kraken2：可以从Kraken2官方网站下载并安装Kraken2软件。

conda install bioconda::kraken2

准备参考数据库：Kraken2需要一个参考数据库，以便对测序数据进行分类。可以直接下载官方构建的标准库，也可以从NCBI、Ensembl或其他数据库下载相应的基因组序列，并使用Kraken2内置的工具来构建数据库。

--standard标准模式下只下载5种数据库：古菌archaea、细菌bacteria、人类human、载体UniVec_Core、病毒viral。

#超算中未成功，选择自行下载
#kraken2-build --standard --threads 20 --db ./

选择自行下载网站： https://benlangmead.github.io/aws-indexes/k2

下载Standard 文件大小 90G

#自行下载命令
wget -c https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20240605.tar.gz

#运行Kraken2：使用Kraken2对测序数据进行分类需要使用以下命令：

kraken2 --db   --output

这里，是参考数据库的路径，是需要进行分类的输入文件，是输出文件的名称。Kraken2将输出一个分类报告文件和一个序列文件。

需要注意的是kraken运行至少要提供数据库大小的内存大小（运行内存），因为它会把整个数据库载入内存后进行序列的注释，所以如果发现无法载入数据库的报错，可以尝试调大内存资源。

单个比对

第二行- -db 为存放参考索引的文件夹

kraken2 --threads 20 \
    --db /public/home/dk_szy/songxudong/metagenomic/test \
    --confidence 0.05 \
    --output ./result/test.output \
    --report ./report/test.kreport \
    --paired \
    ../rm_human/ERR1018185.1.fq \
    ../rm_human/ERR1018185.2.fq

批量比对

mkdir kraken-result
# 将工作目录设置为fastq文件所在的目录！！！！
cd ./rm_human/

# 将传入的参数赋值给变量！！！！！
file1_pattern=".1.fq"
file2_pattern=".2.fq"

# 遍历所有以第一个参数模式结尾的文件
for file1 in *${file1_pattern}; do
    # 从文件名中提取去掉模式后的部分
    base=$(basename "$file1" ${file1_pattern})
    # 构建对应的第二个参数模式的文件名
    file2="${base}${file2_pattern}"

    # 在后台执行检查和trim_galore命令
    (
        # 检查对应的文件是否存在
        if [ -e "$file2" ]; then
echo "找到名为 "$base" 的文件 $file1 对应 $file2 "
            # 如果存在，例如，执行trim_galore命令！！！！！！
            #trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ../clean_data/ "$file1" "$file2"
  kraken2 --threads 20 \
    --db /public/home/dk_szy/songxudong/metagenomic/test \
    --confidence 0.05 \
    --output ../kraken-result/${base}.output \
    --report ../kraken-result/${base}.kreport \
    --paired \
    ./${file1} \
    ./${file2}

echo "文件 "$base" 运行完毕 "
        else
            # 如果不存在，打印错误信息
            echo "错误: 未找到与 $file1 匹配的文件"
        fi
    ) &
done

# 等待所有后台进程完成
wait

物种组成及丰度估计

只能说宏基因组的教程也太水了，未找到对结果的处理部分

使用教程：https://www.jianshu.com/nb/54122549

运行 bracken 进行各个分类水平物种丰度估计：

先安装 bracken

conda install bioconda::bracken

运行 bracken 进行各个分类水平物种丰度估计：

mkdir out


# 将工作目录设置为fastq文件所在的目录
cd ./kraken-result/

# 将传入的参数赋值给变量
file1_pattern=".kreport"

# 遍历所有以第一个参数模式结尾的文件
for file1 in *${file1_pattern}; do
    # 从文件名中提取去掉模式后的部分
    base=$(basename "$file1" ${file1_pattern})
    
    # 直接执行trim_galore命令，不需要检查对应的file2是否存在
    (
        echo "找到名为 $base 的文件 $file1"
        #循环执行代码区
        # 运行bracken
bracken \
-d /public/home/dk_szy/songxudong/metagenomic/test \
-i ${base}.kreport \
-o ../out/${base}.bracken.S \
-w ../out/${base}.bracken.S.kreport \
-l S \
-t 20 
    ) &
done

# 等待所有后台进程完成
wait

结果整理

安装kraken-biom

conda install bioconda::kraken-biom

# report文件合并成biom格式
kraken-biom \
./out/*.kreport \
--max D \
-o ./out/S.biom

# biom转count表格
# 注意：这里假设convert是指向biom转换为tsv的工具，不是ImageMagick的convert
# 如果是ImageMagick的convert，那么下面的命令是错误的
# 正确的命令应该是直接使用biom工具进行转换
biom convert \
-i ./out/S.biom \
-o ./out/S.count.tsv.tmp \
--to-tsv \
--header-key taxonomy

# 输出文件格式调整，补全物种名
sed 's/; g__; s__/; g__; s__ /' ./out/S.count.tsv.tmp \
> ./out/S.taxID.count.tsv

# taxonID 替换回拉丁名
sed '/^#/! s/^[[0-9]]+\t\(.*[A-Za-z]__\([^\t;]\+\)\)$/\2\t\1/' \
./out/S.taxID.count.tsv > ./out/S.taxName.count.tsv

# 保留丰度信息，用于后续绘图
sed '1d; 2s/^#//' ./out/S.taxName.count.tsv | \
awk -F $'\t' -v 'OFS=\t' '{$NF = ""; print $0}' | \
sed 's/\t$//' > ./out/S.count.tsv

输出结果：
S.taxName.count.tsv 为包含物种分类信息的丰度文件,可以用此结果绘制物种堆积图
S.count.tsv 为去除物种分类信息的丰度文件

暂未准备绘图代码

a多样性

教程中未具体讲解方法，但是提到使用 vegan 及 phyloseq 两个 R 包进行多样性分析

使用16s做过的方法进行分析

OTU文件 S.count.tsv

分组文件 group.txt

R语言

getwd()
setwd("D:/rtest/songtest/metagenomic")

# 安装和加载必要的包
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("phyloseq")
rm(list=ls())
library(vegan)
library(reshape2)
library(ggplot2)
library(ggpubr)
library(RColorBrewer)

data <- read.delim("D:/rtest/songtest/metagenomic/S.count.txt",header=TRUE,sep="\t",row.names=1)
group <- read.delim("D:/rtest/songtest/metagenomic/group.txt")
#抽平
otu <- data
#求和查看每个样本的和
colSums(data)
#使用该代码进行抽平
otu_Flattening = as.data.frame(t(rrarefy(t(otu), min(colSums(otu)))))
#查看抽平后的每个样本的和
colSums(otu_Flattening)
data <- otu_Flattening

ttdata <- t(data)
data<-data/apply(data,2,sum)
tdata=t(data)
a<-as.data.frame(tdata)
a=as.data.frame(lapply(a,as.numeric))

shannon<-diversity(a,index="shannon")
simpson<-diversity(a,index="simpson")
Chao1  <- estimateR(ttdata)[2, ]
ACE  <- estimateR(ttdata)[4, ]
invsimpson<-diversity(a,index="invsimpson")

data_shannon=data.frame(shannon)
data_simpson=data.frame(simpson)
data_Chao1=data.frame(Chao1)
data_ACE=data.frame(ACE)
data_invsimpson=data.frame(invsimpson)

spe_alpha<-cbind(
  data_shannon,
  data_simpson,
  data_invsimpson,
  data_Chao1,
  data_ACE,
  group
)

物种分类结果整理

还是使用之前16s的方法

使用上面的 S.taxName.count.tsv 为包含物种分类信息的丰度文件,可以用此结果绘制物种堆积图

setwd("D:/rtest/songtest/metagenomic/lefse")

#taxon_data <- read.csv("merged_otu_taxonomy.csv", stringsAsFactors = FALSE,row.names = 1)
taxon_data <- read.delim("D:/rtest/songtest/metagenomic/lefse/S.taxName.count.tsv", row.names=1)
taxon_data$kingdom <- sapply(strsplit(taxon_data$taxonomy, ";"), `[`, 1)
taxon_data$phylum <- sapply(strsplit(taxon_data$taxonomy, ";"), `[`, 2)
taxon_data$class <- sapply(strsplit(taxon_data$taxonomy, ";"), `[`, 3)
taxon_data$order <- sapply(strsplit(taxon_data$taxonomy, ";"), `[`, 4)
taxon_data$family <- sapply(strsplit(taxon_data$taxonomy, ";"), `[`, 5)
taxon_data$genus <- sapply(strsplit(taxon_data$taxonomy, ";"), `[`, 6)
taxon_data$species <- sapply(strsplit(taxon_data$taxonomy, ";"), `[`, 7)

write.csv(taxon_data,file = "otu-result.csv") #保存

导出分类好的 otu-result.csv 文件

得到每个水平的结果

界（Kingdom）、门（Phylum）、纲（Class）、目（Order）、科（Family）、属（Genus）、种（Species）

16s只能注释到属（Genus）水平的结果，虽然我们有属水平的文件，但是是没有相应的可用结果

# 载入必要的库
library(dplyr)

# 读取数据
otu_data <- read.csv("otu-result.csv", header = TRUE, row.names = 1)

# 移除Confidence列
otu_data <- otu_data[!names(otu_data) %in% "Confidence"]

# 删除kingdom等于"Unassigned"的行
otu_data <- otu_data[otu_data$kingdom != "Unassigned", ]

# 分类级别列表
taxonomic_levels <- c("phylum", "class", "order", "family", "genus", "species")

# 上一层级名称
previous_level <- "kingdom"

# 遍历每个分类级别，进行分组和求和，并保存到CSV文件
for (i in seq_along(taxonomic_levels)) {
  current_level <- taxonomic_levels[i]
  
  # 确保当前层级和上一层级列存在并且数据类型正确
  otu_data[[current_level]] <- as.character(otu_data[[current_level]])
  otu_data[[previous_level]] <- as.character(otu_data[[previous_level]])
  
  # 对当前层级列进行分组并求和，同时保留上一层级信息
  summary_data <- otu_data %>%
    group_by(!!sym(previous_level), !!sym(current_level)) %>%
    summarise(across(where(is.numeric), sum, na.rm = TRUE)) %>%
    ungroup()
  
  # 生成文件名
  csv_filename <- paste0(previous_level, "_", current_level, ".csv")
  
  # 保存结果到CSV文件
  write.csv(summary_data, csv_filename, row.names = FALSE)
  
  # 更新上一层级为当前层级
  previous_level <- current_level
}

基因组组装

https://www.jianshu.com/p/77131fa96caa

使用 megahit 进行组装:

安装

conda activate metagenomic

conda install bioconda::megahit

单个的示例

megahit \
-1 ./A1_1.fq.gz \ # 输入，fq1
-2 ./A1_2.fq.gz \ # 输入，fq2
--min-contig-len 1000 \ # contig最小长度
--tmp-dir ./ \ # 设置tmp目录
--memory 6 \ # 内存占用
--num-cpu-threads 4 \ # 线程数
--out-dir A1_megahit \ # 输出目录
--out-prefix A1 # 输出前缀
## 多组数据组装, 输入数据逗号分隔

批量组装

要求：输出文件夹会自动创建，开始时不需要存在

# 将工作目录设置为fastq文件所在的目录！！！！
cd ./fastq-result/

# 将传入的参数赋值给变量！！！！！
file1_pattern=".1.fq"
file2_pattern=".2.fq"

#${file1}
#${file2}
#${base}
# 遍历所有以第一个参数模式结尾的文件
for file1 in *${file1_pattern}; do
    # 从文件名中提取去掉模式后的部分
    base=$(basename "$file1" ${file1_pattern})
    # 构建对应的第二个参数模式的文件名
    file2="${base}${file2_pattern}"

    # 在后台执行检查和trim_galore命令
    (
        # 检查对应的文件是否存在
        if [ -e "$file2" ]; then
echo "找到名为 "$base" 的文件 $file1 对应 $file2 "
            # 如果存在，例如，执行trim_galore命令！！！！！！
            #trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ../clean_data/ "$file1" "$file2"
            megahit \
-1 ./rm_human/${file1} \
-2 ./rm_human/${file2} \
--min-contig-len 1000 \
--tmp-dir ./ \
--memory 6 \
--num-cpu-threads 20 \
--out-dir ./megahit-result/  \
--out-prefix ${base}

        else
            # 如果不存在，打印错误信息
            echo "错误: 未找到与 $file1 匹配的文件"
        fi
    ) &
done

# 等待所有后台进程完成
wait

Lefse

参考： https://blog.csdn.net/a852232394/article/details/139296579?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EYuanLiJiHua%7EPosition-2-139296579-blog-126683847.235%5Ev43%5Econtrol&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EYuanLiJiHua%7EPosition-2-139296579-blog-126683847.235%5Ev43%5Econtrol&utm_relevant_index=5

需要3个输入文件

sample_table.csv

feature_table.csv

tax_table.csv

rm(list=ls())
pacman::p_load(tidyverse,microeco,magrittr)

feature_table <- read.csv('feature_table.csv', row.names = 1)
sample_table <- read.csv('sample_table.csv', row.names = 1)
tax_table <- read.csv('tax_table.csv', row.names = 1)

head(feature_table)[,1:6]; head(sample_table); head(tax_table)[,1:6]

dataset <- microtable$new(sample_table = sample_table,
                          otu_table = feature_table, 
                          tax_table = tax_table)
dataset

lefse <- trans_diff$new(dataset = dataset, 
                        method = "lefse", 
                        group = "Group", 
                        #过少可增大下面选项
                        alpha = 0.1, 
                        lefse_subgroup = NULL)

write.csv(lefse$res_diff,file = "lefse-lda.csv") #保存
write.csv(lefse$abund_table,file = "lefse-input.csv") #保存

分析出初步结果

lefse-lda.csv LDA，可自行画图

lefse-input.csv lefse输入文件，可在在线网站进行可视化或者R可视化

在线绘制

复制 lefse-input.csv 内容，进行修改

https://www.bic.ac.cn/BIC/#/

找到lefse选项

主要是更改第一行的列名，定义分组

检查数据可用后可直接出结果

（某些未知的菌可在原始数据中提前删除）

在线网站的编辑功能好像更强大了，作图方便建议采用

R绘制

https://blog.csdn.net/a852232394/article/details/139296579?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2~~default~~YuanLiJiHua~~Position-2-139296579-blog-126683847.235%5Ev43%5Econtrol&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~~default~~YuanLiJiHua~~Position-2-139296579-blog-126683847.235%5Ev43%5Econtrol&utm_relevant_index=5

使用 microeco包自带的绘图，并不算好看，可进行美化或使用原始数据自行绘图

LDA

##use_number 为显示的个数
##group_order 为自己的分组
lefse$plot_diff_bar(use_number = 1:20, 
                    width = 0.8, 
                    group_order = c("subject-1", "subject-2"))

lefse

library(ggtree)
lefse$plot_diff_cladogram(use_taxa_num = 200, 
                       use_feature_num = 50, 
                       clade_label_level = 5, 
                       group_order =  c("subject-1", "subject-2"))

翻译组分析流程

2024-11-18T04:07:58.000Z

Ribo-seq的介绍

https://www.cell.com/cell-metabolism/fulltext/S1550-4131(22)00541-1?uuid=uuid%3A1357b65f-e2ff-45e2-a40c-7a90f3170be5#mmc2

核糖体分析 (Ribo-seq) 和蛋白质基因组学的最新进展已经鉴定出数千种未注释的肽和小蛋白质、微生物蛋白质 (MP)，由哺乳动物基因组中的小开放阅读框 (smORF) 编码。

核糖体分析，也称为 Ribo-seq，可生成核糖体保护 RNA 片段 (RPF) 的全基因组分配和定量，从而提供整个转录组的翻译（翻译组）的实时快照。

RFs（Ribosome footprints）：核糖体足迹

使用rna-seq的环境

conda activate rna_p3

测试

参考文章

https://www.sciencedirect.com/science/article/pii/S1525001621001337?via%3Dihub#mmc1

参考数据

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE155899

后台批量下载

nohup prefetch -f no --option-file SRA.txt &

SRA文件转为FASTQ格式

单个转格式

慢的转换，太慢了，不建议使用

#将当前
fastq-dump --split-3 --gzip ./SRR12207279

使用这个转换，多线程转换格式，输出的为fq的文件

fasterq-dump --split-3 ./SRR12207283

批量转格式

小命令：删除当前目录SRR文件夹里的所有分文件夹，只保留其文件

find ./SRR -mindepth 1 -type d -exec sh -c 'mv {}/* ./SRR; rmdir {}' \;

fasterq-dump进行批量转换，将所有 .sra 文件都放在SRR文件夹里

# 设置输入目录
sra_dir="./SRR"

# 设置输出目录
output_dir="./fastq-result"

# 遍历目录中的所有.sra文件
for sra_file in $sra_dir/*.sra
do
    # 获取不带路径的文件名
    filename=$(basename "$sra_file" .sra)
    
    # 使用fasterq-dump处理每个文件
    fasterq-dump --outdir "$output_dir" --split-3 "$sra_file"
done

生成在当前路径 ./fastq-result 下的 fastq 文件

下载rRNA序列

参考 https://www.jianshu.com/p/10477f96f12e

cutadapt过滤序列

-u 4 \ 可能并不需要

mkdir cutadapt-result
# 将工作目录设置为fastq文件所在的目录
cd ./fastq-result/

# 将传入的参数赋值给变量
file1_pattern=".fastq"

# 遍历所有以第一个参数模式结尾的文件
for file1 in *${file1_pattern}; do
    # 从文件名中提取去掉模式后的部分
    base=$(basename "$file1" ${file1_pattern})
    
    # 直接执行trim_galore命令，不需要检查对应的file2是否存在
    (
        echo "找到名为 $base 的文件 $file1"
        #循环执行代码区
        #trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ../clean_data/ "$file1" "$file2"
cutadapt -j 20 \
  -a "TGGAATTCTCGGGTGCCAAGG" \
  -u 4 \
  -m 24 \
  -M 35 \
  -q 20 \
  --match-read-wildcards \
  --max-n 0.25 \
  -o ../cutadapt-result/${base}_clear.fastq \
  ./${file1}
    ) &
done

# 等待所有后台进程完成
wait

建立rRNA索引

bowtie2-build rRNA.fasta rattrna

bowtie2比对，删除rRNA序列

mkdir bowtie-resule
# 将工作目录设置为fastq文件所在的目录
cd ./cutadapt-result/

# 将传入的参数赋值给变量
file1_pattern="_clear.fastq"

# 遍历所有以第一个参数模式结尾的文件
for file1 in *${file1_pattern}; do
    # 从文件名中提取去掉模式后的部分
    base=$(basename "$file1" ${file1_pattern})
    
    # 直接执行trim_galore命令，不需要检查对应的file2是否存在
    (
        echo "找到名为 $base 的文件 $file1"
        #循环执行代码区
        #trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ../clean_data/ "$file1" "$file2"
bowtie2 -x /public/home/dk_szy/songxudong/riboseq/rRNA/rattrna --un-gz ../bowtie-resule/${base}.fastq.gz -U ./${file1} -p 20 -S ../bowtie-resule/${base}.sam

    ) &
done

# 等待所有后台进程完成
wait

STAR比对到测序物种基因组

按照网上教程所说，STAR的运行速度是最快的，只是对性能和内存的要求比较高

参考： https://www.jianshu.com/p/5b6dfc954315

安装

conda install bioconda::star

下载参考基因组

参考物种为大鼠： Rattus norvegicus

在ensebml中下载： https://asia.ensembl.org/Rattus_norvegicus/Info/Index

下载 Rattus_norvegicus.mRatBN7.2.dna.toplevel.fa.gz

Rattus_norvegicus.mRatBN7.2.112.gtf.gz

#后台下载
nohup wget -c https://ftp.ensembl.org/pub/release-112/fasta/rattus_norvegicus/dna/Rattus_norvegicus.mRatBN7.2.dna.toplevel.fa.gz &
nohup wget -c https://ftp.ensembl.org/pub/release-112/gtf/rattus_norvegicus/Rattus_norvegicus.mRatBN7.2.112.gtf.gz &

构建索引

将参考基因组和注释解压缩

先统计读取序列的最大长度，决定STAR 的 –sjdbOverhang 参数

https://blog.csdn.net/qazplm12_3/article/details/119687084

conda install -c bioconda seqkit

seqkit stat *.fastq

可见我们的翻译组最大读长为 31，我们设置 –sjdbOverhang 30

https://www.jianshu.com/p/9bdad4a4f98f

gzip -c -d Rattus_norvegicus.mRatBN7.2.112.gtf.gz
gzip -c -d Rattus_norvegicus.mRatBN7.2.dna.toplevel.fa.gz

cd reference

STAR \
    --runMode genomeGenerate \
    --runThreadN 20 \
    --genomeDir ./ \
    --genomeFastaFiles ./Rattus_norvegicus.mRatBN7.2.dna.toplevel.fa \
    --sjdbGTFfile ./Rattus_norvegicus.mRatBN7.2.112.gtf \
    --sjdbOverhang 30

花费20分钟，较其他的软件确实快点

结果，包括序列和注释18个文件

序列比对

参数参考文章

单个

STAR --outSAMtype BAM SortedByCoordinate \
--runThreadN 20 \
--genomeDir ./reference \
--outFilterMismatchNmax 2 \
--outFilterMultimapNmax 5 \
--outFilterMatchNmin 16 \
--alignEndsType EndToEnd \
--readFilesIn  ./bowtie-resule/SRR12414240.fastq \
--outFileNamePrefix ./star-result/star_output_

批量

# 将工作目录设置为fastq文件所在的目录
cd ./bowtie-resule/

# 将传入的参数赋值给变量
file1_pattern=".fastq"

# 遍历所有以第一个参数模式结尾的文件
for file1 in *${file1_pattern}; do
    # 从文件名中提取去掉模式后的部分
    base=$(basename "$file1" ${file1_pattern})
    
    # 直接执行trim_galore命令，不需要检查对应的file2是否存在
    (
        echo "找到名为 $base 的文件 $file1"
        #循环执行代码区
        #trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ../clean_data/ "$file1" "$file2"
        STAR --outSAMtype BAM SortedByCoordinate \
--runThreadN 20 \
--genomeDir ../reference \
--outFilterMismatchNmax 2 \
--outFilterMultimapNmax 5 \
--outFilterMatchNmin 16 \
--alignEndsType EndToEnd \
--quantMode TranscriptomeSAM \
--readFilesIn  ./${file1} \
--outFileNamePrefix ../star-result/${base}
    ) &
done

# 等待所有后台进程完成
wait

得到的 SRR12414240Aligned.toTranscriptome.out.bam

是我们需要的转录本 ribocode 的输入文件

生成表达矩阵

gtf='/public/home/dk_szy/songxudong/rna-test/reference/gft/mm10.refGene.gtf.gz'

mkdir  -p  ./counts

cd ./counts

pwd

featureCounts -T  20  -p  -a  $gtf  -o  counts.txt  ../align/*.bam

multiqc ./

echo -e " \n \n \n ALL WORK DONE !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!  \n "

Ribocode分析

参考官方流程: https://github.com/zhengtaoxiao/RiboCode

清华大学教程：https://book.ncrnalab.org/teaching/part-iii.-ngs-data-analyses/7.rna-regulation-ii/ribo_seq

conda安装

#不使用，conda安装使用软件时依旧有报错，参考下面通过源码安装

软件对python的版本有要求，单独创建环境

conda create -n ribocode python=2.7

打开环境

conda activate ribocode

安装Ribocode

conda install -c bioconda ribocode

补充修改

注意：该软件使用不成功主要为兼容性问题，我采取了conda指定 python=2.7，并且安装 numpy=1.16.5 的方式

conda update h5py
conda install numpy=1.16.5

#源码安装（可选）

目前还是报错，参考其他教程说可能是脚本的python版本太早，具体问题不清楚

下载 RiboCode-1.2.13.tar.gz

pip install --user  RiboCode-*.tar.gz

添加环境变量

export PATH=$PATH:$HOME/.local/bin/
export PYTHONPATH=$HOME/.local/lib/python2.7

source ~/.bashrc

准备注释文件

进入环境

conda activate ribocode

prepare_transcripts -g ./reference/Rattus_norvegicus.mRatBN7.2.112.gtf -f ./reference/Rattus_norvegicus.mRatBN7.2.dna.toplevel.fa -o ./ribocode-seference

选择RPF读数的长度范围并识别P位点位置

（与P点结合的位置位于整个RFs第13-15个碱基的位置——基迪奥生物）

在这一步花费了过多时间，

主要原因是 python的版本和上一步中STAR的输出文件，需要为转录组的文件–quantMode TranscriptomeSAM \ 为重要参数

(ribocode) [dk_szy@login1 riboseq]$ python --version
Python 2.7.18 :: Anaconda, Inc.

单个

metaplots -a ./ribocode-seference/ -r ./star-result/SRR12414240Aligned.toTranscriptome.out.bam \
-o ./test/ \
-m 26 -M 50 -s yes -pv1 1 -pv2 1

批量

需要提供 “-i”参数指定一个包含这些bam文件名称的文本文件（每行一个文件）

cd ./star-result/
metaplots -a ./ribocode-seference/ -i ./test.txt \
-o ./test/ \
-m 26 -M 50 -s yes -pv1 1 -pv2 1

_pre_config.txt可用来做

使用核糖体分析数据检测翻译的ORF：

需要准备config.txt文件，内容从上一部的_pre_config.txt中得到，尽量不要修改，直接复制每个的结果即可，不然可能因为缩进等未知原因报错

放在序列文件中

例如：

# List the ribosome profiling bam/sam files below and specify the lengths and P-site locations of alignment reads which
# are most likely originated from the translating ribosomes. If multiple files are defined, their P-site densities along
# each nucleotide would be added together.


# Explanation of each column:
# 1. SampleName: specify a name for each sample
# 2. AlignmentFile: ribosome profiling alignment file (bam or sam format) at the transcript-level
# 3. Stranded: Strandedness. Specify 'yes' for stranded interpretation, 'reverse' for reversed strand interpretation, or
#              "no" for non strand-specific libraries.
# 4,5. P-siteReadLength, and P-siteOffsets: the read lengths and P-sites locations.
#      Both of them can be estimated by perform the metagene analysis using our package.
#      List all lengths or P-site locations which separated by ",".

# SampleNameAlignmentFileStranded(yes/reverse)P-siteReadLengthP-siteLocations
SRR12414240Aligned.toTranscriptome.outSRR12414240Aligned.toTranscriptome.out.bamyes28,29,30,31,32,33,34,3512,12,12,12,12,12,12,12
SRR12414241Aligned.toTranscriptome.outSRR12414241Aligned.toTranscriptome.out.bamyes28,29,30,31,32,3512,12,12,12,12,15
SRR12414242Aligned.toTranscriptome.outSRR12414242Aligned.toTranscriptome.out.bamyes28,29,30,3112,12,12,12
SRR12414243Aligned.toTranscriptome.outSRR12414243Aligned.toTranscriptome.out.bamyes28,29,30,31,33,3412,12,12,12,12,12

命令

RiboCode -a ../ribocode-seference/  -c ./config.txt -l no -g -o ../test/

测序长度计数

使用 seqkit 对我们使用 bowtie2 筛选后的结果进行统计

seqkit fx2tab -j 20 -l -n -i -H ./bowtie-resule/*.fastq | cut -f 2 | sort | uniq -c > sum.txt

得到 sum.txt 文件，包含序列长度统计信息

计算翻译效率

未尝试

参考： https://book.ncrnalab.org/teaching/part-iii.-ngs-data-analyses/7.rna-regulation-ii/ribo_seq

library(xtail)
ribo <- read.table('Ribo_count.txt',header=T, quote='',check.names=F, sep='\t',row.names=1)
mrna <- read.table('RNA_count.txt',header=T, quote='',check.names=F, sep='\t',row.names=1)

ribo <- ribo[,c("wtnouvb1","wtnouvb2","wtnouvb3","wtuvb1","wtuvb2","wtuvb3")]
mrna <- mrna[c("CD1_1","CD1_2","CD1_3","CD0_1","CD0_2","CD0_3")]

condition <- c("control","control","control","treat","treat","treat")
results <- xtail(mrna,ribo,condition,minMeanCount=1,bins=10000)
results_tab <- resultsTable(results,sort.by="pvalue.adjust",log2FCs=TRUE, log2Rs=TRUE)
write.table(results_tab,"TE.xls",quote=F,sep="\t")

ChatGPT根据参考文章提供的内容

# 使用Cutadapt进行质量控制
cutadapt -j 4 \
  -a "TGGAATTCTCGGGTGCCAAGG" \
  -u 4 \
  -m 24 \
  -M 35 \
  -q 20 \
  --match-read-wildcards \
  --max-n 0.25 \
  -o trimmed_reads.fastq \
  input_reads.fastq

# 使用bowtie去除rRNA序列
bowtie -p 4 \
  -v 2 \
  -m 1 \
  --un non_rRNA_reads.fastq \
  path_to_index/rRNA_index \
  trimmed_reads.fastq

# 使用STAR将剩余的reads映射到大鼠基因组
STAR --runThreadN 4 \
  --genomeDir path_to_STAR_index \
  --readFilesIn non_rRNA_reads.fastq \
  --outFileNamePrefix star_output_ \
  --outFilterMismatchNmax 2 \
  --outFilterMultimapNmax 5 \
  --outFilterMatchNmin 16 \
  --alignEndsType EndToEnd

# 使用RiboCode进行ORF的识别和定量
RiboCode.py -c config_file.txt \
  -l no \
  -m 10 \
  -g \
  -b \
  -A "CTG,GTG,TTG" \
  path_to_STAR_output/Aligned.out.sam

# 使用Ribodiff分析ORFs的TE
Ribodiff.py -i RiboCode_output_ORFs.txt \
  -o Ribodiff_output.txt

# 分析RNAs-seq和Ribo-seq重复样本之间的相关性
# 这一步通常需要自定义脚本或使用统计软件，这里只是一个示例命令
Rscript analyze_correlation.R Ribo-seq_data.txt RNA-seq_data.txt

绘图

序列长度统计

seqkit fx2tab -j 30 -l  -n -i -H file.fastq.gz  > Length.txt

编码的保守性

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9889109/

使用tblastn 进行分析

复制编码smORF的蛋白序列

之前 _collapsed.txt 的文件

进入网站

https://blast.ncbi.nlm.nih.gov/Blast.cgi

AutoDock分子对接

2024-11-16T04:17:02.000Z

文件下载

下载PDB文件

以eEF2K和橄榄苦苷为例进行对接

eEF2K的文件，eEF2K-TR，无ATP，ADP的结构，包含CaM

https://www.rcsb.org/structure/7SHQ

下载PDB Format

橄榄苦苷的文件Oleuropein

https://pubchem.ncbi.nlm.nih.gov/compound/5281544

下载2D Structure

将文件放在Autodock工作目录（不能有中文路径）

格式转化

使用Open Babel将Oleuropein的sdf文件转化为autodock可用的pdb文件

选择input和output的格式和目录，点击CONVERT进行转换

Autodock对接

软件启动

记得关闭AMD显卡和联想电脑管家

参考：https://www.zhihu.com/question/393216168

对接流程

参考：https://zhuanlan.zhihu.com/p/662465038

打开autodock软件

首先，设置路径，file->perfernce->set,出现下图界面，选择startup directory，把我们刚刚含有5个文件的文件路径拷贝进来。

然后点击Make Default,将它设置为默认路径。

3.对蛋白质进行前处理。点击file->read molecule，选择蛋白质分子

首先，对蛋白质进行除水加氢键。点击edit->delete water，edit->hydrogens->add->ok

把它选择为大分子，点击grid->macromolecules->choose,选择大分子，点击select molecule

得到蛋白质的pdbqt的一个文件，保存即可（注意不要出现特殊符号，下图中的—就有可能导致运行错误）

4.对小分子处理，然后把蛋白质删掉，edit->delete,导入小分子，与蛋白质导入相同的步骤，同样的进行加氢处理，ligand->input->choose,选择小分子作为ligand，同时对扭转键进行检测。ligand->torsion tree->detect root

ligand->torsion tree->choose torsions

done

红色的是不可以被扭转的，绿色的是可以扭转的

输出小分子，ligand->output->save as PDBQT,得到小分子的pdbqt格式的文件。

四，开始对接。

删掉当前的小分子。

先把蛋白质导入进来，点击Grid->macromolecules->open,选择蛋白质大分子。后面出现的选项全部选择yes，确定。

接着导入小分子，Grid->set map types->open ligand

此时开始对接，对参数进行一些设置，点击grid->grid box出现一个立方体

由于我们不知道大概的结合位点在哪里，需要调节这个三位参数，把蛋白质和小分子都包含在内，可以通过旋转观察否包含在内。

到这个程度就可以了。

点击dejavu gui，即这个图标

点击root,选择小分子，把图中的对钩取消勾选

此时，用右键把小分子拖出到立方体外，此时，再把刚刚取消勾选的√给勾上。再点击刚刚打开窗口的file，close saving current

点击grid->output->save GPF

保存为1，后缀如果不能正常出现的话，手动输入后缀gpf。

点击保存（注意，不要出现中文字符或者空格以及特殊符号）

点击run->autogrid

browse 我们的gpf文件

会生成一个glg文件

点击launch，生成一个新窗口，等待这个窗口运行完毕。

运行完毕，数据文件夹中会多出很多map结尾的文件，还有一个glg文件。

点击Docking->macromolecules->set rigid file name,打开蛋白质大分子。再点击docking-》ligand->choose->选择小分子->set as ligand,然后点击接受。

点击Docking->search parameters->genetic algorithm

第一排是对接次数，我这里选择50次（官方建议对接50次），点击accept。

接着Docking->docking parameters->accept。

docking->output->lamarckian(4.2),输出文件，后缀同样手动添加dpf，点击保存。

点击run->run autodock

browse刚刚保存的dpf文件，生成一个dlg文件，点击launch，等待程序运行。（对接时间较长，框体自动关闭为完成）

文件夹中dlg文件生成好之后，可以删掉所有的分子，点击edit->delete->all molecules.

五、对结果进行分析

analysis->docking->open

打开dlg文件,点击确定，点击analyze-》macromolecule->open,等待大分子出现，接着点击analyze-》conformations-》play ranked by enanergy,出现一个新窗口如下图

点击倒数第二个按钮，即

出现新的窗口，点击build H-bond，点击show info,

出现新的窗口，得到第一次对接结果的结合能数据，形成氢键个数等等。

点击analyze-》conformations-》load…查看其它结合能信息

接着，点击write complex，

输出格式为pdbqt的文件，手动输入后缀

保存后，用openbabel将格式转化为pdb格式，接着就可以用pymol（pymol安装看开源版pymol的下载与安装（写给自己） - 知乎 (zhihu.com)）打开查看对接结果以及绘图。

*用pymol输出图片*

打开pymol，file-》open，选择pdb格式的文件。

2.点击pymol右下角的s，可以显示出氨基酸残基

这里的UNL是小分子，后面的是蛋白质残基。

对接完成使用PyMol可视化

转录组上游分析

2024-11-16T02:13:12.000Z

创建环境

conda create -n rna_p3 python=3    sra-tools               
conda env list                                         #查看环境
conda activate rna_p3                                  #进入conda 环境，每次开始分析都要进入环境！！
conda deactivate                                    #退出当前conda环境

上游分析软件下载

conda install -y 软件名=版本号

例如sra-tools

conda install bioconda::sra-tools

具体下载可在conda官网找到 https://anaconda.org/

下载

质控清洗：fastqc multiqc trim-galore
比对计数： hisat2 subread samtools=1.6 salmon

建议一个个安装，顺利完成

示例文件下载

参考文章

https://www.nature.com/articles/s41422-021-00477-x#data-availability

找到文章中

All data generated in the current study are available in the Gene Expression Omnibus with accession number GSE154290.

在NCBI网站中：https://www.ncbi.nlm.nih.gov/

选择GEO DataSets

查找GSE154290

PAIRED 表示为双端测序

SRA.txt

SRR12207279
SRR12207280
SRR12207283
SRR12207284

prefetch下载

单个下载

prefetch SRR1482462

批量下载

prefetch -f no -p --option-file SRA.txt

后台下载

nohup prefetch SRR12207279 &

##使用超算无法通过提交sbatch的方式下载，怀疑是sbatch任务的网络问题

后台批量下载

nohup prefetch -f no --option-file SRA.txt &

$ nohup: ignoring input and appending output to ‘nohup.out’ 并不是报错，按回车继续

查看后台任务

jobs

#或者
ps -f

会显示

UID PID PPID C STIME TTY TIME CMD
dk_szy 195230 145297 4 15:11 pts/2 00:00:00 prefetch -f no –option-file SRA.txt

删除后台任务

kill -9 1

下载完成

会在nohub.out文件中显示下载的进展，可查看是否完整下载

SRA文件转为FASTQ格式

单个转格式

慢的转换，太慢了，不建议使用

#将当前
fastq-dump --split-3 --gzip ./SRR12207279

使用这个转换，多线程转换格式，输出的为fq的文件

fasterq-dump --split-3 ./SRR12207283

批量转格式

小命令：删除当前目录SRR文件夹里的所有分文件夹，只保留其文件

find ./SRR -mindepth 1 -type d -exec sh -c 'mv {}/* ./SRR; rmdir {}' \;

fasterq-dump进行批量转换，将所有 .sra 文件都放在SRR文件夹里

# 设置输入目录
sra_dir="./SRR"

# 设置输出目录
output_dir="./fastq-result"

# 遍历目录中的所有.sra文件
for sra_file in $sra_dir/*.sra
do
    # 获取不带路径的文件名
    filename=$(basename "$sra_file" .sra)
    
    # 使用fasterq-dump处理每个文件
    fasterq-dump --outdir "$output_dir" --split-3 "$sra_file"
done

生成在当前路径 ./fastq-result 下的 fastq 文件

md5检查文件完整性

这样检验似乎并不是很准确，需要用数据来源处所给的 md5 值进行比对

生成md5值

md5sum *gz >md5.txt
cat md5.txt

检查，要在当前文件夹下

md5sum -c md5.txt

原始数据质量查看

fastqc

ls ./fastq-result/* | xargs fastqc -t 12 -o   ./fastq-result/

multiqc

multiqc ./fastq-result/ -o   ./fastq-result/

质控

trim_galore

参考： https://mp.weixin.qq.com/s?search_click_id=2253394900344533860-1633341597788-628761&sub=&__biz=MzAxMDkxODM1Ng==&mid=2247503527&idx=4&sn=261be2c7ff2a7f80b2e6ab139028d780&chksm=9b4b8e1cac3c070a963f59fcc55095fe0ae37d1eecde3e67f6682779c91d0e907a8fd7eb8f84&scene=3&subscene=10000&clicktime=1633341597&enterid=1633341597&ascene=0&devicetype=android-30&version=28000f35&nettype=cmnet&abtest_cookie=AAACAA%3D%3D&lang=zh_CN&exportkey=AdXQxZkOzbrJK%2BUwprsoMEk%3D&pass_ticket=pvvLsQPcUT6hjrE3KSHbHTaZKL%2FVtNBVq%2BLbY9r0hucz%2FDdbU3NgO9ofB9mtC3fS&wx_header=1

单个质控

-q 25 质量

–phred33 测序类型

–length 35 最短长度

–stringency 3 设定可以忍受的前后adapter重叠的碱基数，默认为1（非常苛刻）。可以适度放宽，因为后一个adapter几乎不可能被测序仪读到。

–paired 双端测序

-o ./clean_data/ 设置输出目录

./fastq-result/SRR12207279_1.fastq ./fastq-result/SRR12207279_2.fastq 为输入文件

trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./clean_data/ ./fastq-result/SRR12207279_1.fastq ./fastq-result/SRR12207279_2.fastq

批量质控

运行目录下包含 ./fastq-result/ 这个文件夹，存放测序数据 .fastq或 .fastq.gz

方法一：这个是标准的单线程循环方式，较慢。4个双端数据，大概半个小时，慢但是不容易出错

# 设置工作目录为fastq文件所在的目录
cd ./fastq-result/

# 遍历所有以_1.fastq结尾的文件
for file1 in *_1.fastq
do
    # 从文件名中提取没有_1的部分
    base=$(basename "$file1" _1.fastq)
    
    # 构建对应的_2.fastq文件名
    file2="${base}_2.fastq"
    
    # 检查对应的_2.fastq文件是否存在
    if [ -e "$file2" ]; then
        # 如果存在，执行trim_galore命令
        trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ../clean_data/ "$file1" "$file2"
    else
        # 如果不存在，打印错误信息
        echo "Error: No matching file found for $file1"
    fi
done

fq.gz格式文件是处理后得到的数据，txt格式文件是样品处理的结果报告，也包括软件运行的参数信息

方法二：多任务同时进行，4个双端数据，10分钟

# 设置工作目录为fastq文件所在的目录
cd ./fastq-result/

# 遍历所有以_1.fastq结尾的文件
for file1 in *_1.fastq; do
    # 从文件名中提取没有_1的部分
    base=$(basename "$file1" _1.fastq)
    
    # 构建对应的_2.fastq文件名
    file2="${base}_2.fastq"
    
    # 在后台执行检查和trim_galore命令
    (
        # 检查对应的_2.fastq文件是否存在
        if [ -e "$file2" ]; then
            # 如果存在，执行trim_galore命令
            trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ../clean_data/ "$file1" "$file2"
        else
            # 如果不存在，打印错误信息
            echo "Error: No matching file found for $file1"
        fi
    ) &
done

# 等待所有后台进程完成
wait

结果

再次查看样品质量

XXXXXX_val_1.fq即为清洗后的序列

fastp质控

此处为扩展学习

conda下载fastp

# note: the fastp version in bioconda may be not the latest
conda install -c bioconda fastp

单个

输入 -i -I 双端测序文件，输出 -o -O 质控处理后文件，和 json文件，fastp.html结果

fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

批量

# 创建清理后的文件夹
mkdir  clean-fastp

# 设置工作目录为fastq文件所在的目录
cd ./fastq-result/

# 遍历所有以_1.fastq结尾的文件
for file1 in *_1.fastq; do
    # 从文件名中提取没有_1的部分
    base=$(basename "$file1" _1.fastq)
    
    # 构建对应的_2.fastq文件名
    file2="${base}_2.fastq"
fileoo1="${base}_1.fq"
fileoo2="${base}_2.fq"
jsono="${base}.json"
htmlo="${base}.html"

    
    # 在后台执行检查和trim_galore命令
    (
        # 检查对应的_2.fastq文件是否存在
        if [ -e "$file2" ]; then
            # 如果存在，执行trim_galore命令
fastp -i "$file1"  -o ../clean-fastp/"$fileoo1" -I "$file2" -O ../clean-fastp/"$fileoo2"  --json  ../clean-fastp/"$jsono"  --html  ../clean-fastp/"$htmlo"
                    else
            # 如果不存在，打印错误信息
            echo "Error: No matching file found for $file1"
        fi
    ) &
done

# 等待所有后台进程完成
wait

下载参考基因组

参考：http://www.360doc.com/content/21/0708/21/44561002_985728537.shtml

Hisat2官网的 UCSC参考基因下载地址 https://daehwankimlab.github.io/hisat2/download/#h-sapiens

官网提供了人和小鼠的索引文件下载，压缩包有make_grch38_tran.sh文件，详细记录了创建索引的过程。

一般要先构建索引然后进行比对，但是人和鼠的索引在Hisat2官网可直接下载使用

构建索引参考：https://www.bilibili.com/video/BV1mt411J7v8/?spm_id_from=333.337.search-card.all.click&vd_source=b938c9620af06f4224f5fd4db315cbd4

https://blog.csdn.net/qq_74093550/article/details/131915068

下载并解压所需的 mm10 或 grcm38 的index文件

下载UCSC mm10，小鼠参考基因，创建文件夹并下载到 ./reference 测试中使用这个

wget https://genome-idx.s3.amazonaws.com/hisat/mm10_genome.tar.gz
tar -zxvf *tar.gz

另一个参考基因组GRCm38，GRCm38下载后为同一个文件？小鼠还是直接用UCSC mm10

wget https://cloud.biohpc.swmed.edu/index.php/s/grcm38/download -O GRCm38.tar.gz

参考序列及注释下载汇总

直接可用的索引和注释

UCSC下载，推荐 https://hgdownload.soe.ucsc.edu/downloads.html

选择物种，下载chromFa.tar.gz

人

##基因组  UCSC hg38
https://genome-idx.s3.amazonaws.com/hisat/hg38_genome.tar.gz
##参考注释
https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/genes/hg38.refGene.gtf.gz

小鼠

##基因组  UCSC mm10
https://genome-idx.s3.amazonaws.com/hisat/mm10_genome.tar.gz
##参考注释
https://hgdownload.soe.ucsc.edu/goldenPath/mm10/bigZips/genes/mm10.refGene.gtf.gz

自己构建参考序列索引（可选）

下载参考：https://blog.csdn.net/u011262253/article/details/117486244

如果不使用UCSC则需要这一步

Ensembl数据库

参考：https://blog.csdn.net/flashan_shensanceng/article/details/115705200

在Ensembl数据库：https://asia.ensembl.org/index.html

找到我们数据的物种

参考基因组和注释文件都有很多的版本，需要我们根据实际情况进行选择

Ensemble提供两种组装形式和3种重复序列处理方式的参考基因组，分别是primary、toplevel 、unmasked(dna) 、soft-masked(dna_sm) 和masked(dna_rm) 。

一般选择 .dna.primary或.dna_sm.primary！！！！！！

没有的话选择 .dna.toplevel.fa.gz 也可

分别包含三种类型的.gtf（general tranfer format）和.gff（general feature format）注释文件，根据自己需求选择合适注释信息

gtf：全部的注释信息，选择这个就好
chr：染色体注释信息
abinitio：预测基因集注释信息

如选择：

Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

Homo_sapiens.GRCh38.112.gtf.gz

NCBI数据库

https://www.ncbi.nlm.nih.gov/datasets/genome/

我们下载

Genome sequences (FASTA)

Annotation features (GTF)

GENCODE数据库

如果只涉及人类和小鼠，极力推荐 GENCOE，这里有着相较其他数据库，最新最全的基因组和其注释信息。

一般选择

Genome sequence (GRCh38.p14)	ALL
Comprehensive gene annotation	CHR

UCSC数据库

因为只有人和鼠的是已经有构建好索引的文件可以直接用，但是其他物种还是需要自己进行构建

在官网中找到自己的物种 https://hgdownload.soe.ucsc.edu/downloads.html

自己选择合适的文件

下载结果

构建方法

参考 https://blog.csdn.net/weixin_40640700/article/details/116891230

例如Ensembl数据库中下载小鼠的参考序列，用 hisat2 构建，

注意，使用什么软件构建索引，就使用什么软件进行比对，并使用序列对应的注释

下载参考序列和注释 https://asia.ensembl.org/Mus_musculus/Info/Index

选择下载

参考基因 Mus_musculus.GRCm39.dna.primary_assembly.fa.gz

注释文件 Mus_musculus.GRCm39.112.gtf.gz

使用命令下载

#基因文件
wget -c https://ftp.ensembl.org/pub/release-112/fasta/mus_musculus/dna/Mus_musculus.GRCm39.dna.primary_assembly.fa.gz
#注释文件
wget  -c https://ftp.ensembl.org/pub/release-112/gtf/mus_musculus/Mus_musculus.GRCm39.112.gtf.gz

构建命令，需要等待的时间较长，可能1-2h

#解压文件
gzip -d Mus_musculus.GRCm39.dna.primary_assembly.fa.gz
#hisat2构建索引
hisat2-build -p 20  Mus_musculus.GRCm39.dna.primary_assembly.fa mousegenome

得到8个索引文件，前面的 MusGRCm39 为自己设置的索引名字，结尾为 ht2

使用自己构建的索引和官方提供的索引进行比较

自己索引比对率和官方比对率比较，相差无几

暂未进行较多尝试

samtools sort -@ 12 -o ./688.bam ./6668888.sam
samtools sort -@ 12 -o ./677.bam ./666777.sam

gtf='/public/home/dk_szy/songxudong/rna-test/reference/mouse-Ensembl-bowtie2/gft/Mus_musculus.GRCm39.112.gtf.gz'
gtf0='/public/home/dk_szy/songxudong/rna-test/reference/mouse-UCSC-mm10/gft/mm10.refGene.gtf.gz'


featureCounts -T  20  -p  -a  $gtf  -o  counts.txt  ./688.bam

featureCounts -T  20  -p  -a  $gtf0  -o  counts0.txt  ./677.bam

值得注意的是自己从Ensembl数据库中下载的对应注释，生成的count矩阵需要geneid为 ENSMUSG00000104478，之后需要进行ID转换

hisat2比对基因

hisat2单个比对

一个样，花了8分钟，多样品记得调整运行时间

index='/public/home/dk_szy/songxudong/rna-test/reference/mm10/genome'

    id=234234214

    file1="./clean_data/SRR12207279_1_val_1.fq"

file2="./clean_data/SRR12207279_2_val_2.fq"

echo $file1
echo $file2
echo "${id}.sam" 
        hisat2 -t -p 12 -x $index \
    -1 "$file1" \
    -2 "$file2" \
    -S "${id}.sam"

hisat2批量比对

hisat2

比对将双端的fq文件转为》sam文件》bam文件

sam太大，命令中转为bam就自动删除了

结果在 ./align/ 文件夹中

25行 hisat2 -t -p 20 -x $index \ 中和通过调整 -p 20 的线程数加速运行


mkdir -p ./align/flag
cd ./align/
pwd

##参考基因组的位置
index='/public/home/dk_szy/songxudong/rna-test/reference/mm10/genome'

# 假设你的fastq文件在fastq-result文件夹中
fastq_dir="../clean_data"

# 遍历fastq-result文件夹中的所有1.fastq文件
for file1 in $fastq_dir/*_1_val_1.fq; do
    # 从1.fastq文件名中提取ID
    id=$(basename "$file1" .fq | sed 's/_1_val_1//')
    
    # 查找对应的2.fastq文件
    file2="$fastq_dir/${id}_2_val_2.fq"
    
    # 检查2.fastq文件是否存在
    if [ -f "$file2" ]; then
        echo "333#  ${id}  ！！！！！ is on the hisat2 Working !!!"
        
        # 使用hisat2进行比对，并指定输出目录为当前目录（./align/）
        hisat2 -t -p 20  -x $index \
            -1 "$file1" \
            -2 "$file2"  -S  "${id}.sam" 
        
        # sam2bam and remove sam，指定输出目录为当前目录（./align/）
        echo -e " ${id} sam2bam and remove sam   "
        samtools sort -@ 12 -o "./${id}_sorted.bam" "./${id}.sam"
        rm "./${id}.sam"
    else
        echo "No matching 2.fastq file found for $file1"
    fi
done

查看运行结果

grep alignment slurm-555095.out 为运行的报告文件，提取关于alignment的结果

grep alignment slurm-555095.out

生成counts表达矩阵

使用featureCounts 计数得到

下载参考基因注释

UCSC mm10 为例

https://hgdownload.soe.ucsc.edu/goldenPath/mm10/bigZips/genes/

gtf=’/public/home/dk_szy/songxudong/rna-test/reference/gft/mm10.refGene.gtf.gz’ 为注释文件，要和比对中的参考基因对应！！！

date

gtf='/public/home/dk_szy/songxudong/rna-test/reference/gft/mm10.refGene.gtf.gz'

mkdir  -p  ./counts

cd ./counts

pwd

featureCounts -T  20  -p  -a  $gtf  -o  counts.txt  ../align/*.bam

multiqc ./

echo -e " \n \n \n ALL WORK DONE !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!  \n "
date

结果在./counts中

count矩阵 counts.txt

注释结果解读 multiqc_report.html

类型转换

featureCounts的结果包含基因长度，可直接使用进行转换

整理为带基因长度的文件


#我们使原始的count数据进行转换
exprSet<-read.csv("count-改名.csv",row.names = 1)

#删除表达量=0的行
exprSet1 <- exprSet[rowSums(exprSet[,2:ncol(exprSet)]) > 0,]
dim(exprSet)
names(exprSet)

##提取Count值
count <- exprSet1[,2:ncol(exprSet)]
write.csv(count,"song_count.csv")
##提取基因长度，基因长度需要转化成kb
gene_length_kb <- exprSet1$Length / 1000
head(gene_length_kb)

#CPM
cpm = log2(edgeR::cpm(count)+1)
write.csv(cpm,"song_CPM.csv")


##TPM
### 每千碱基reads（per million scaling factor)长度标准化
data_rpk <- count /gene_length_kb
##每百万
TPM <- t(t(data_rpk) / colSums(data_rpk) * 1000000)
head(TPM)
## 求均值，看一看
avg_tmp <- data.frame(avg_tmp = rowMeans(TPM))
head(avg_tmp)
##保存数据
write.csv(TPM,"song_TPM.csv")

##FPKM
FPKM <- t(t(data_rpk) / colSums(count ) * 10^6)
write.csv(TPM,"song_FPKM.csv")

转录本相关

未深入了解使用

基于PASA软件

简单介绍的视频：https://www.bilibili.com/video/BV1KE421g7kT?t=3053.0&p=7

样品的重命名和分组

这部分可省略

counts.txt 中根据分组进行修改，样品少则手动在 Excel 中修改也一样

下载的数据从ncbi中下载 Metadata

在R语言中进行修改

需要

Metadata文件 SraRunTable.txt

count文件 counts.txt

###环境设置
rm(list=ls())
options(stringsAsFactors = F) 
library(tidyverse) # ggplot2 stringer dplyr tidyr readr purrr  tibble forcats
library(data.table) #多核读取文件
setwd("C:/Users/Lenovo/Desktop/test")

#### 对counts进行处理筛选得到表达矩阵 ####
a1 <- fread('./counts.txt',
            header = T,data.table = F)#载入counts，第一列设置为列名
colnames(a1)
counts <- a1[,7:ncol(a1)] #截取样本基因表达量的counts部分作为counts 
rownames(counts) <- a1$Geneid #将基因名作为行名
#更改样品名
colnames(counts)
colnames(counts) <- gsub('../align/','', #删除样品名前缀
                         gsub('_sorted.bam','',  colnames(counts))) #删除样品名后缀


#### 导入或构建样本信息,  进行列样品名的重命名和分组####
b <- read.csv('./SraRunTable.txt')
b
name_list <- b$source_name[match(colnames(counts),b$Run)]; name_list  #选择所需要的样品信息列
nlgl <- data.frame(row.names=colnames(counts),
                   name_list=name_list,
                   group_list=name_list)
fix(nlgl)  #手动编辑构建样品名和分组信息
name_list <- nlgl$name_list
colnames(counts) <- name_list #更改样品名
group_list <- nlgl$group_list
gl <- data.frame(row.names=colnames(counts), #构建样品名与分组对应的数据框
                 group_list=group_list)

write.csv(counts,file = "count-改名.csv") #保存
write.csv(nlgl,file = "分组.csv") #保存

用于下游分析的文件 count-改名.csv
分组信息文件分组.csv

文件目录

test ：测试文件

SRR：下载的源文件

fastq-result：解压后的双端文件

clean_data：质控后的序列文件

align：比对后未注释的文件

counts：对比后的count文件，需进行样品重命名

reference：参考序列和注释文件

.sh 按步骤的分析操作文件 sbatch XXX.sh

Termite Fungus Comb Polysaccharides Alleviate Hyperglycemia and Hyperlipidemia in Type 2 Diabetic Mice by Regulating Hepatic Glucose/Lipid Metabolism and the Gut Microbiota

2024-11-16T01:43:30.000Z

Termite Fungus Comb Polysaccharides Alleviate Hyperglycemia and Hyperlipidemia in Type 2 Diabetic Mice by Regulating Hepatic Glucose/Lipid Metabolism and the Gut Microbiota

发表日期：2024-7-6

作者：Xiao H, Song X, Wang P, Li W, Qin S, Huang C, et al.

DOI：10.3389/fphar.2024.1445061

分区：中科院2区

影响因子：4.9

引用格式：Xiao H, Song X, Wang P, Li W, Qin S, Huang C, Wu B, Jia B, Gao Q, Song Z. Termite Fungus Comb Polysaccharides Alleviate Hyperglycemia and Hyperlipidemia in Type 2 Diabetic Mice by Regulating Hepatic Glucose/Lipid Metabolism and the Gut Microbiota. International Journal of Molecular Sciences. 2024; 25(13):7430.

直达链接：https://doi.org/10.3390/ijms25137430

Bibliometric analysis of vitamin D and obesity research over the period 2000 to 2023

2024-11-16T01:25:33.000Z

Bibliometric analysis of vitamin D and obesity research over the period 2000 to 2023

发表日期：2024-7-18

作者：Song X, Qin S, Chen S, Zhang C, Lin L, Song Z.

DOI：10.3389/fphar.2024.1445061

分区：中科院2区

影响因子：4.4

引用格式：Song X, Qin S, Chen S, Zhang C, Lin L, Song Z. Bibliometric analysis of vitamin D and obesity research over the period 2000 to 2023. Front Pharmacol. 2024;15:1445061. Published 2024 Jul 18. doi:10.3389/fphar.2024.1445061

直达链接：https://doi.org/10.3389/fphar.2024.1445061