如需在网页中查看本邮件,请点击这里

newsletter banner

欢迎

在本期内容中,我们要强调一些常常被忽视的搜库基本要素,而这些可能是搜库成功的关键所在。

本月的特色文章讲述了通过对人类脑脊液(CSF)进行严格分析而获得的一组最大规模脑脊液蛋白的数据。如果您最近也有文章发表并且希望我们列举在下一期的Newsletter中,请发给我们 相关的PDF 或者URL

本月Mascot小贴士关于如何排除受损的XML数据文件故障。

如果您有任何意见或问题,请随时 联系我们

 

2018.10

搜库基础
本月特色文章
Mascot小贴士
 

搜库常见错误

我们曾研究过在我们的公共网站上递交的搜库任务,其中一些搜库结果不佳的原因。这些原因往往很简单,我们在这里做一个简单的讨论,可能对你比较有帮助。

  1. 理智选择你的数据库 Mascot 的打分不会随数据库大小而变化,但是不必要地使用大型数据库或过多的数据库会增加search space的大小,从而导致显著性阈值提高,显著匹配数目则相应减少。
  2. 加入污染物数据库 如果你是基于一个单一物种数据库进行的搜库,或者在综合数据库中选用物种分类筛选,那么联用污染物数据库则十分必要。许多谱图可能是来自于污染物的,例如胰酶。如果搜库结果中没有包含正确的蛋白质,可能是由于来自污染物的肽谱匹配导致蛋白质推断的错误。
  3. 不要使用缺乏代表性的物种 有些物种的代表性很差,甚至在一个非常大的数据库中也是如此。例如, Hystricidae (旧大陆豪猪)在NCBIprot中只有181个蛋白质条目。在这种情况下,将分类树向上移动到一个更高的分类层次,如啮齿目,因为许多来自豪猪的蛋白质与它们没有那么多刺的“表亲”有着广泛的同源性。
  4. 谱图质量数不足或者超出合理范围 理想情况下,每一张二级谱中,对于每个氨基酸残基都应该至少对应一个峰。如果你的谱图仅仅有两三个峰,那么你就不要期望能得到一个显著匹配的分数了。对于一个胰蛋白酶消化产生的PMF数据,你需要在1000-3500 Da这个典型的胰蛋白酶酶解产生的多肽质量范围内,有着合理数量的谱峰。一个常见的错误是递交仅有一个质量数的PMF搜库任务。尽管质量精度可能很高,从单个质量值得到一个蛋白质的显著匹配也是不可能的,因为任何假定的氨基酸残基的组成可能出现在许多不同的蛋白质中。

点击这里了解如何从你的搜库中获得最佳结果。

porcupine

使用Mascot发表的优秀文章

在这里,我们列举了一篇近期发表的有趣并且很重要的文章,该文章运用Mascot 进行了蛋白质鉴定、定量及特性分析,如果您想要您的文章也在这里重点推荐,请发给我们一个PDF或URL

 

Deep Dive on the Proteome of Human Cerebrospinal Fluid: A Valuable Data Resource for Biomarker Discovery and Missing Protein Identification

Charlotte Macron, Lydie Lane, Antonio Nunez Galindo, and Loic Dayon

J. Proteome Res., Article ASAP, published online August 20, 2018

人类脑脊液(CSF)是进入大脑的窗口,也是临床研究中,发现神经生物学生物标志物的重要来源。这篇文章中,作者购买了一组商业化的“正常”CSF的样品,对其进行了全面分析,并得到了深度解析的蛋白质组。

这组CSF样品,在去除了高丰度蛋白后采用TMT试剂分别进行标记,并且用非凝胶电泳系统分为24个馏分,每个馏分单独用反相LC-MS/MS分析。

这组鸟枪法蛋白质组学数据共鉴定了20689个多肽,映射到3379个蛋白质上,是迄今为止发表的最大的CSF蛋白组。在CSF蛋白鉴定结果中,根据Human Protein Atlas数据库,34%的蛋白与其转录本在脑内有高表达的基因相关。此外,还鉴定到了根据对基因组或转录组的预测得到26个缺失蛋白。

Thumbnail from featured publication

Mascot 小贴士

如果XML格式的原始文件或者谱峰列表有问题,从Mascot Server或Mascot Distiller中获得的关于XML报错信息可能没有多大帮助。典型的报错信息是“找不到识别mzML的关键限制索引”。

本小贴士描述了如何获得更详尽的报错信息。为了使示例比较简单,我们假定分析平台是Windows系统,并且文件格式是mzML。该工具包同样适用于Linux系统,并且也适用于其他类型的XML文件格式。

  • Sourceforge网站 下载XMLStarlet工具包(绿色按键是Windows版本下载链接)
  • 解压到合适的目录下
  • 下载mzML schema 到同样的目录下,这里会有两个文件: mzML1.1.0.xsd是主要的schema,在文件包含可选择的索引时, mzML1.1.1_idx.xsd 文件也是需要的。
  • 在命令窗口中输入以下内容,可以适当地更改路径和文件名。请注意,从xml.exe开始的所有内容应该作为同一行输入。
     
    cd "C:\scratch\xmlstarlet-1.6.1"

    xml.exe val --err --xsd mzML1.1.1_idx.xsd ..\data\problem.mzML 2> ..\data\errors.txt

这样,报错信息就会写入到errors.txt 中,可能足以帮助你通过文本编辑器中找到问题所在,并在文本编辑器中修复XML文件。如果您不能找出问题,请将errors.txt文件作为附件,发送到我们的技术支持邮箱 support@matrixscience.com.

XML icon

关于 Matrix Science

Matrix Science 为蛋白组学的研究人员以及科学家提供生物信息分析工具,帮助他们更快速,更可信的鉴定和定量蛋白。Mascot 软件全线支持来自Sciex, Agilent, Bruker, Shimadzu, Thermo Scientific 以及 Waters质谱仪生成的质谱数据。

请联系康昱盛以获取更多的信息。

 

Matrix Science logo

Matrix Science Ltd, 64 Baker Street, London W1U 7GB, UK
T +44 (0)20 7486 1050  F +44 (0)20 7224 1344  E info@matrixscience.com
 

View in a web browser Forward to a colleague Unsubscribe