outils d’évaluation de la qualité des études

Études quantitatives

Cliquez sur les liens ci-dessous pour obtenir plus d’informations concernant des outils d’évaluation de la qualité selon les devis d’études.

Essai contrôlé randomisé (ECR)

Cochrane Risk of Bias (RoB 2)

Devis de recherche	ECR
Nombre de critères	6 domaines de biais et 7 items (biais de sélection, biais de performance, biais de détection, biais d'attrition, biais lié avec l'information rapportée, et autres biais).
Cotation	Oui, non, pas clair
Validité	Outil développé par les groupes de méthodes de la Collaboration Cochrane qui ont réuni un groupe de 16 experts (statisticiens, épidémiologistes et auteurs de revues) et ont utilisé des consensus informels et des itérations par courrier électronique. Études sur la validité: • Hartling, L., Ospina, M., Liang, Y., Dryden, D. M., Hooton, N., Krebs Seida, J., et al. (2009). Risk of bias versus quality assessment of randomised controlled trials: cross sectional study. British Medical Journal, 339, b4012. • Armijo-Olivo, S., Stiles, C. R., Hagen, N. A., Biondo, P. D., & Cummings, G. G. (2012). Assessment of study quality for systematic reviews: a comparison of the Cochrane Collaboration Risk of Bias Tool and the Effective Public Health Practice Project Quality Assessment Tool: methodological research. Journal of Evaluation in Clinical Practice, 18(1), 12-18. • Savovic, J., Weeks, L., Sterne, J., Turner, L., Altman, D., Moher, D. et Higgins, J. (2014). Evaluation of the Cochrane Collaboration's tool for assessing the risk of bias in randomized trials: Focus groups, online survey, proposed recommendations and their implementation. Systematic Reviews, 3(1), 37. • Moseley, A. M., Rahman, P., Wells, G. A., Zadro, J. R., Sherrington, C., Toupin-April, K., et al. (2019). Agreement between the Cochrane risk of bias tool and Physiotherapy Evidence Database (PEDro) scale: A meta-epidemiological study of randomized controlled trials of physical therapy interventions. PloS one, 14(9), e0222770.
Fidélité	Études sur la fidélité interjuge: RoB: • Armijo-Olivo, S., Stiles, C. R., Hagen, N. A., Biondo, P. D., & Cummings, G. G. (2012). Assessment of study quality for systematic reviews: a comparison of the Cochrane Collaboration Risk of Bias Tool and the Effective Public Health Practice Project Quality Assessment Tool: methodological research. Journal of Evaluation in Clinical Practice, 18(1), 12-18. .• Armijo-Olivo, S., Ospina, M., da Costa, B. R., Egger, M., Saltaji, H., Fuentes, J., et al. (2014). Poor Reliability between Cochrane Reviewers and Blinded External Reviewers When Applying the Cochrane Risk of Bias Tool in Physical Therapy Trials. PLoS ONE [Electronic Resource], 9(5), e96920. • Hartling, L., Hamm, M. P., Milne, A., Vandermeer, B., Santaguida, P. L., Ansari, M., et al. (2013). Testing the Risk of Bias tool showed low reliability between individual reviewers and across consensus assessments of reviewer pairs. Journal of Clinical Epidemiology, 66(9), 973-981. • Vale, C. L., Tierney, J. F., & Burdett, S. (2013). Can trial quality be reliably assessed from published reports of cancer trials: evaluation of risk of bias assessments in systematic reviews. British Medical Journal, 346, f1798 RoB-2 • Minozzi, S., Cinquini, M., Gianola, S., Gonzalez-Lorenzo, M. et Banzi, R. (2020). The revised Cochrane risk of bias tool for randomized trials (RoB 2) showed low interrater reliability and challenges in its application. Journal of Clinical Epidemiology, 126, 37-44. • Minozzi, S., Dwan, K., Borrelli, F., & Filippini, G. (2022). Reliability of the revised Cochrane risk-of-bias tool for randomised trials (RoB2) improved with the use of implementation instruction. Journal of Clinical Epidemiology, 141, 99-105.
Autres informations	Première version développée en 2008. Deuxièment version développée en 2016. https://www.riskofbias.info/welcome/rob-2-0-tool
Principales références	Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, Cates CJ, Cheng H-Y, Corbett MS, Eldridge SM, Hernán MA, Hopewell S, Hróbjartsson A, Junqueira DR, Jüni P, Kirkham JJ, Lasserson T, Li T, McAleenan A, Reeves BC, Shepperd S, Shrier I, Stewart LA, Tilling K, White IR, Whiting PF, Higgins JPT. (2019). RoB 2: a revised tool for assessing risk of bias in randomised trials. British Medical Journal, 366, l4898.

PEDro

Devis de recherche	ECR
Nombre de critères	11
Cotation	Oui, non
Validité	Outil adapté du Delphi List tool. Études sur la validité: • Albanese, E., Bütikofer, L., Armijo‐Olivo, S., Ha, C., Egger, M. (2020). Construct validity of the Physiotherapy Evidence Database (PEDro) quality scale for randomized trials: Item response theory and factor analyses. Research Synthesis Methods, 11(2), 227-236. • Armijo-Olivo, S., da Costa, B. R., Cummings, G. G., Ha, C., Fuentes, J., Saltaji, H., & Egger, M. (2015). PEDro or Cochrane to Assess the Quality of Clinical Trials? A Meta-Epidemiological Study. PloS one, 10(7), e0132634-e0132634. • Aubut, J.-A. L., Marshall, S., Bayley, M., & Teasell, R. W. (2013). A comparison of the PEDro and Downs and Black quality assessment tools using the acquired brain injury intervention literature. NeuroRehabilitation, 32(1), 95-102. • Bhogal, S. K., Teasell, R. W., Foley, N. C., & Speechley, M. R. (2005). The PEDro scale provides a more comprehensive measure of methodological quality than the Jadad Scale in stroke rehabilitation literature. Journal of Clinical Epidemiology, 58(7), 668-673. • de Morton, N. A. (2009). The PEDro scale is a valid measure of the methodological quality of clinical trials: a demographic study. Australian Journal of Physiotherapy, 55(2), 129-133. • Moseley, A. M., Rahman, P., Wells, G. A., Zadro, J. R., Sherrington, C., Toupin-April, K., et al. (2019). Agreement between the Cochrane risk of bias tool and Physiotherapy Evidence Database (PEDro) scale: A meta-epidemiological study of randomized controlled trials of physical therapy interventions. PloS one, 14(9), e0222770. • Yamato, T. P., Maher, C., Koes, B., & Moseley, A. (2017). The PEDro scale had acceptably high convergent validity, construct validity, and interrater reliability in evaluating methodological quality of pharmaceutical trials. Journal of Clinical Epidemiology, 86, 176-181.
Fidélité	Études sur la fidélité interjuge: • Foley, N. C., Bhogal, S. K., Teasell, R. W., Bureau, Y., & Speechley, M. R. (2006). Estimates of quality and reliability with the physiotherapy evidence-based database scale to assess the methodology of randomized controlled trials of pharmacological and nonpharmacological interventions. Physical Therapy, 86(6), 817-824. • Maher, C. G., Sherrington, C., Herbert, R. D., Moseley, A. M., & Elkins, M. (2003). Reliability of the PEDro Scale for Rating Quality of Randomized Controlled Trials. Physical Therapy, 83(8), 713-721. • Moseley, A., Sherrington, C., Herbert, R. and Maher, C. (1999). Reliability of a scale for measuring the methodological quality of clinical trials. Proceedings of the Cochrane Colloquium, Rome, October 1999. • Yamato, T. P., Maher, C., Koes, B., & Moseley, A. (2017). The PEDro scale had acceptably high convergent validity, construct validity, and interrater reliability in evaluating methodological quality of pharmaceutical trials. Journal of Clinical Epidemiology, 86, 176-181.
Autres informations	https://www.pedro.org.au/english/downloads/pedro-scale/
Principales références	Sherrington, C., Herbert, R., Maher, C., & Moseley, A. (2000). PEDro. A database of randomized trials and systematic reviews in physiotherapy. Manual Therapy, 5(4), 223-226.

Étude non randomisée

ROBINS-I (Risk Of Bias In Non-randomised Studies – of Interventions)

Devis de recherche	Études non randomisées
Nombre de critères	34 questions sur 7 domaines de biais (facteurs de confusion, sélection des participants, classification des interventions, écarts par rapport aux interventions prévues, données manquantes, mesures de résultats, et biais lié aux informations rapportées).
Cotation	oui, probablement oui, non, probablement non et pas d'information
Validité	Outil développé durant des réunions de consensus d'experts du Cochrane Review group. La version préliminaire a été testée durant les groupes de travail (Sterne et al., 2016). Études sur la validité: • Glasgow, M. J., Edlin, R., & Harding, J. E. (2020). Comparison of risk-of-bias assessment approaches for selection of studies reporting prevalence for economic analyses. BMJ open, 10(9), e037324.
Fidélité	Études sur la fidélité interjuge: • Couto, E., Pike, E., Torkilseng, E. B., & Klemp, M. (2015). Inter-rater reliability of the Risk Of Bias Assessment Tool: for Non-Randomized Studies of Interventions (ACROBAT-NRSI). Paper presented at the 2015 Cochrane Colloquium Vienna. • Losilla, J.-M., Oliveras, I., Marin-Garcia, J. A., & Vives, J. (2018). Three risk of bias tools lead to opposite conclusions in observational research synthesis. Journal of Clinical Epidemiology, 101, 61-72. • Jeyaraman, M. M., Rabbani, R., Copstein, L., Robson, R. C., Al-Yousif, N., Pollock, M., et al. (2020). Methodologically rigorous risk of bias tools for non-randomized studies had low reliability and high evaluator burden. Journal of Clinical Epidemiology. https://doi.org/10.1016/j.jclinepi.2020.09.033
Autres informations	https://www.riskofbias.info/welcome/home
Principales références	Sterne, J. A., Hernán, M. A., Reeves, B. C., Savović, J., Berkman, N. D., Viswanathan, M., et al. (2016). ROBINS-I: A tool for assessing risk of bias in non-randomised studies of interventions. British Medical Journal, 355(i4919).

ROBANS (Risk of Bias Assessment tool for Non-randomized Studies)

Devis de recherche	Études non randomisées
Nombre de critères	6 domaines de risques de biais.
Cotation	risque de biais faible, élevé, pas clair
Validité	Outil développé à partir d'une analyse documentaire et des conseils d'experts. Des corrélations avec un autre outil (MINORS), la taille de l'effet, les conflits d'intérêts, les sources de financement et les facteurs d'impact des revues ont été calculées. De plus, 8 experts ont répondu à un sondage avec une échelle de Likert de 7 points pour évaluer leur opinion concernant le pouvoir de discrimination, le nombre d'options de réponse, la redondance des critères, les décisions subjectives, l'applicabilité, les instructions, la clarté, la simplicité, et l'exhaustivité de l'outil (Kim et al., 2013).
Fidélité	Trois évaluateurs ont évalué 39 études. L'accord interjuge a varié d'acceptable (k=0.35) à très bonne (k=0.74) (Kim et al., 2013).
Autres informations	N/A
Principales références	Kim, S. Y., Park, J. E., Lee, Y. J., Seo, H.-J., Sheen, S.-S., Hahn, S., et al. (2013). Testing a tool for assessing the risk of bias for nonrandomized studies showed moderate reliability and promising validity. Journal of clinical epidemiology, 66(4), 408-414.

EPHPP (Effective Public Health Practice Project quality assessment tool)

Devis de recherche	Outil pour évaluer la qualité de différents devis sur des études d'intervention en santé publique.
Nombre de critères	20 questions sur 8 catégories (biais de sélection, devis de recherche, facteurs de confusion, insu de la mesure, collecte des données et méthodes, retraits et abandons, intégrité de l'intervention, analyses).
Cotation	différentes échelles
Validité	Outil développé à partir d'une revue des outils disponibles, de commentaires de 6 experts et comparaison avec un autre outil (Thomas et al, 2004).
Fidélité	Études sur la fidélité interjuge: • Armijo‐Olivo, S., Stiles, C. R., Hagen, N. A., Biondo, P. D., & Cummings, G. G. (2012). Assessment of study quality for systematic reviews: a comparison of the Cochrane Collaboration Risk of Bias Tool and the Effective Public Health Practice Project Quality Assessment Tool: methodological research. Journal of Evaluation in Clinical Practice, 18(1), 12-18.
Autres informations	https://merst.ca/ephpp/
Principales références	• Thomas, B., Ciliska, D., Dobbins, M., & Micucci, S. (2004). A process for systematically reviewing the literature: providing the research evidence for public health nursing interventions. Worldviews on Evidence‐Based Nursing, 1(3), 176-184. • Thomas, H. (2003). Quality assessment tool for quantitative studies. Effective Public Health Practice Project. McMaster University, Toronto.

DIAD (Design and Implementation Assessment Device)

Devis de recherche	Études d'intervention
Nombre de critères	4 questions générales, 8 sous-questions et 32-34 questions sur le devis et l'implantation.
Cotation	différentes échelles
Validité	Une version préliminaire a été commentée par 14 méthodologistes (Valentine et Cooper, 2008). Des commentaires sur l'outil ont également été sollicités lors d'une réunion publique et par le biais du web.
Fidélité	Cinq évaluateurs ont participé à une étude pilote et 12 études ont été évaluées (Valentine et Cooper, 2008). Les résultats étaient : 47% des évaluations avaient un accord complet, 28% avaient un bon accord, 13% avaient des désaccords, et 12% étaient classées comme de mauvais désaccords.
Autres informations	N/A
Principales références	Valentine, J. C., & Cooper, H. (2008). A systematic and transparent approach for assessing the methodological quality of intervention effectiveness research: The Study Design and Implementation Assessment Device (Study DIAD). Psychological Methods, 13(2), 130-149.

SAQOR (Systematic Appraisal of Quality for Observational Research)

Devis de recherche	Études observationelles
Nombre de critères	19 sur 5 catégories (échantillon, groupe de contrôle/comparaison, qualité de la (des) mesure(s) et du (des) résultat(s), suivi et facteurs de confusion)
Cotation	oui, non, pas clair, NA
Validité	SAQOR a été adapté à partir d'outils existants et en consultation avec les membres du comité consultatif et des experts en épidémiologie et la littérature sur les études observationnelles. L'outil a été révisé et ajusté sur la base après une test sur sa faisabilité avec études sélectionnées au hasard (Ross et al., 2011).
Fidélité	Deux évaluateurs ont évalué 82 études. Les auteurs ont mentionné qu'une équipe de recherche n'ayant pas participé à l'élaboration de l'outil a évalué la fidélité interjuges et qu'un accord de plus de 80 % a été obtenu (Ross et al., 2011).
Autres informations	N/A
Principales références	Ross, L., Grigoriadis, S., Mamisashvili, L., Koren, G., Steiner, M., Dennis, C. L., et al. (2011). Quality assessment of observational studies in psychiatry: an example from perinatal psychiatric research. International Journal of Methods in Psychiatric Research, 20(4), 224-234.

EAI (Epidemiological Appraisal Instrument)

Devis de recherche	Outil pour les études épidémiologiques comprenant des études de cohorte (prospectives et rétrospectives), d'intervention (randomisées et non randomisées), cas-témoins, transversales et hybrides (p. ex., cas-témoins imbriquées).
Nombre de critères	43 items sur 5 catégories (information rapportée, sélection, qualité des mesures, analyse des données, généralisation des résultats).
Cotation	oui (2), partiel (1), non ou non disponible (0), non applicable
Validité	Outil développé à partir de principes épidémiologiques et d'outils existants. La version pilote a été discutée lors de réunions de l'équipe de recherche sur une période de six mois. Les membres de l'équipe de recherche ont évalué deux articles chacun (degré d'accord=59%) et ont modifié l'outil et les instructions. Les résultats étaient comparables aux données obtenues avec un autre outil développé par Downs et Black (1998) (Genaidy et al., 2007).
Fidélité	25 étudiants ont été invités à évaluer un article avec l'EAI. Les degrés d'accord entre chaque évaluateur et d'un expert en épidémiologie ont été calculés. Le degré d'accord global moyen était de 59%. Le coefficient de corrélation global de Spearman était de 0,66. De plus, la cohérence interne a été calculée pour chaque échelle et comparée à celles trouvées dans la première partie de l'étude pilote. De plus, deux évaluateurs ont évalué 15 articles et les valeurs Kappa pondérées obtenues ont varié de 0,80 à 1,00 (Genaidy et al., 2007).
Autres informations	N/A
Principales références	Genaidy, A., Lemasters, G., Lockey, J., Succop, P., Deddens, J., Sobeih, T., et al. (2007). An epidemiological appraisal instrument–a tool for evaluation of epidemiological studies. Ergonomics, 50(6), 920-960.

QUIPS (Quality In Prognosis Studies tool)

Devis de recherche	Études pronostiques
Nombre de critères	6 domaines de bias
Cotation	oui, partiel, non, incertain
Validité	Quatorze membres d'un groupe de travail, dont des épidémiologistes, statisticiens et cliniciens, ont collaboré au développement de l'outil en utilisant une approche Delphi modifiée et des techniques de groupe nominal. L'outil a été discuté et affiné au cours de deux ateliers. Quarante-trois équipes de recherche ont fourni des commentaires sur le QUIPS par le biais d'un sondage en ligne (Hayden et al. 2013).
Fidélité	Les accords interjuges de 9 équipes qui ont évalué 205 études avec le QUIPS ont variés entre 70% et 89,5% (médiane: 83,5%). Les valeurs kappa de 9 équipes qui ont évalué 159 études avec le QUIPS ont variées entre 0,56 et 0,82 (médiane: 0,75) (Hayden et al., 2013).
Autres informations	N/A
Principales références	Hayden, J. A., van der Windt, D. A., Cartwright, J. L., Côté, P., & Bombardier, C. (2013). Assessing bias in studies of prognostic factors. Annals of internal medicine, 158(4), 280-286.

Q-Coch (Quality of cohort studies)

Devis de recherche	Études de cohorte
Nombre de critères	26 items et 7 inférences sur 7 domaines (représentativité, comparabilité des groupes au début de l'étude, qualité de la mesure de l'exposition, maintien de la comparabilité pendant la période de suivi, qualité de la mesure des résultats, attrition et analyses statistiques).
Cotation	différentes échelles
Validité	Outil développé à partir d'une revue systématique des outils sur les études non randomisées. La version pilote a été appliquée à 3 études par 3 évaluateurs. L'accord entre les évaluateurs sur la qualité globale et les évaluations externes était modéré (k=0,41). Les auteurs ont constaté une association inverse entre les évaluations externes et le nombre de domaines (Jarde et al., 2013).
Fidélité	Trois évaluateurs ont évalué 21 articles et l'accord a varié de modéré presque parfaite (k=0.60 to 0.87) (Jarde et al., 2013). Autres études sur la fidélité interjuge: • Losilla, J.-M., Oliveras, I., Marin-Garcia, J. A., & Vives, J. (2018). Three risk of bias tools lead to opposite conclusions in observational research synthesis. Journal of Clinical Epidemiology, 101, 61-72.
Autres informations	N/A
Principales références	Jarde, A., Losilla, J.-M., Vives, J., & Rodrigo, M. F. (2013). Q-Coh: a tool to screen the methodological quality of cohort studies in systematic reviews and meta-analyses. International Journal of Clinical and Health Psychology, 13(2), 138-146.

NOS (Newcastle Ottawa Scale)

Devis de recherche	Études cas-témoins et de cohorte
Nombre de critères	8 items pour les études cas-témoins et 8 items pour les études de cohorte
Cotation	Différentes échelles
Validité	Cet outil a été développé par des chercheurs provenant des universités de Newcastle, Australie et d'Ottawa, Canada. Des experts dans le domaine se sont prononcés sur la clarté et l'exhaustivité des items (Wells et al 2000). Études sur la validité: • Cook, D. A., & Reed, D. A. (2015). Appraising the Quality of Medical Education Research Methods: The Medical Education Research Study Quality Instrument and the Newcastle–Ottawa Scale-Education. Academic Medicine, 90(8), 1067-1076. • Lo, C. K.-L., Mertz, D., & Loeb, M. (2014). Newcastle-Ottawa Scale: comparing reviewers’ to authors’ assessments. BMC Medical Research Methodology, 14(1), 1. • Stang, A. (2010). Critical evaluation of the Newcastle-Ottawa scale for the assessment of the quality of nonrandomized studies in meta-analyses. European Journal of Epidemiology, 25(9), 603-605.
Fidélité	Études sur la fidélité: • Cook, D. A., & Reed, D. A. (2015). Appraising the Quality of Medical Education Research Methods: The Medical Education Research Study Quality Instrument and the Newcastle–Ottawa Scale-Education. Academic Medicine, 90(8), 1067-1076. • Hartling, L., Milne, A., Hamm, M. P., Vandermeer, B., Ansari, M., Tsertsvadze, A., & Dryden, D. M. (2013). Testing the Newcastle Ottawa Scale showed low reliability between individual reviewers. Journal of Clinical Epidemiology, 66(9), 982-993. • Lo, C. K.-L., Mertz, D., & Loeb, M. (2014). Newcastle-Ottawa Scale: comparing reviewers’ to authors’ assessments. BMC Medical Research Methodology, 14(1), 1. • Margulis, A. V., Pladevall, M., Riera-Guardia, N., Varas-lorenzo, C., Hazell, L., Berkman, N. D., et al. (2014). Quality assessment of observational studies in a drug-safety systematic review, comparison of two tools: the Newcastle–Ottawa scale and the RTI item bank. Clinical Epidemiology, 6, 359-368. • Oremus, M., Oremus, C., Hall, G. B., McKinnon, M. C., ECT, & Team, C. S. R. (2012). Inter-rater and test–retest reliability of quality assessments by novice student raters using the Jadad and Newcastle–Ottawa Scales. BMJ Open, 2(4), e001368.
Autres informations	http://www.ohri.ca/programs/clinical_epidemiology/oxford.asp
Principales références	Wells, G., Shea, B., O’connell, D., Peterson, J., Welch, V., Losos, M., et al. (2000). The Newcastle-Ottawa Scale (NOS) for assessing the quality of nonrandomised studies in meta-analyses. Retrieved April 16, 2016, from http://www.ohri.ca/programs/clinical_epidemiology/nosgen.pdf.

MINORS (Methodological Index for Non-Randomized Studies)

Devis de recherche	Études non randomisées
Nombre de critères	12
Cotation	0 (non rapporté), 1 (rapporté mais inadequat) ou 2 (rapporté et adéquat)
Validité	Outil développé sur la base des résultats d'un sondage mené auprès de 90 experts qui ont évalué sur une échelle de 7 points la capacité des items à évaluer la qualité d'une étude. La validité discriminante a été testée (Slim et al., 2003).
Fidélité	La fidélité interjuge a été évaluée par deux évaluateurs qui ont évalué 80 études. Le Kappa a varié de 0,56 à 1,00 sur les items. La cohérence interne a été évaluée en calculant la valeur alpha de Cronbach et a été jugée bonne par les auteurs (0,73). La fidélité test-retest a été évaluée sur 30 articles évalué à deux reprise par les mêmes évaluateurs (intervalle de 2 mois). Le score Kappa variait de 0,59 à 1,00 sur les articles (Slim et al., 2003).
Autres informations	N/A
Principales références	Slim, K., Nini, E., Forestier, D., Kwiatkowski, F., Panis, Y., & Chipponi, J. (2003). Methodological index for non‐randomized studies (MINORS): development and validation of a new instrument. ANZ Journal of Surgery, 73(9), 712-716.

MEVORECH (Methodological Evaluation of Observational Research)

Devis de recherche	Études observationelles pour facteurs de risque des maladies chroniques
Nombre de critères	6 items sur la validité externe, 13 pour la validité interne et 2 aspects de causalité
Cotation	différents choix de réponse
Validité	Développement de l'outil basé sur une revue systématique sur des études observationnelles non thérapeutiques et des outils d’évaluation de la qualité des études observationnelles (Shamliyan et al 2011).
Fidélité	La fidélité interjuge a été testé par des experts (Shamliyan et al 2011).
Autres informations	N/A
Principales références	Shamliyan, T. A., Kane, R. L., Ansari, M. T., Raman, G., Berkman, N. D., Grant, M., et al. (2011). Development quality criteria to evaluate nontherapeutic studies of incidence, prevalence, or risk factors of chronic diseases: pilot study of new checklists. Journal of Clinical Epidemiology, 64(6), 637-657.

MORE (Methodological Evaluation of Observational Research)

Devis de recherche	Études observationelles pour l'incidence ou la prévalence des maladies chroniques
Nombre de critères	6 items pour la validité externe et 5 items pour la validité interne
Cotation	différents choix de réponses
Validité	Développement de l'outil basé sur une revue systématique sur des études observationnelles non thérapeutiques et des outils d’évaluation de la qualité des études observationnelles (Shamliyan et al 2011).
Fidélité	La fidélité interjuge a été testé par des experts (Shamliyan et al 2011).
Autres informations	N/A
Principales références	Shamliyan, T. A., Kane, R. L., Ansari, M. T., Raman, G., Berkman, N. D., Grant, M., et al. (2011). Development quality criteria to evaluate nontherapeutic studies of incidence, prevalence, or risk factors of chronic diseases: pilot study of new checklists. Journal of Clinical Epidemiology, 64(6), 637-657.

RTI-Item Bank (Research Triangle Institute – Item Bank)

Devis de recherche	Outil développé pour évaluer la qualité des études sur des interventions ou des expositions (études de cohortes, cas-témoins, séries de cas et études transversales).
Nombre de critères	29 items sur 12 domaines (contexte, définition et sélection de l'échantillon, interventions/exposition, résultats, création de groupes de traitement, insu de la mesure, collecte de données, suivi, comparabilité des analyses, résultats des analyses, interprétation, présentation et information rapportées.
Cotation	différentes échelles
Validité	L'outil a été développé à partir d'une revue de la littérature des outils existants dans laquelle 60 items ont été sélectionnés. Seize experts ont commenté les items. Ensuite, neuf utilisateurs potentiels se sont prononcés sur la lisibilité, la complétude et la pertinence des items. La validité du contenu a été testée avec sept évaluateurs qui ont évalué le niveau d'essentialité de chaque item (Viswanathan & Berkman, 2012).
Fidélité	Douze évaluateurs ont évalué 10 études. Le pourcentage moyen de concordance entre les évaluateurs était de 66 % (entre 56 % et 90 %) (Viswanathan & Berkman, 2012).
Autres informations	N/A
Principales références	Viswanathan, M., & Berkman, N. D. (2012). Development of the RTI item bank on risk of bias and precision of observational studies. Journal of Clinical Epidemiology, 65(2), 163-178.

Evidence Project risk of bias tool

Devis de recherche	ECR et études non randomisées
Nombre de critères	8 items
Cotation	oui, non, non applicable, non rapporté
Validité	Outil développé à partir de la littérature sur la validité et méthode de recherche de devis quasi-expérimentaux et discussions de 3 coauteurs (Kennedy et al 2019).
Fidélité	Étude sur la fidélité interjuge: • Kennedy, C. E., Fonner, V. A., Armstrong, K. A., Denison, J. A., Yeh, P. T., O’Reilly, K. R., & Sweat, M. D. (2019). The Evidence Project risk of bias tool: assessing study rigor for both randomized and non-randomized intervention studies. Systematic Reviews, 8(1), 3.
Autres informations	N/A
Principales références	• Kennedy, C. E., Fonner, V. A., Armstrong, K. A., Denison, J. A., Yeh, P. T., O’Reilly, K. R., & Sweat, M. D. (2019). The Evidence Project risk of bias tool: assessing study rigor for both randomized and non-randomized intervention studies. Systematic reviews, 8(1), 3.

RoB-SPEO: Risk of Bias in Studies estimating Prevalence of Exposure to Occupational risk factors

Devis de recherche	Études non randomisées pour estimer la prévalence de l'exposition aux facteurs de risque occupationnels
Nombre de critères	8 domaines de biais
Cotation	faible, probablement faible, probablement élevé, élevé, pas d'information
Validité	Outil développé à partir d'une revue de littérature sur des outils existants pour évaluer la qualité des études de prévalences sur l'exposition aux facteurs de risque occupationnels et de collaboration d'experts de l'Organisation mondiale de la santé (OMS) et de l'Organisation internationale du travail (OIT) en matière de revues systématiques, santé occupationnelle et environnementale et science de l'exposition (Pega et al 2020).
Fidélité	Étude sur la fidélité interjuge: • Pega, F., Norris, S. L., Backes, C., Bero, L. A., Descatha, A., Gagliardi, D., Godderis, L., Loney, T., Modenese, A., & Morgan, R. L. (2020). RoB-SPEO: A tool for assessing risk of bias in studies estimating the prevalence of exposure to occupational risk factors from the WHO/ILO Joint Estimates of the Work-related Burden of Disease and Injury. Environment International, 135, 105039. • Momen, N. C., Streicher, K. N., da Silva, D. T., Descatha, A., Frings-Dresen, M. H., Gagliardi, D., Godderis, L., Loney, T., Mandrioli, D., & Modenese, A. (2022). Assessor burden, inter-rater agreement and user experience of the RoB-SPEO tool for assessing risk of bias in studies estimating prevalence of exposure to occupational risk factors: An analysis from the WHO/ILO Joint Estimates of the Work-related Burden of Disease and Injury. Environment international, 158, 107005.
Autres informations	N/A
Principales références	• Pega, F., Norris, S. L., Backes, C., Bero, L. A., Descatha, A., Gagliardi, D., Godderis, L., Loney, T., Modenese, A., & Morgan, R. L. (2020). RoB-SPEO: A tool for assessing risk of bias in studies estimating the prevalence of exposure to occupational risk factors from the WHO/ILO Joint Estimates of the Work-related Burden of Disease and Injury. Environment International, 135, 105039.

Étude de cas unique

RoBiNT (Risk of Bias in N-of-1 Trials)

Devis de recherche	Étude de cas unique
Nombre de critères	15
Cotation	0, 1, or 2
Validité	Le SCED a été élaboré à partir d'items issus d'une revue de littérature sur les principales caractéristiques de l'étude de cas unique. La validité et l'utilité du contenu de l'outil ont été testées avec 85 études de cas unique publiées (Tate et al., 2008).
Fidélité	La fidélité du RoBiNT a été testée avec deux évaluateurs expérimentés et deux évaluateurs novices qui ont évalué 20 articles. La concordance du score total était excellente, autant pour les évaluateurs expérimentés (ICC globale = 0,90) que pour les évaluateurs novices (ICC globale = 0,88) (Tate et al., 2013).
Autres informations	Le RoBINT est une mise à jour du SCED (Single-Case Experimental Design Scale).
Principales références	Tate, R. L., Perdices, M., Rosenkoetter, U., Wakim, D., Godbee, K., Togher, L., et al. (2013). Revision of a method quality rating scale for single-case experimental designs and n-of-1 trials: The 15-item Risk of Bias in N-of-1 Trials (RoBiNT) Scale. Neuropsychological Rehabilitation, 23(5), 619-638. Tate, R. L., Mcdonald, S., Perdices, M., Togher, L., Schultz, R., & Savage, S. (2008). Rating the methodological quality of single-subject designs and n-of-1 trials: Introducing the Single-Case Experimental Design (SCED) Scale. Neuropsychological Rehabilitation, 18(4), 385-401.

Étude non comparative

IHE QA ( Institute of Health Economics Quality Assessment)

Devis de recherche	Étude non comparative avant et après
Nombre de critères	20
Cotation	oui, partiel/pas clair, non
Validité	L'outil a été développé à partir des résultats d'une étude e-Delphi menée avec sept chercheurs spécialisés en évaluation des technologies de la santé. 105 études ont été identifiées et six évaluateurs ont chacun évalué 35 études. Une analyse factorielle (PCA) a été réalisée pour examiner les interrelations entre les critères et identifier des groupes de critères (Guo et al., 2016 ; Moga et al., 2012).
Fidélité	La version préliminaire a été utilisée par trois évaluateurs qui ont évalué 13 études. Un accord modéré à substantiel a été trouvé (Moga et al., 2012). La version finale a été utilisée par deux évaluateurs qui ont évalué sept études (résultats non publiés) (Guo et al., 2016).
Autres informations	https://www.ihe.ca/publications/ihe-quality-appraisal-checklist-for-case-series-studies
Principales références	• Guo, B., Moga, C., Harstall, C., & Schopflocher, D. (2016). A principal component analysis is conducted for a case series quality appraisal checklist. Journal of Clinical Epidemiology, 69, 199-207. e192. • Moga, C., Guo, B., Schopflocher, D., & Harstall, C. (2012). Development of a quality appraisal tool for case series studies using a modified Delphi technique. Edmonton, AB: Institute of Health Economics.

Instrument for Evaluating the Quality of Case Series Studies in Chinese Herbal Medicine

Devis de recherche	Outil développé pour évaluer la qualité des études non comparative avant et après sur les plantes médicinales
Nombre de critères	13 items sur 4 facteurs (objectifs et devis de l'étude, description du protocole de traitement, description des méthodes et des effets thérapeutiques/secondaires, et conduite de l'étude)
Cotation	0 or 1
Validité	Outil développé à partir d'une étude Delphi avec 7 experts. Cinq évaluateurs ont testé l'outil avec 12 études et ont commenté la formulation des items et l'ordre. En utilisant l'analyse factorielle (PCA avec rotation varimax), quatre facteurs ont été identifiés.
Fidélité	Vingt évaluateurs ont évalué 35 études. La cohérence interne et la fidélité interjuge étaient bonnes (alpha de Cronbach entre 0,80 et 0,85 et ICC de 0,904).
Autres informations	N/A
Principales références	Yang, A. W., Li, C. G., Da Costa, C., Allan, G., Reece, J., & Xue, C. C. (2009). Assessing quality of case series studies: development and validation of an instrument by herbal medicine CAM researchers. The Journal of Alternative and Complementary Medicine, 15(5), 513-522.

Études diagnostiques

QAREL (Quality Appraisal tool for studies of diagnostic RELiability checklist)

Devis de recherche	Études diagnostiques
Nombre de critères	11
Cotation	oui, non, pas clair, N/A
Validité	Outil développé sur la base de principes épidémiologiques, d'outils existants sur l'évaluation de la qualité, et des ressources STARD (Standards for Reporting of Diagnostic Accuracy) et QUADAS (Quality Assessment of Diagnostic Accuracy Studies). Trois experts en études diagnostiques ont commenté l'outil tout au long de son développement (Lucas et al 2010).
Fidélité	Trois réviseurs ont évalué 29 articles. L'accord interjuge a varié d'acceptable (k=0,27) à presque parfait (k=0,92) selon les items (Lucas et al 2013).
Autres informations	N/A
Principales références	• Lucas, N., Macaskill, P., Irwig, L., Moran, R., Rickards, L., Turner, R., et al. (2013). The reliability of a quality appraisal tool for studies of diagnostic reliability (QAREL). BMC medical research methodology, 13(1), 111. • Lucas, N. P., Macaskill, P., Irwig, L., & Bogduk, N. (2010). The development of a quality appraisal tool for studies of diagnostic reliability (QAREL). Journal of Clinical Epidemiology, 63(8), 854-861.

QUADAS-2 (Quality Assessment of Diagnostic Accuracy Studies)

Devis de recherche	Étude de précision diagnostique
Nombre de critères	4 domaines de biais. Chaque domaine comporte un ensemble de questions pour aider à porter un judgement sur les biais et l'applicabilité.
Cotation	risque de bias faible, élevé ou pas clair.
Validité	Le champ d'application de l'outil a été défini par un groupe de 9 experts en recherche diagnostique. Ensuite, quatre revues systématiques ont été réalisées pour informer les sujets à discuter lors d'une réunion de consensus en face à face avec 24 experts. L'outil a été piloté à l'aide de questionnaires en ligne (Whiting et al 2011).
Fidélité	Des paires de réviseurs ont testé l'outil dans 5 revues et la fidélité interjuge était variable (Whiting et al 2011).
Autres informations	Version précédente: QUADAS développé en 2003. QUADAS-2 développé en 2010. QUADAS-C (Quality Assessment of Diagnostic Accuracy Studies–Comparative) dévelopé en 2018, https://osf.io/hq8mf/.
Principales références	QUADAS-C: • Yang, B., Mallett, S., Takwoingi, Y., Davenport, C. F., Hyde, C. J., Whiting, P. F., et al. (2021). QUADAS-C: A Tool for Assessing Risk of Bias in Comparative Diagnostic Accuracy Studies. Annals of Internal Medicine, https://doi.org/10.7326/M7321-2234. QUADAS-2: • Whiting, P. F., Rutjes, A. W., Westwood, M. E., Mallett, S., Deeks, J. J., Reitsma, J. B., et al. (2011). QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Annals of Internal Medicine, 155(8), 529-536. QUADAS: • Hollingworth, W., Medina, L. S., Lenkinski, R. E., Shibata, D. K., Bernal, B., Zurakowski, D., et al (2006). Interrater reliability in assessing quality of diagnostic accuracy studies using the QUADAS tool: a preliminary assessment. Academic Radiology, 13(7), 803-810. • Mann, R., Hewitt, C. E., & Gilbody, S. M. (2009). Assessing the quality of diagnostic studies using psychometric instruments: applying QUADAS. Social Psychiatry and Psychiatric Epidemiology, 44(4), 300. • Whiting, P., Rutjes, A. W., Reitsma, J. B., Bossuyt, P. M., & Kleijnen, J. (2003). The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Medical Research Methodology, 3(25), 1-13. • Whiting, P. F., Weswood, M. E., Rutjes, A. W., Reitsma, J. B., Bossuyt, P. N., & Kleijnen, J. (2006). Evaluation of QUADAS, a tool for the quality assessment of diagnostic accuracy studies. BMC Medical Research Methodology, 6(9), 1-8.

PROBAST (Prediction model Risk Of Bias ASsessment Tool)

Devis de recherche	Études de modèles diagnostiques et pronostiques
Nombre de critères	20 questions sur 4 domaines (participants, prédicteurs, mesure de résulats et analyses – 2 à 9 pour chaque domaine)
Cotation	oui, probablement oui, probablement non, non, pas d'information
Validité	L'outil a été développé à partir d'une étude Delphi avec 38 experts et d'une revue de la littérature. L'outil a été piloté et affiné lors d'ateliers pendant des congrès scientifiques et avec des étudiants diplômés ainsi qu'avec 50 groupes qui ont mené des revues systématiques (Wolf et al 2019).
Fidélité	N/A
Autres informations	https://www.probast.org
Principales références	• Moons, K. G., Wolff, R. F., Riley, R. D., Whiting, P. F., Westwood, M., Collins, G. S., . . . Mallett, S. (2019). PROBAST: a tool to assess risk of bias and applicability of prediction model studies: explanation and elaboration. Annals of internal medicine, 170(1), W1-W33. • Wolff, R. F., Moons, K. G. M., Riley, R. D., Whiting, P. F., Westwood, M., Collins, G. S., et al. (2019). PROBAST: A Tool to Assess the Risk of Bias and Applicability of Prediction Model Studies PROBAST (Prediction model Risk Of Bias ASsessment Tool). Annals of Internal Medicine, 170(1), 51-58.

Étude transversale

AXIS tool (Appraisal tool for Cross-Sectional Studies)

Devis de recherche	Études transversales
Nombre de critères	20
Cotation	oui, non, je ne sais pas
Validité	L'outil a été développé à partir d'une revue de la littérature sur les outils d'évaluation de la qualité des études transversales. Il a été testé avec des chercheurs impliqués dans une revue systématique, dans des clubs de lecture et des réunions de recherche. Une étude Delphi avec des experts a été menée sur les éléments importants à inclure dans l'outil.
Fidélité	N/A
Autres informations	N/A
Principales références	Downes, M. J., Brennan, M. L., Williams, H. C., & Dean, R. S. (2016). Development of a critical appraisal tool to assess the quality of cross-sectional studies (AXIS). BMJ Open, 6(12), e011458.

Quality of survey studies in psychology (Q-SSP) checklist

Devis de recherche	Outil développé pour évaluer la qualité des études qui utilisent un sondage en psychologie.
Nombre d'items	20 items sur 4 domaines (introduction, participants, données, éthique)
Cotation	oui, non, pas d'indication claire, ou pas applicable
Validité	Les auteurs ont utilisé une approche de consensus d'experts avec un panel d'experts internationaux en psychologie et évaluation de la qualité (N=53). La validité de critère a été testée par 10 experts sur 20 études.
Fidélité	Des paires de réviseurs ont testé l'outil avec 30 études de trois revues. La fidélité interjuge pour la classification générale des études a été jugée bonne (ICC=0.77).
Autres informations
Principales références	• Protogerou, C., & Hagger, M. S. (2020). A checklist to assess the quality of survey studies in psychology. Methods in Psychology, 3. https://doi.org/10.1016/j.metip.2020.100031

Autres

MERSQI (Medical Education Research Study Quality Instrument)

Devis de recherche	Outil développé dans le domaine de l'enseignement médical et conçu pour les études expérimentales, quasi-expérimentales et observationnelles.
Nombre de critères	10 items sur 6 domaines (devis de l'étude, échantillonnage, type de données (subjectives ou objectives), validité, analyse des données et résultats)
Cotation	Un score maximal de 3 pour chaque domaine.
Validité	L'outil a été élaboré à partir d'une revue de la littérature et de discussions et révision par les auteurs. La dimensionnalité de l'outil a été examinée à l'aide de l'analyse factorielle (analyse en composante principale avec rotation orthogonale). La validité du critère a été testée sur 50 études en comparant le score au MERSQI et le score global d'experts (1 à 5). Aussi, les associations entre les scores MERSQI et les facteurs d'impact et les taux de citation ont été mesurées. Les scores totaux du MERSQI ont été associés aux score global des experts, au taux de citation sur trois ans et au facteur d'impact. Dans une analyse multivariée, les scores MERSQI ont été indépendamment associés au financement d'études de 20 000 $ ou plus et aux publications antérieures sur l'enseignement médical du premier auteur (Reed et al., 2007).
Fidélité	Des paires d'évaluateurs ont évalué 210 articles. Aussi, chaque étude a été réévaluée par le même évaluateur entre 3 et 5 mois après la première évaluation. Les intervalles ICC pour la fidélité interjuge et la fidélité test-retest étaient respectivement de 0,72 à 0,98 et de 0,78 à 0,998. Le alpha de Cronbach (cohérence interne) pour le score MERSQI était de 0,6 (Reed et al., 2007).
Autres informations	N/A
Principales références	Reed, D. A., Cook, D. A., Beckman, T. J., Levine, R. B., Kern, D. E., & Wright, S. M. (2007). Association between funding and quality of published medical education research. Journal of the American Medical Association, 298(9), 1002-1009.