Fermer

août 2, 2022

Comment le Web Scraping apporte la liberté à la recherche


Opinions exprimées par Chef d’entreprise les contributeurs sont les leurs.

Il y a plusieurs étapes à tout académique projet, dont la plupart diffèrent selon les hypothèses et la méthodologie. Peu de disciplines, cependant, peuvent complètement éviter le marcher. Même dans recherche qualitativecertaines données doivent être collectées.

Malheureusement, l’étape incontournable est aussi la plus compliquée. Une bonne recherche de haute qualité nécessite une tonne de données soigneusement sélectionnées (et souvent randomisées). Obtenir tout cela prend énormément de temps. En fait, il s’agit probablement de l’étape la plus longue de tout le projet de recherche, quelle que soit la discipline.

Quatre méthodes principales sont employées lorsque des données doivent être collectées pour la recherche. Chacun d’entre eux présente de nombreux inconvénients, mais certains sont particulièrement gênants :

Lié: Le grattage de site Web est un hack de croissance facile que vous devriez essayer

Collecte manuelle des données

L’une des méthodes les plus éprouvées est la collecte manuelle. C’est presque une méthode infaillible, car le chercheur obtient un contrôle total sur le processus. Malheureusement, c’est aussi la pratique la plus lente et la plus chronophage de toutes.

De plus, la collecte manuelle de données se heurte à des problèmes de randomisation (si nécessaire) car il peut parfois être presque impossible d’induire l’équité dans l’ensemble sans nécessiter encore plus d’efforts que prévu initialement.

Enfin, la collecte manuelle des données nécessite toujours un nettoyage et une maintenance. Il y a trop de place pour une erreur possible, en particulier lorsque de très grandes quantités d’informations doivent être collectées. Dans de nombreux cas, le processus de collecte n’est même pas effectué par une seule personne, donc tout doit être normalisé et égalisé.

Bases de données publiques ou de recherche existantes

Certaines universités achètent de grands ensembles de données à des fins de recherche et les mettent à la disposition du corps étudiant et d’autres employés. De plus, en raison des lois existantes sur les données dans certains pays, les gouvernements publient chaque année des recensements et d’autres informations à l’intention du public.

Bien que ceux-ci soient généralement excellents, il y a quelques inconvénients. D’une part, les achats universitaires de bases de données sont guidés par l’intention de recherche et les subventions. Il est peu probable qu’un seul chercheur convainque le service financier de lui fournir les données dont il a besoin auprès d’un fournisseur, car il pourrait ne pas y avoir suffisamment ROI faire cela.

De plus, si tout le monde acquiert ses données à partir d’une source unique, cela peut entraîner des problèmes d’unicité et de nouveauté. Il y a une limite théorique aux idées qui peuvent être extraites d’un seul , à moins qu’il ne soit continuellement renouvelé et que de nouvelles sources soient ajoutées. Même dans ce cas, de nombreux chercheurs travaillant avec une seule source pourraient involontairement fausser les résultats.

Enfin, l’absence de contrôle sur le processus de collecte peut également fausser les résultats, en particulier si les données sont acquises via des fournisseurs tiers. Les données peuvent être collectées sans avoir à l’esprit des objectifs de recherche, elles peuvent donc être biaisées ou ne refléter qu’une petite pièce du puzzle.

Lié: Utilisation de données alternatives pour les prévisions à court terme

Récupérer les données des entreprises

Les entreprises ont commencé à travailler plus étroitement avec les universités de nos jours. Désormais, de nombreuses entreprises, dont Oxylabs, ont développé des partenariats avec de nombreuses universités. Certaines entreprises offrent des subventions. D’autres fournissent des outils ou même des ensembles de données entiers.

Tous ces types de partenariats sont formidables. Cependant, je crois fermement que fournir uniquement les outils et les solutions pour l’acquisition de données est la bonne décision, les subventions venant juste après. Il est peu probable que les ensembles de données soient aussi utiles pour les universités pour plusieurs raisons.

Premièrement, à moins que l’entreprise n’extraite des données pour cette recherche particulière seule, il peut y avoir des problèmes d’applicabilité. Les entreprises vont collecter des données c’est nécessaire pour leurs opérations et pas grand-chose d’autre. Cela peut accidentellement être utile à d’autres parties, mais ce n’est pas toujours le cas.

De plus, tout comme avec les bases de données existantes, ces collections peuvent être biaisées ou avoir d’autres problèmes liés à l’équité. Ces problèmes pourraient ne pas être aussi apparents dans la prise de décision des entreprises, mais pourraient être critiques dans la recherche universitaire.

Enfin, toutes les entreprises ne donneront pas des données sans aucune condition. Bien qu’il puisse y avoir des précautions nécessaires à prendre, surtout si les données sont sensibles, certaines organisations voudront voir les résultats de l’étude.

Même sans aucune mauvaise intention de la part de l’organisation, biais de notification des résultats pourrait devenir un problème. Les non-résultats ou les mauvais résultats pourraient être perçus comme décevants voire préjudiciables au partenariat, ce qui fausserait involontairement la recherche.

Passant aux subventions, il y a aussi des problèmes connus avec eux. Cependant, ils ne sont pas aussi pressants. Tant que les études ne sont pas entièrement financées par une entreprise dans un domaine où elle est impliquée, biais de publication sont moins susceptibles de se produire.

En fin de compte, fournir l’infrastructure qui permettra aux chercheurs de recueillir des données sans aucun frais généraux, autres que les précautions nécessaires, est le moins susceptible de biais et d’autres problèmes de publication.

Lié: Une fois seulement pour les grandes entreprises, ‘Récupération Web‘ est maintenant une course aux armements en ligne qu’aucun spécialiste du marketing Internet ne peut éviter

Entrez dans le web scraping

Pour poursuivre ma réflexion précédente, l’une des meilleures solutions qu’une entreprise puisse offrir aux chercheurs est grattage Web. Après tout, c’est un processus qui permet la collecte automatisée de données (dans des formats bruts ou analysés) à partir de nombreuses sources disparates.

Cependant, la création de solutions de web scraping prend énormément de temps, même si les connaissances nécessaires sont déjà en place. Ainsi, même si les avantages pour la recherche peuvent être importants, il y a rarement une bonne raison pour que quelqu’un en s’engager dans une telle entreprise.

Une telle entreprise prend du temps et est difficile même si nous négligeons toutes les autres pièces du puzzle – l’acquisition de proxy, la résolution de CAPTCHA et de nombreux autres obstacles. Ainsi, les entreprises peuvent fournir un accès aux solutions pour permettre aux chercheurs de passer à travers les difficultés.

La constitution de web scrapers ne serait cependant pas indispensable si les solutions ne jouaient pas un rôle important dans la liberté de recherche. Avec tous les autres cas que j’ai décrits ci-dessus (en dehors de la collecte manuelle), il y a toujours un risque de biais et de problèmes de publication. De plus, les chercheurs sont alors toujours limités par l’un ou l’autre facteur, comme le volume ou la sélection des données.

Avec le web scraping, cependant, aucun de ces problèmes ne se produit. Les chercheurs sont libres d’acquérir les données dont ils ont besoin et de les spécialiser en fonction de l’étude qu’ils mènent. Les organisations impliquées dans la fourniture de web scraping n’ont pas non plus de peau dans le jeu, il n’y a donc aucune raison pour que des préjugés apparaissent.

Enfin, comme tant de sources sont disponibles, les portes sont grandes ouvertes pour mener des recherches intéressantes et uniques qui, autrement, seraient impossibles. C’est presque comme avoir un ensemble de données infiniment grand qui peut être mis à jour avec presque n’importe quelle information à tout moment.

En fin de compte, le web scraping est ce qui permettra aux universitaires et aux chercheurs d’entrer dans une nouvelle ère d’acquisition de données. Cela facilitera non seulement le processus de recherche le plus coûteux et le plus compliqué, mais cela leur permettra également de rompre avec les problèmes conventionnels liés à l’acquisition de données auprès de tiers.

Pour les universitaires qui souhaitent entrer dans le futur plus tôt que les autres, Oxylabs est prêt à s’associer pour aider les chercheurs à bénévolement dispositions de notre solutions de scraping web.




Source link