BASE - Bielefeld Academic Search Engine
Goldene Regeln für Quellenbetreiber

Wir indexieren grundsätzlich alle Quellen - Zeitschriften, Repositorien, Digitale Sammlugen etc. - mit wissenschaftlichen Inhalten, die über eine OAI-Schnittstelle verfügen und die Metadaten über OAI-PMH bereitstellen (mehr zu OAI erfahren Sie auf den Seiten der Open Archives Initiative oder in der Wikipedia). Sollte Ihre Quelle nicht über eine OAI-Schnittstelle verfügen, dann laden Sie Ihre Dokumente in Aggregatoren wie DataCite oder Zenodo hoch, in einem fachlichen Repository wie RePEC oder melden Sie Ihre Open-Access-Zeitschrift im DOAJ an. Diese Quellen indexieren wir regelmäßig.

Der beste Weg, damit Ihre Dokumente von uns indexiert und in BASE gefunden werden, ist aber das Betreiben einer eigenen OAI-Schnittstelle. Wir haben einige "Goldene Regeln" zusammen getragen, die Ihnen dabei helfen, Ihre OAI-Schnittstelle zu optimieren. Hält Ihre OAI-Schnittstelle diese Regeln ein, ist eine problemlose und schnelle Indexierung in BASE gewährleistet. Die Daten Ihrer Quelle werden optimal und vollständig in BASE präsentiert … und natürlich profitieren davon auch alle anderen Dienste, die Daten über Ihre OAI-Schnittstelle indexieren.

Einige der hier aufgeführten Punkte können Sie mit unserem OAI-PMH-Validator OVAL prüfen.

  • Funktionierende OAI-Schnittstelle
    Ihre OAI-Schnittstelle ist stabil und antwortet. Die Anfrage nach ListRecords liefert Ergebnisse, ohne dass es dabei zu einem Timeout oder einem Ausgabefehler kommt.
    Funktioniert Ihre OAI-Schnittstelle nicht korrekt, ist eine Indexierung Ihrer Quelle nicht möglich.
  • Kennzeichnung von Änderungen / Löschungen
    Jede nachträgliche Änderung eines Datensatzes, muss in Ihrer OAI-Schnittstelle gekennzeichnet werden, indem der "datestamp" des Dokuments aktualisiert wird. Wird ein Dokument aus Ihrer Quelle gelöscht, so muss der Datensatz in der OAI-Schnittstelle als "deleted" gekennzeichnet werden. Keinesfalls darf der Datensatz vollständig aus der OAI-Schnittstelle gelöscht werden.
    Alle indexierten Quellen werden in BASE regelmäßig aktualisiert. Wird der "datestamp" nicht aktualisiert oder wird ein Dokument nicht als "deleted" gekennzeichnet (sondern vollständig aus der OAI-Schnittstelle entfernt), ist eine Aktualisierung im BASE-Index nicht möglich und das Dokument verbleibt unverändert und damit fehlerhaft im Index.
  • Vollständige Metadaten
    Jeder Eintrag in Ihrer OAI-Schnittstelle verfügt über möglichst vollständige Metadaten zu einem Dokument (Titel, Autor, Abstract, Erscheinungsjahr) und verwendet das info-eu-repo-Vokabular.
    Fehlen wichtige Metadaten, sind Dokumente aus Ihrer Quelle nur schlecht in BASE zu finden. Wenn Sie das info-eu-repo-Vokabular verwenden, stellen Sie sicher, dass wir Ihre Metadaten optimal verarbeiten, indexieren und anzeigen können.
  • Funktionierende / Persisente Identifier (URL, DOI, Handle, URN)
    Jeder Datensatz enthält im Feld <dc:identifier> eine funktionierende URL (beginnend mit http oder https). Diese führt entweder zur Frontdoor des Dokuments oder direkt zum Volltext (PDF). Wird der Volltext nicht in einem gängigen Dateiformat (HTML, PDF) angeboten, sollte der Identifier zur Frontdoor und nicht direkt zum Volltext führen.
    Stellen Sie möglichst persisente Identifier (DOI, Handle, URN) zur Verfügung, die z.B. auch bei einem Umzug des Servers und damit einer Änderung der URL weiterhin funktionieren. Stellen Sie sicher, dass die DOIs etc. bei einer entsprechenden Registrierungsagentur registriert sind und funktionieren. Insbesondere bei DSpace-Installationen muss der 'handle' konfiguriert werden, da er sonst auf eine dummy-URL (123456789) führt, die eine Fehlermeldung erzeugt.
    Alle Dokumente, deren Identifier nicht mit http(s) beginnen oder auf einen dummy-Handle (123456789) führen, werden nicht indexiert. Ist eine DOI etc. nicht registriert, wird das Dokument zwar indexiert, aber der Link in der BASE-Trefferliste führt zu einer Fehlermeldung. Quellen, bei denen ein Großteil der Links nicht funktionieren, werden ggf. aus dem Index entfernt.
  • Informationen zum Zugang (Open Access)
    Im Feld <dc:rights> sind Informationen zum Zugang auf den Volltext nach dem info-eu-repo-Vokabular enthalten. Alternative: Open-Access-Dokumente stehen in einem eigenen Set (OA-Set) zur Verfügung. Der Name dieses Sets ist bei jedem Datensatz im Feld setSpec enthalten.
    Stehen diese Angaben nicht oder nur unzureichend zur Verfügung, werden Informationen zum Zugang von Dokumenten aus Ihrer Quelle unvollständig, gar nicht oder fehlerhaft ausgegeben und die Einschränkung auf Zugangsarten funktioniert für Ihre Quelle nicht korrekt.
  • Informationen zur Nachnutzung (Creative Commons)
    Sie bieten Ihren Autoren die Möglichkeit an, Dokumente unter eine Creative-Commons-Lizenz zu stellen und geben die entsprechende Lizenz in Ihrer OAI-Schnittstelle in einem weiteren <dc:rights>-Feld an, z.B. <dc:rights>https://creativecommons.org/licenses/by/4.0/</dc:rights>.
    Stehen diese Angaben nicht oder nur unzureichend zur Verfügung, werden Informationen zur Nachnutzung von Dokumemten aus Ihrer Quelle unvollständig, gar nicht oder fehlerhaft ausgegeben und die Einschränkung auf Nachnutzungsmöglichkeiten funktioniert für Ihre Quelle nicht korrekt.
  • Ergänzen Sie Autorennamen um eine ORCID iD (und ggf. weitere Personen-Identifier)
    Fördern Sie die Verbreitung von ORCID iDs (und ggf. weiteren Personen-Identifier), um Autoren eindeutig identifizieren zu können (auch bei Namensgleichheit). Ermutigen Sie Autoren, die in Ihrer Quelle publizieren, sich bei ORCID zu registrieren um eine ORCID iD zu erhalten oder registrieren Sie selbst Autoren bei ORCID und ergänzen Sie die ORCID iDs in den Metadaten. In einigen Metadatenformaten, die über OAI-PMH ausgeliefert werden, werden ORCID iDs in einem separaten Feld ausgegeben und können dann auch separat indexiert und werden. Bisher indexiert BASE ausschließlich OAI-DC (Dublin Core). Hier sollten ORCID iDs direkt als Bestandtteil des Autorennamens ausgegeben werden (z.B. <dc:creator>Summann, Friedrich (ORCID-ID 0000-0002-6297-3348)</dc:creator>).
    Ist eine ORCID iD vorhanden, können Autoren bei einer Suche in BASE auch anhand der ORCID iD gefunden werden.
  • Zeichenkodierung
    Alle Inhalte in Ihrer OAI-Schnittstelle (Titel, Autorennamen, Abstracts) sind in UTF-8 kodiert.
    Andere Kodierungen oder doppelte Kodierungen erzeugen Fehler in der Darstellung von Treffern aus Ihrer Quelle.
  • Erscheinungsdatum
    Jeder Datensatz enthält im Feld <dc:date> das Erscheinungsjahr oder das Erscheinungsdatum des Dokuments im ISO 8601 Format (YYYY-MM-DD, z.B. 2016-04-01 für den 1. April 2016), nach dem gregorianischen Kalender. Das Feld <dc:date> sollte nur einmal belegt sein.
    Die Einschränkung / Sortierung nach Erscheinungsjahren in BASE funktioniert sonst für Ihre Quelle nicht korrekt.
  • Sprache der Dokumente
    Sie stellen Angaben zur Sprache eines Dokumente nach ISO-639 (2- oder 3-Letter-Code) im Feld <dc:language> zur Verfügung.
    Angaben zur Sprache werden in BASE für Dokumente aus Ihrer Quelle ansonsten nicht oder fehlerhaft ausgegeben und die Einschränkung auf eine Sprache funktioniert für Ihre Quelle nicht korrekt.
  • Quellenangaben / Zitation
    Angaben zur Quelle oder zur Zitation (z.B. bei Artikeln der Name, Band, Heft der Zeitschrift) stehen in <dc:source>.
    Diese Angaben ermöglichen es Nutzern, Ihre Dokumente in BASE besser zu finden.
  • Datensätze pro Seite / ResumptionToken
    Auf jeder Trefferliste Ihrer OAI-Schnittstelle werden im Idealfall 50-1000 Datensätze ausgegeben. Der resumptionToken funktioniert und liefert die nächsten 50-1000 Datensätze aus.
    Werden weniger Datensätze pro Seite ausgeliefert führt dies zu vielen einzelnen Aufrufen, wenn wir Ihre Quelle harvesten. Mehr Datensätze pro Seite machen dagegen die gelieferten Dateien zu groß und erhöhen das Risiko von Abbrüchen beim Harvesten der Datensätze. Funktioniert der resumptionToken nicht, ist eine Indexierung nicht möglich.
  • Kontaktpersonen
    In den Identify-Angaben Ihrer OAI-Schnittstelle ist im Feld adminEmail eine E-Mail-Adresse angegeben, über die eine Kontaktaufnahme zum technischen Betreiber der OAI-Schnittstelle möglich ist. Auf der Homepage Ihrer Quelle steht eine E-Mail-Adresse zur Verfügung, über die die Kontaktaufnahme zum Quellenbetreiber gewährleistet ist.
    Nur wenn die E-Mail-Adressen funktionieren und E-Mails gelesen und beantwortet werden, können wir bei Problemen oder Fragen mit Ihnen Kontakt aufnehmen.
  • Informationen über Änderungen
    Wenn sich die URL Ihrer OAI-Schnittstelle ändert, Sie auf ein anderes System umstellen oder sich am Namen Ihrer Quelle etwas ändert, informieren Sie uns darüber über unser Kontaktformular.
    Wir prüfen in unregelmäßigen Abständen alle Quellen und korrigieren ggf. Angaben (Name, System, URL). Wenn Sie uns aktiv über Veränderungen informieren, stellen Sie sicher, dass Ihre Quelle immer vollständig und korrekt von BASE erfasst und indexiert wird. Diese Informationen geben wir wiederum über unser OAI-PMH-Blog der weltweiten Community bekannt.

  • Bekanntgabe Ihrer Quelle
    Melden Sie Ihre Quelle in OAI-Registries wie OpenDOAR, ROAR oder Openarchives an und aktualisieren Sie bei Änderungen Ihre Angaben in den Registries.
    Machen Sie Ihre Quelle und Ihre Schnittstellen weltweit bekannt und ermöglichen Sie ggf. auch anderen Suchmaschinen die Indexierung von Dokumenten aus Ihrer Quelle.