Skip to content

Data Set for Aurora OS

О проекте

Проект Aurora Dataset является базой знаний по ОС Аврора. С помощью этой базы Aurora Bot и Cosbot умеет отвечать на вопросы. Проект использует язык Pkl, который имеет типизацию и генерацию в различные форматы. Проект открыт, в него можно добавлять данные и использовать в других проектах, не связанных с COS.

Шаблон HTML

Для формирования основного текста используется формат HTML, в сокращенном виде: Telegram HTML style. Подходит для телеграм-ботов и всех других парсеров.

Демонстрационное сообщение описывает желаемый формат данных в Dataset:

На сообщение можно посмотреть в Aurora Bot, перейдя по DeepLink бота.

new ItemTemplate {
    t = "Демонстрационное_сообщение."
    i = "https://raw.githubusercontent.com/keygenqt/aurora-dataset/refs/heads/dump/data/affe3cbb-2142-4fce-88f9-dee606276754.png"
    b = """
        Ознакомиться с "HTML style" можно по ссылке:
        1. https://core.telegram.org/bots/api#html-style
        2. <a href="https://core.telegram.org/bots/api#html-style">HTML style</a>

        В этом сообщении демонстрируются теги, которые можно использовать:
        1. <b>bold</b>
        2. <i>italic</i>
        3. <u>underline</u>
        4. <s>strikethrough</s>
        5. <span class="tg-spoiler">spoiler</span>

        <blockquote>⌫
        Вот так выглядит цитата без expandable.
        </blockquote>

        <blockquote expandable>⌫
        Чтобы тексты не превращались в длиииииную строку, введен символ U+232B.⌫
        1. Символ за <code>&gt;</code> - будет удалена новая строка идущая следом.
        2. В тексте - удалит новую строку и поставит пробел.
        3. Один в строке - строка будет удалена.
        </blockquote>

        Кодовая вставка:
        <pre><code class="language-cpp">⌫
        // Будьте аккуратны добавляя символы, html может вас не понять. Символы должны быть экранированы!
        int main(int argc, char *argv[]) {
        return 0;
        }
        </code></pre>

        Короткие формы:
        1. <code>inline fixed-width code</code>.
        2. <pre>inline fixed-width code</pre>
        """
    a = authors.keygenqt
    ts = 1734498526
}

Dump CI

При добавлении новый данных в репозиторий, GitHub Actions создает в ветке dump сборку данных в различных форматах, которые можно получить в любое время.

Скрипты

В репозитории проекта есть директория python-скриптов, которые помогут добавлять данные:

> hash.py

В данные можно добавить картинку. Так же как и дампы, их можно найти в ветке dump. Для добавления картинки нужен уникальный хеш - этот скрипт помогает его получить.

> pkl.py

Скрипт, упрощающий работу с Pkl. С помощью этого скрипта можно установить и обновить Pkl на ПК. А также создать дамп данных в необходимом формате: json, jsonnet, pcf, plist, xml, yaml.

> stats.py

С помощью этого скрипта можно узнать статистику по базе знаний.

> uts.py

Данные имеют дату их добавления в timestamp. Скрипт помогает получить текущий timestamp, а также получить timestamp из дат в других форматах.

> validate.py

Данные требуют валидации. GitHub Actions перед созданием дампа проверяет на соответствие правилам. Этот скрипт можно запустить и локально - он подскажет, все ли хорошо с новыми данными.

Как помочь

Подобные базы собрать не просто, но я попробую. Помощь в этом деле не помешала бы. Добавить информацию в базу легко - просто сделайте пулл-реквест и пройдите ревью, и бот заговорит вашими знаниями.

https://github.com/keygenqt/aurora-dataset

Лицензия

Copyright 2024 Vitaliy Zarubin

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.