Open data science slack как попасть
Перейти к содержимому

Open data science slack как попасть

  • автор:

Open data science slack как попасть

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

Всего голосов 13: ↑13 и ↓0 +13
Добавить в закладки 83
blondered 25 авг в 12:47

Дропаем ранжирующие метрики в рекомендательной системе, часть 3: платформа для экспериментов

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 1.2K

В прошлых частях статьи я описывала, как мы экспериментировали с рекомендательными моделями на датасете онлайн-кинотеатра Kion. Считали метрики, проводили визуальный анализ, диагностировали popularity bias и другие проблемы алгоритмов, строили двухэтапные модели.

Кроме онлайн приложения мы построили небольшую, но цельную платформу для экспериментов с рекомендательными моделями. Сегодня я подробно на ней остановлюсь:
— Расскажу о workflow экспериментов и пайплайнах обработки данных.
— О том, какие инструменты мы использовали для реализации платформы.
— Нарисую полную инфраструктуру проекта.

А также опишу, как мы построили эксперименты с кросс-валидацией скользящим окном для моделей, которые используют фичи, зависящие от времени. В том числе как мы сделали валидацию для двухэтапной модели с градиентным бустингом.

Будет много MLOps для RecSys.

Всего голосов 7: ↑7 и ↓0 +7
Добавить в закладки 18
blondered 18 авг в 10:00

Дропаем ранжирующие метрики в рекомендательной системе, часть 2: двухэтапные модели

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 1.8K

В первой части статьи я рассказала, как мы с напарником решили выкатить модель из соревнования в онлайн рекомендации, увидели проблему popularity bias, и затем построили новую модель, сбалансированную по метрикам.

В этой части я опишу, как мы улучшали результат выдачи рекомендаций с помощью двухэтапной модели.

Всего голосов 9: ↑9 и ↓0 +9
Добавить в закладки 9
blondered 11 авг в 12:45

Дропаем ранжирующие метрики в рекомендательной системе, часть 1: визуальный анализ и popularity bias

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 2.6K

Привет, Хабр! Поговорим о RecSys?

Что нужно для построения рекомендательной системы, которая будет полезна бизнесу? Топовые метрики, максимум предсказательной силы, machine learning на полную? Проверим. Сегодня покажу:

Как (и почему) мы дропнули в 3 раза ранжирующие метрики в пет-проекте по рекомендациям фильмов
Как искали свой идеальный алгоритм
Как подобрали релевантные рекомендации на самые разные запросы

Будем говорить обо всех аспектах экспериментов в RecSys: метрики, визуальный анализ, workflow. А результат проверим в онлайн-приложении.

Всего голосов 18: ↑18 и ↓0 +18
Добавить в закладки 28
Reshin 11 авг в 11:58

«Диалектик», независимое социалистическое медиа, рассказывает о своих NLP проектах, публикует датасеты и делится кодом

Уровень сложности Простой
Время на прочтение 15 мин
Количество просмотров 4.8K

Почти сразу после публикации поста про систему поиска новостей о трудовых конфликтах в СНГ я познакомился с коллективом проекта «Диалектик». Ребята отмечали важность отслеживания зарубежных забастовок и анализа опыта мирового рабочего движения в отстаивании трудовых прав. Поэтому я начал помогать «Диалектику» своими навыками работы с алгоритмами машинного обучения.

Было решено разработать систему, которая бы автоматически находила новости о зарубежных трудовых конфликтах. Во время разработки этой системы я познакомился с другими техническими проектами «Диалектика», о которых хочу рассказать в этом посте. Почти каждый проект включает в себя анализ данных, поэтому публикуемые в открытый доступ данные и код могут быть полезными Data Science сообществу.

Всего голосов 31: ↑28 и ↓3 +25
Добавить в закладки 25
dKosarevsky 18 апр в 20:16

Создай своего ИИ-ассистента с помощью ChatGPT и Streamlit

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 22K

Автор: Дмитрий Косаревский

Меня зовут Дима Косаревский, я инженер данных (DE), увлеченный Data Science и всем, что связано с этим направлением.
Data Science позволяет извлекать ценную информацию из огромных объемов данных при помощи статистических и вычислительных методов.

В последнее время эти ИИ, вроде ChatGPT, врываются прямо во все сферы. И вот благодаря увлечению Data Science можно использовать этих ботов, чтобы помогать людям, да ещё и пообщаться с ними на разные темы. Здорово, правда?

ChatGPT действительно впечатляет. Он не только общается на разные темы, но еще и стихи сочинять умеет.
Вот один из примеров, которые я получил недавно:

Всего голосов 31: ↑29 и ↓2 +27
Добавить в закладки 101
RationalAnswer 6 апр в 07:25

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе

Уровень сложности Простой
Время на прочтение 21 мин
Количество просмотров 46K

История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться – есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?

Всего голосов 129: ↑117 и ↓12 +105
Добавить в закладки 128
stalkermustang 18 мар в 10:43

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато

Уровень сложности Простой
Время на прочтение 23 мин
Количество просмотров 201K

В этой статье мы разберем новые удивительные способности последней языковой модели из семейства GPT (от понимания мемов до программирования), немного покопаемся у нее под капотом, а также попробуем понять – насколько близко искусственный интеллект подошел к черте его безопасного применения?

Всего голосов 208: ↑200 и ↓8 +192
Добавить в закладки 363
stalkermustang 6 мар в 08:26

Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда

Уровень сложности Простой
Время на прочтение 30 мин
Количество просмотров 252K

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Всего голосов 357: ↑350 и ↓7 +343
Добавить в закладки 802
Efaldgent 21 фев в 14:00

АБ-тесты — это не только ценный мех… Но еще и процессы

Время на прочтение 20 мин
Количество просмотров 4.7K

О математических нюансах АБ-тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.

При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема. На практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.

В этой статье я поделюсь своим опытом и советами о том, как это сделать.

Всего голосов 12: ↑12 и ↓0 +12
Добавить в закладки 49
andreycheptsov 14 фев в 17:18

Запуск Stable Diffusion локально и в облаке с помощью Diffusers и dstack

Время на прочтение 5 мин
Количество просмотров 12K

Вероятно, все уже слышали о Stable Diffusion — модели, способной создавать фотореалистичные изображения на основе текста. Благодаря библиотеке diffusers от HuggingFace, использование этой модели очень просто.

Однако организация проекта и зависимостей для его запуска независимо от среды (будь то локально или в облаке), все еще может быть сложной задачей.

В этой статье, я на простом примере расскажу о том, как решать эту проблему с помощью diffusers и dstack.

Всего голосов 27: ↑27 и ↓0 +27
Добавить в закладки 51
boygenius 3 фев в 14:19

Теория вероятностей в машинном обучении. Часть 2: модель классификации

Время на прочтение 14 мин
Количество просмотров 10K

В предыдущей части мы рассматривали вероятностную постановку задачи машинного обучения, статистические модели, модель регрессии как частный случай и ее обучение методом максимизации правдоподобия.

В данной части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax, как кроссэнтропия связана с «расстоянием» между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Данная часть содержит много отсылок к формулам и понятиям, введенным в первой части, поэтому рекомендуется читать их последовательно.

В третьей части (статья планируется) перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей — рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Всего голосов 29: ↑29 и ↓0 +29
Добавить в закладки 110
boygenius 31 янв в 14:29

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

Время на прочтение 28 мин
Количество просмотров 16K

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с «расстоянием» между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей — рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Open data science slack как попасть

Международное сообщество, объединяющее более 50К специалистов, исследователей и инженеров, связанных с Data Science: https://ods.ai

�� Вместе делаем крутые проекты, мероприятия и курсы
�� Делимся опытом, прокачивая себя и друг друга
�� Развиваем область

About
Blog
Apps
Platform

OpenDataScience RU
7.14K subscribers

Онлайн митап по LeanDS + методичка по внедрению

В LeanDS начинается новый сезон бесплатных онлайн-митапов. Ребята развивают подходы к управлению проектами в Data Science. Приходите послушать текущую версию подхода и поговорить про управление ЖЦ ML-моделей.

�� Текущая версия Lean Data Science 1.0 (SOTA), Асхат Уразбаев, основатель LeanDS
�� LeanDS в консалтинге в пустыне, или как мы перестали бояться и полюбили бэклог, Павел Голубев, ex-Principal Data Scientist, Reaktor Dubai / Head of Fraud Analytics, The Beat Research, Amsterdam
�� MLOps: жизненный цикл ML-моделей от идеи до продакшна,
Евгений Никитин, Head of AI, АО Калуга Астрал

Участники получат методичку по Lean Data Science

Среда 3 февраля в 19-00
Подробности и регистрация: https://leands.timepad.ru/event/1540178/

leands.timepad.ru
LeanDS#13. Lean Data Science / События на TimePad.ru

Начинаем новый сезон бесплатных онлайн митапов. В этот раз представим текущую версию LeanDS и новый кейс использования, а также поговорим о практиках ML Ops

Сообщества ML REPA и LeanDS организуют международную онлайн конференцию по Machine Learning Engineering, MLOps and Management, которое называется Machine Learning REPA Week 2021.

Объявляется набор спикеров! ⭐️

�� Количество участников: планируется 2.000 ��
���� Язык конференции — АНГЛИЙСКИЙ и доклад должен быть на английском (‼️)
�� с 5 по 11 Апреля 2021 c 19-00 до 21-00 (ориентировочно) МСК
�� Онлайн в zoom
�� Формат: доклады до 30 минут, воркшопы и демо до 60 минут
Темы: Management, Version Control, MLOps, Testing, CI/CD
Дедлайн подачи заявки на выступление: 15 марта 2021 года

Пришла долгожданная весна ��, и совсем скоро у нашего сообщества день рождения! �� В следующую субботу, 13 марта, приглашаем вас на ��Open Data Science 6th Birthday��! Старт в 13:00.

Вас ждёт эфир с крутыми спикерами сообщества, нетворкинг активности, Q&A со звёздами DS, интеллектуальная Data Science игра и многое другое! ��

Не забудьте зарегистрироваться на ивент, чтобы получить доступ к расписанию и все явки-пароли. Stay tuned!

Open Data Science (ODS.ai)
ODS 6th Birthday — Open Data Science
7.9K views edited 13:25

Мы уже второй год живём в новой реальности, но иногда так приятно вспомнить, каким мир был раньше, и немного порефлексировать �� Именно этим в первые весенние выходные 2021 решили заняться спикеры ODS, собравшись оффлайн, как в старые добрые, чтобы провести панельную дискуссию «Соревнования по машинному обучению: по волнам нашей памяти».

Участники:
Артур Кузин, Kaggle Grandmaster,
Станислав Семёнов, Kaggle Grandmaster
Михаил Трофимов, Kaggle Grandmaster
Евгений Нижибицкий, ML Engineer

Если вам понравится это видео, обязательно приходите на Open Data Science 6th Birthday 13 марта — там будет ещё больше ваших любимых спикеров и тем для обсуждения �� Увидимся уже в эту субботу!

Соревнования по машинному обучению: по волнам нашей памяти

Панельная дискуссия, март 2021

Спикеры:
Артур Кузин, Kaggle Grandmaster
Станислав Семенов, Kaggle Grandmaster
Михаил Трофимов, Kaggle Grandmaster
Евгений Нижибицкий, ML Engineer

Понравилось это видео? Подключайтесь к прямому эфиру в наш День Рождения 13…

​​Data Fest возвращается! �� Data Fest Online 2021 откроется уже 22 мая ��

Как и прошлой осенью вас ждут:

�� Целый день премьер и прямых включений из зоопарка с топовыми ведущими из ODS, плюс ваши любимые мохнатые и пернатые соведущие. Специальный гость — маленький медведь Потап ��

�� Море нетворкинга в Spatial Chat: десятки комнат по интересам со всеми полюбившимися и принципиально новыми форматами

�� Десятки треков от сообщества и партнёров феста с докладами топовых спикеров и практическими заданиями для всех зарегистрированных участников

�� Ещё куча новых крутых штук ��

Регистрируйтесь, чтобы получить доступ ко всем активностям Data Fest. До встречи!

16.5K views 09:14

OpenDataScience RU pinned « ​​Data Fest возвращается! �� Data Fest Online 2021 откроется уже 22 мая �� Как и прошлой осенью вас ждут: �� Целый день премьер и прямых включений из зоопарка с топовыми ведущими из ODS, плюс ваши любимые мохнатые и пернатые соведущие. Специальный гость … »

​​Друзья, Data Fest начинается уже в эту субботу! ��

Будет вновь комбо из Youtube и Spatial Chat с треками на ods.ai. Ссылка на Youtube трансляцию уже доступна. Наш spatial.chat теперь живёт на https://live.ods.ai/, а пароль для него появится у зарегистрированных участников в субботу утром ��

Регистрируйтесь и присоединяйтесь к нам в эту субботу!

Мы только что выложили программу и план на 22 мая ��
В ней еще будет несколько дополнений, но уже сейчас можно найти для себя много чего интересного!

А теперь внезапное — мы также выкатили огромный апдейт ods.ai ��
Особенно сильно прокачались треки: теперь можно лучше всё систематизировать, вести новости треков, ставить реакшены. ��

А ещё, от треков можно проводить митапы!
В ближайший месяц вас ждут десятки тематических митапов от ODS треков Data Fest �� Расписание будет доступно на https://ods.ai/events/, а участие и регистрация на них — через сами треки.

И это ещё не всё!
Начиная с июня можно будет организовывать митапы на ods.ai от сообщества для сообщества, как на нашем собственном meetup.com. Эта возможность будет у треков и проектов на ods.ai. Если вы планируете митапы сообществ, то пишите нам и создавайте проекты на ODS!

P.S. А еще у нас идёт набор проектов на летнюю школу ODS Summer of Code. Про неё диктатор расскажет подробнее в субботу на стриме Феста ��

Top 8 Data Science Slack Communities to Join in 2023

Take your Data Science journey to the next level by joining these Slack communities in 2023.

By Nisha Arya, KDnuggets on January 26, 2023 in Data Science

Top 8 Data Science Slack Communities to Join in 2023

Image by Author

This year you’re probably looking at a shift in your career, learning a new skill and making more effort with personal development. According to the US Bureau of Labor Statistics, there is a predicted 36% growth of Data Scientists between 2021 and 2031.

If you are looking into getting into the world of Data, there are readily available resources that you can benefit from online. From books, courses, cheat sheets, communities, and more.

If you are looking for learning resources, have a look at these:

  • Learn Data Science From These GitHub Repositories
  • Free Data Management with Data Science Learning with CS639
  • How Much Math Do You Need in Data Science?
  • What Google Recommends You do Before Taking Their Machine Learning or Data Science Course

Datatalks.Club

As it mentions in the name, it’s everything data. This can be from data analytics, data science, and machine learning. There are various Slack channels such as #book-of-the-week, #career, #datascience, #events, #ai-memes-for-ai-peeps, and more. They have weekly events which you are free to join and a podcast with up to 12 seasons. If you would like to join the Datatalks.Club Slack community, click on this link: Datatalks.Club Slack

Data Science Salon

Data Science Salon is a unique conference that has become a diverse community with a team full of senior Data Scientists, Machine Learning engineers, and more. They aim to bring tech professionals together, to help them network, grow and learn from one another with possible innovative solutions. If you would like to join the Data Science Salon Slack community, click on this link: Data Science Salon Slack

Data Reliability Engineering Community

This community on Slack is more finely granulated to a specific problem in Data Science. There is a wide range of data engineers and scientists who network and communicate in-depth about data reliability problems and the best practices on how to overcome them. If this is an aspect of Data Science that you want to focus on or need more direction, this will be a valuable slack channel. If you would like to join the Data Reliability Engineering Community, click on this link: Data Reliability Engineering Community Slack.

datascientists

A community that speaks on Data science, data warehouses, BI-related conversations, topics, and more. You will network with others in the field, and learn from their mistakes as they will learn from yours. If you want to join the datascientists community, click on this link: datascientists slack.

AI-ML-Data Science Lovers

If you are looking for something a bit more chilled and laid-back, the AI-ML-Data Science Lovers slack community is for you. It is a community full of people having general conversations about data science, machine learning and artificial intelligence. It is an excellent way to keep in the loop on other people’s opinions and expand your knowledge base. If you want to join the AI-ML-Data Science Lovers community, click on this link: AI-ML-Data Science Lovers Slack.

Open Data Science Community

A community that focuses on everything Data Science related. You will be in the loop of the best Data Science articles to read, tutorials that will benefit your learning process, code sharing and overall advice. Designed to connect Data Science professionals from all over the world. If you would like to join the Open Data Science Community, click on this link: Open Data Science Community Slack.

Papers with Code

Papers with Code is a free and open resource that provides Machine Learning papers, code, datasets, methods and evaluation tables. With the community, you will gain access to quality resources to help your learning process. You will move from learning the theory of Data Science to applying your skills and developing them. If you would like to join the Paper with Code Community, click on this link: Paper with Code Slack.

KaggleNoobs

If you’re aiming to thrive as a Data scientist, you will need to practice your coding skills. The only way for you to test your skills is through projects. As a beginner, Kaggle will be your best friend. Therefore, it will be advisable to join the Kaggle community to help you with unanswered questions and guidance on particular aspects. If you want to join the KaggleNoobs Community, click on this link: KaggleNoobs Slack.

Conclusion

Slack communities are not only great learning resources, but they also help beginners ease into a completely new sector. You can learn from other people’s learning processes, and projects, as well as book and course recommendations.

Nisha Arya is a Data Scientist and Freelance Technical Writer. She is particularly interested in providing Data Science career advice or tutorials and theory based knowledge around Data Science. She also wishes to explore the different ways Artificial Intelligence is/can benefit the longevity of human life. A keen learner, seeking to broaden her tech knowledge and writing skills, whilst helping guide others.

More On This Topic

  • Join Cassie Kozyrkov, Jim Swanson, Linda Avery & other data science leaders…
  • Want to Join a Bank? Everything Data Scientists Need to Know About Working…
  • Join Data Literacy Month 2022
  • Join Doug Turnbull’s ‘ML Powered Search’ Live Cohort
  • Join Dr. Kirk Borne’s Applied Machine Learning Live Course
  • 2022 INFORMS Business Analytics Conference: Join us for cutting-edge…

Top 13 Data Science and Machine Learning Slack Communities

Virtual communities make a difference, especially during a pandemic where people are unable to meet and interact in person. Slack is a real gold mine when it comes to finding inspiring peers who share similar data science joys and challenges.

That’s why we have put together our favorite data science Slack workspaces that you should not miss out in order to keep ahead of the latest conversations on data science, AI and machine learning research, applications, job offers and events. Hope you find them fun and valuable!

Did we miss a community? Let us know in this Twitter thread and we’ll add it to the list.

  • Watson Developer Community (WВC) (14,152): IBM Watson Developers
  • Data Science Salon (2,200): The official slack channel for Data Science Salon and DSSelevate community. The vibrant online community for data science managers and practitioners features hosted chats on data science, facilitated networking, industry announcements and event discounts.
  • Data Reliability Engineering Community (DRE CON): Community for data engineers and scientists to talk about data reliability problems and best practices.
  • Convergence: Slack chat for the MLOps community.
  • R-Team for Data Analysis (2,590): Global chat for learning and exploring the R data analysis tool
  • Data Scientists (n/a): Data scientists, data warehouses, and BI-related things.
  • Spark NLP (2,900): Natural language processing focused Slack community, covering all NLP related topics.
  • AI Researchers and Enthusiasts (10,000): A channel for researchers on artificial intelligence.
  • AI ML Data Science Lovers (1,700): General chat on machine learning and artificial intelligence.
  • TWIML Community (n/a): G lobal network of machine learning, deep learning and AI practitioners and enthusiasts. Members exchange info, tips, ideas and assistance.
  • DataTalks.Club (13,300): A global place to talk about data to talk about analytics, machine learning, and engineering as well as to ask career questions and discuss career options.
  • MLOps Community (9,300): MLOps announcements, jobs, questions answered, news and events.
  • PyLadies (8,400): An international mentorship group with a focus on helping more women become active participants and leaders in the Python open-source community.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *